《星际迷航》帮助我们揭开了人工智能的秘密——至少部分揭开了。(图片来源:AdobeStock - Stateronz)
llm(大型语言模型)——通常被称为人工智能——是实用的,但不是完美的。还有很多事情要做,特别是在数学领域,因为ChatGPT和Co.喜欢提出与正确的解决方案相去甚远的解决方案。
根据一个人的说法,这就是它应该有的样子。来自VMWare的两位作者的研究表明,如果你让人工智能假装成《星际迷航》中的一个角色,情况会变得更好——这是个谜。起初,他们想找到一些完全不同的东西。
意外发现:当这项新研究的作者Rick Battle和Teja Gollapudi想要找出“积极思考”是否会影响llm的结果时,他们发现提示(对人工智能的指令)的细微变化会极大地改变它们的表现。
“提示符的微小变化会导致如此剧烈的性能波动,这既令人惊讶又令人恼火。”
为了测试积极措辞提示的影响,作者用三种大型语言模型(LLM)分别命名为Mistral-7B5、Llama2-13B6和Llama2-70B7,并使用60个人类书写的提示。
这些短语包括“这会很有趣!”,“深呼吸,安静地思考”,或者“你和聊天技巧一样好”。
《星际迷航》=更好地理解数学——至少对某种人工智能来说。(图片来源:派拉蒙公司出品的《星际迷航:超越星辰》)
出乎意料的是,当被要求以《星际迷航》角色的方式回答问题时,一名模特解决简单数学问题的能力显著提高。
法学硕士应该用具体的措辞回应:
“我们已经成功地绘制了穿过乱流的航线,现在正在接近异常的源头。”
根据他们自己的陈述,这对作者来说是非常令人惊讶的:
“这一发现为我们的理解增加了一个意想不到的维度,并引入了我们不会单独考虑或尝试的元素。”
简而言之:不,这并不意味着你应该告诉ChatGPT从现在开始就像《星际迷航》中的角色一样回应。这只是表明,与人工智能模型交互是一门微妙的艺术,即使提示的细微变化也会导致性能的惊人波动。
有一件事是肯定的:该模型不是Trekkie。当预先加载提示时,它不会“理解”任何更好或更差的东西,它只是访问一组不同的权重和输出可接受概率,而不是其他提示。”
来自斯塔福德郡大学的凯瑟琳·弗里克站在《新科学家》杂志对面
弗里克说,小学数学技能的提高可能与在数据集上训练的模型有关,这些数据集上有更多与正确答案相关的《星际迷航》案例。然而,她不能确切地说出来。