看看你是否能解决这个算术问题:
奥利弗在周五挑选了44只猕猴桃。然后他在周六采了58只猕猴桃。周日,他摘的几维鸟数量是周五的两倍,但其中5只比平均数量少一些。奥利弗有几个猕猴桃?
如果你的答案是“190”,那么恭喜你:你答对了和普通小学生一样好。(周五的44加上周六的58再加上周日的44乘以2,即88,等于190。)
你也比苹果人工智能研究团队测试的20多个最先进的人工智能模型做得更好。他们发现,人工智能机器人总是出错。
苹果团队发现,当他们试图解析以论文形式写的简单数学问题时,这些模型的“性能大幅下降”。在这个例子中,负责这个问题的系统通常不明白几维鸟的大小与奥利弗拥有的几维鸟的数量没有关系。因此,有些人从总数中减去5只矮小的猕猴桃,回答是“185”。
研究人员认为,人类学童更善于发现相关信息和无关紧要的曲线球之间的区别。
苹果公司的研究结果于本月早些时候发表在一篇技术论文中,引起了人工智能实验室和非专业媒体的广泛关注,这不仅是因为研究结果有理有据,还因为研究人员就职于美国领先的高科技消费公司——这家公司刚刚为iPhone用户推出了一套据称是人工智能的功能。
“苹果这样做的事实得到了很多关注,但没有人应该对结果感到惊讶,”加里·马库斯(Gary Marcus)说,他批评人工智能系统如何被宣传为可靠的,嗯,“智能的”。
事实上,苹果的结论与早期的研究相吻合,这些研究发现,大型语言模型(llm)实际上并没有“思考”那么多,而是与它们作为“训练”的一部分所提供的材料中的语言模式相匹配。当涉及到抽象推理时——用圣达菲研究所的认知和智力专家梅勒妮·米切尔的话来说,这是“人类智力的一个关键方面”——这些模型就不够用了。
“即使是很小的孩子也能熟练地从几个例子中学习抽象规则,”米切尔和他的同事们在去年给GPT机器人做了一系列类比谜题后写道。他们的结论是,“在基本的抽象推理方面,人类与最先进的人工智能系统之间仍然存在很大差距。”
这一点很重要,因为像GPT这样的法学硕士是吸引公众注意力的人工智能产品的基础。但是,苹果团队测试的法学硕士一直被他们所接受的语言模式所误导。
苹果公司的研究人员着手回答这个问题,“这些模型真的理解数学概念吗?”作为论文的主要作者之一,迈赫达德·法拉杰塔巴尔(Mehrdad Farajtabar)在x上写了一个帖子。他们的答案是否定的。他们还思考了他们发现的缺点是否可以很容易地修复,他们的答案也是否定的:“扩展数据、模型或计算能从根本上解决这个问题吗?”法拉吉塔巴尔在他的帖子里问道。“我们不这么认为!”
苹果的研究,以及关于人工智能机器人认知局限性的其他发现,是对包括OpenAI和谷歌(Google)的DeepMind实验室在内的公司兜售其人工智能模型和系统的销售宣传急需的纠正。
推动者通常把他们的产品描述为可靠的,他们的产出是值得信赖的。事实上,它们的输出一直是可疑的,当它们在绝对需要严格准确性的环境中使用时,比如在医疗保健应用程序中,会造成明显的危险。
但情况并非总是如此。马库斯告诉我:“有些问题即使没有完美的解决方案,你也能从中赚到一大笔钱。”由人工智能驱动的推荐引擎——例如,那些引导亚马逊上的买家购买他们可能也喜欢的产品的引擎。如果这些系统给出了错误的建议,也没什么大不了的;顾客可能会花几美元买一本他或她不喜欢的书。
“但是一个只有85%正确率的计算器是垃圾,”马库斯说。“你不会用它的。”
人工智能机器人的自然语言能力提高了输出具有破坏性的不准确结果的可能性,它们甚至可以以令人信服的自信给出极不准确的答案。当受到挑战时,他们往往会加倍重视自己的错误。
这些错误通常被人工智能研究人员描述为“幻觉”。这个术语可能使错误看起来几乎是无害的,但在某些应用程序中,即使是很小的错误率也可能产生严重的后果。
这是学术研究人员在最近发表的一份对Whisper的分析报告中得出的结论。Whisper是OpenAI开发的一种人工智能语音转文本工具,可用于转录医疗讨论或监狱官员监控的监狱对话。
研究人员发现,样本中约1.4%的“耳语”转录音频片段包含幻觉,包括在转录的对话中添加完全捏造的陈述,包括描述“身体暴力或死亡……(或)性暗示,”以及人口统计学上的刻板印象。
这听起来像是一个小缺陷,但研究人员观察到,这些错误可能会被纳入官方记录,如法庭证词或监狱电话的转录,这可能会导致官方决定基于“被告从未说过的短语或主张”。
研究人员表示,2023年底对Whisper的更新提高了它的性能,但更新后的Whisper“仍然会定期产生可重复的幻觉”。
这并没有阻止人工智能的推动者毫无根据地吹嘘他们的产品。在10月29日的一条推特中,埃隆·马斯克邀请粉丝将“X光片、PET、MRI或其他医学图像提交给Grok(他的X社交媒体平台的人工智能应用程序)进行分析。”他写道,Grok“已经相当准确,而且会变得非常好。”
不用说,即使马斯克说的是真话(不是绝对肯定的结论),医疗保健提供者用于分析医学图像的任何系统都需要比“非常好”好得多,无论人们如何定义这个标准。
这让我们想到了苹果公司的研究。值得注意的是,研究人员并不是对人工智能的批评者,而是相信人工智能的局限性需要被理解。Farajtabar曾是DeepMind的高级研究科学家,另一位作者曾在他手下实习;其他共同作者拥有计算机科学和机器学习方面的高级学位和专业经验。
该团队在他们的主题人工智能模型中加入了从8000多个小学算术问题中挑选出来的问题,测试学生对加、减、乘、除的理解。当问题包含了看似相关但并非相关的条款时,模型的表现就会暴跌。
所有模型都是如此,包括OpenAI开发的GPT机器人版本、meta的Llama、微软的Phi-3、谷歌的Gemma以及法国Mistral AI实验室开发的几个模型。
有些人做得比其他人好,但随着问题变得更加复杂,所有人的表现都有所下降。其中一个问题涉及一篮子学习用品,包括橡皮、笔记本和信纸。这需要求解器将每种商品的数量乘以其价格,并将它们相加,以确定整个篮子的成本。
当机器人还被告知“由于通货膨胀,去年的价格便宜了10%”时,机器人将成本降低了10%。这是一个错误的答案,因为问题问的是一篮子货币现在的价格,而不是去年的价格。
为什么会发生这种情况?答案是,法学硕士是通过向他们提供大量从已出版作品或互联网上摘取的书面材料来培养或训练的,而不是试图教他们数学原理。llm通过收集数据中的模式并尝试将模式与手头的问题相匹配来发挥作用。
但他们变得“过度适应他们的训练数据,”Farajtabar通过X解释道。“他们记住了网上的内容,并根据他们看到的例子进行模式匹配和回答。它仍然是一种(弱)推理,但根据其他定义,它不是一种真正的推理能力。”(括号是他的。)
这可能会给人工智能的用途划定界限。正如人工智能开发人员所说,在关键任务应用程序中,人类几乎总是必须“在循环中”——审查答案中明显或危险的不准确之处,或者提供指导,以防止机器人误解他们的数据,错误陈述他们所知道的,或者用捏造来填补他们的知识空白。
在某种程度上,这是令人欣慰的,因为这意味着如果没有人类伙伴的帮助,人工智能系统就无法完成很多工作。但这也意味着,我们人类需要意识到,人工智能的推动者往往会夸大其产品的能力,掩盖其局限性。问题不在于人工智能能做什么,而在于如何引导用户去思考它能做什么。
“这些系统总是会出错,因为幻觉是固有的,”马库斯说。“他们进行推理的方式是一种近似,而不是真实的东西。在我们拥有新技术之前,这一切都不会消失。”-洛杉矶时报/论坛报新闻服务
(迈克尔·希尔齐克(Michael Hiltzik)是《洛杉矶时报》的专栏作家。)
×