谷歌图书(Google Books)已经开始为低质量的图书编制索引,这可能会影响谷歌为其语言追踪工具Ngram提供信息的方式。谷歌图书为已出版的材料编制索引,已成为学术界不可或缺的一部分。
据媒体报道,谷歌图书中包括了几本人工智能可以写的书。该出版物用“截至我最近一次知识更新”这一术语搜索谷歌图书,这是ChatGPT等聊天机器人常用的短语。你可以在谷歌图书中搜索特定的句子或术语,它通常会发回含有这些短语的书面作品。
它发现,在搜索结果的前几页中,大多数书都是关于人工智能的作品,但在这些结果中,有些书并没有谈论这项技术,而且似乎是由机器人写的。
404Media表示,他们发现的这些书,比如特里斯汀·麦克弗的《熊、牛和狼:20岁年轻人的股票交易》,看起来就像在维基百科上搜索金融事件的信息,而且确实包含了“截至我最近的知识更新”这句话。其他关于推特等主题的书籍仍然包含2021年的信息,当时一些人工智能模型将最后一次获得训练数据。
谷歌图书提供了支持其Ngram查看器的大部分数据,Ngram查看器是一种追踪语言随时间变化的研究工具。Ngram从书面作品中获取信息,以显示语言使用的演变过程。
谷歌图书扫描并索引了可追溯到16世纪的书面作品,Ngram上一次更新其引用的数据是在2019年。虽然Ngram并不完美,但许多语言学家和其他学者使用该工具进行研究收集。
谷歌告诉404Media,谷歌图书最近的作品不会出现在Ngram结果中,但这些可能会出现在未来的数据更新中。