OpenAI的GPT模型的巨大飞跃可能来自于对整个书面网络的吸收。其中包括阿克塞尔·斯普林格、康德·纳斯特和美联社等主要出版商的全部档案——未经他们的许可。但出于某种原因,OpenAI已经宣布与许多这样的企业集团达成协议。
乍一看,这并不完全有意义。OpenAI为什么要为它已经拥有的东西付费?出版商中有些人对自己的作品被窃取感到愤怒,他们为什么会同意这种说法呢?
我想,如果我们盯着这些交易看足够长的时间,我们就能看到未来互联网形成的一种可能的形态。谷歌已经越来越少地引用外部流量——这威胁到整个网络的存在。这可能是OpenAI试图填补的搜索领域的权力真空。
让我们从已知的开始。根据与Axel Springer达成协议的新闻稿,OpenAI可以访问出版物,例如,“通过添加各种主题的最新权威内容,丰富用户使用ChatGPT的体验”。“最近的内容”部分是关键。抓取网络意味着有一个日期,超过了这个日期,ChatGPT就无法检索信息了。OpenAI越接近实时访问,其产品就越接近实时结果。
一方面,这笔钱微不足道,少得令人尴尬
这些交易的条款仍然模糊不清,我猜是因为每个人都被彻底保密了。当然,我不清楚与《纽约时报》的母公司Vox Media达成协议的具体细节。就出版商而言,保密细节可以让他们在转向谷歌和人工智能初创公司Anthropic时拥有更大的优势——就像不透露你以前的薪水可以让你向新雇主要求更高的薪水一样。
据The Information报道,OpenAI每年向出版商提供的资金只有100万至500万美元。有报道称,该公司与阿克塞尔·斯普林格(Axel Springer)、《金融时报》(Financial Times)、新闻集团(NewsCorp)、康德纳仕(condnast)和美联社(AP)等出版商达成了协议。根据公开报道的数据,我粗略计算了一下,这些协议的上限是每份出版物每年1000万美元。
一方面,这笔钱微不足道,少得令人尴尬。(该公司前首席研究员伊利亚·苏斯克沃(Ilya Sutskever)仅在2016年就赚了190万美元。)另一方面,OpenAI已经收集了所有这些出版物的数据。除非法院禁止它这样做,否则它可以一直这样做。那么,这笔钱到底是用来干什么的呢?
也许它是API访问,使抓取更容易,更最新。目前,ChatGPT无法回答最新的查询;API访问可能会改变这一点。
但这些付费也可以被认为是确保出版商不会因为OpenAI已经抓取的内容而起诉OpenAI的一种方式。一家主要出版物已经提起诉讼,OpenAI可能会为此付出更大的代价。法律纠纷将持续数年。
如果OpenAI吸收了整个基于文本的互联网,那就意味着几件事。首先,短期内无法再次生成那么多的数据,因此这可能会限制ChatGPT在实用性方面的进一步飞跃。(值得注意的是,OpenAI尚未发布GPT-5。)第二,很多人都很生气。
其中许多人都提起了诉讼,其中最重要的是《纽约时报》提起的诉讼。《纽约时报》的诉讼称,当OpenAI接受其工作来培训法学硕士时,它侵犯了版权。此外,OpenAI通过这种方式创造的产品现在正在与《纽约时报》竞争,其目的是“从《纽约时报》那里抢走观众”。
《纽约时报》的诉讼称,它曾试图与OpenAI进行谈判,以允许使用其作品,但谈判失败了。根据我上面做的数学计算,我大胆猜测,这是因为OpenAI向《纽约时报》提供的资金少得令人羞辱。它的借口?合理使用-允许在某些情况下未经许可使用受版权保护的材料的条款。
如果报纸赢了这场官司,OpenAI将不得不支付绝对最低的75亿美元的法定损害赔偿金
如果《纽约时报》胜诉,它可能有权获得法定损害赔偿,每幅作品的起价为750美元。(我知道这些数字是因为——你可能已经从我使用的“法定”一词中猜到了——它们是由法律规定的。该报还要求赔偿损失、赔偿和律师费。)《泰晤士报》称,OpenAI总共吸收了1000万件作品,因此仅法定损害赔偿就绝对最低达到75亿美元。难怪《纽约时报》不愿达成一笔上千万美元的交易。
因此,当OpenAI与出版商达成协议时,从功能上讲,它们是一种和解,保证出版商不会像《纽约时报》那样起诉OpenAI。它们的结构也使OpenAI可以维持其先前对出版商作品的合理使用——因为OpenAI将不得不在多个法庭案件中对此进行辩论,其中最著名的是与《纽约时报》的案件。
新闻媒体联盟(News Media Alliance)首席执行官丹妮尔?科菲(Danielle Coffey)表示:“我确实有充分的理由相信,他们愿意在合理使用的情况下保留使用这些内容的权利。”“如果他们不这样做,他们就不会在法庭上辩论了。”
OpenAI似乎想要洗刷一下自己的名声。如果你要推出一款新产品,你希望人们为之付费,那就不能给它带来太多的负担和不确定性。OpenAI确实有包袱:为了为自己的合理使用辩护,它必须承认在未经许可的情况下使用了《纽约时报》的受版权保护的材料——这暗示着它在未经许可的情况下也使用了许多其他受版权保护的材料。它的论点是,它在法律上有权这样做。
还有一个准确性的问题。在这一点上,我们都知道生成人工智能会制造东西。与出版商的协议不仅提供了合法性——它们还可能有助于提供生成式人工智能信息,这些信息不太可能导致令人尴尬的错误。
除了防止诉讼和声誉管理之外,还有更多的事情在起作用。还记得这些交易是如何为OpenAI提供最新信息的吗?OpenAI最近发布了自己的搜索引擎SearchGPT。人工智能原生网络搜索仍处于萌芽阶段,但能够过滤掉人工智能生成的搜索引擎优化,支持真实可靠的信息来源将是一个优势。
在过去的几年里,谷歌搜索已经严重退化,而谷歌在搜索结果上添加的人工智能聊天机器人也没有起到什么作用。它有时会给出不准确的答案,而将包含真实信息的链接隐藏在页面的较低位置。如果你想打造一款颠覆网络搜索的产品,现在正是时候。
OpenAI的交易给了出版商更多的筹码,最终可能会迫使谷歌回到谈判桌上
谷歌还设法惹恼了出版商——不仅是通过为其大型语言模型获取所有出版商的数据,而且还通过重新定位自己。曾几何时,谷歌搜索是出版商的主要流量来源,也是将人们引导到主要来源的一种方式。但后来,谷歌引入了“片段”,这意味着人们不需要点击链接就能找到,比如,要把椰子奶油稀释多少才能变成椰奶。由于人们没有访问原始来源,发布商的广告没有获得多少印象。多年来搜索的其他各种变化意味着谷歌向发布商,特别是较小的发布商推荐的流量减少了。
现在,谷歌的人工智能聊天机器人进一步边缘化了出版商。但OpenAI的交易给了出版商更多的筹码,最终可能会迫使谷歌回到谈判桌上。
谷歌一般不习惯为搜索服务进行付费交易;直到最近,这种安排还是由出版商获得流量推荐。但就其聊天机器人而言,谷歌确实与Reddit达成了协议。每年支付6000万美元,谷歌就可以访问Reddit,切断所有没有达成类似交易的搜索引擎。这比OpenAI支付给发行商的费用要高得多,并且似乎打开了一扇发行商想要走过的大门。
接管搜索市场是一种可以证明所有投资都是合理的事情
多年来,谷歌对普通人的用处越来越小。生成式人工智能(Generative AI)可能会让情况变得更糟,因为它创建的网站充斥着提供广告的垃圾文本。当然,谷歌并不是对它所抓取的所有网站都一视同仁。但如果有人能提出一个承诺提供更高质量信息的替代方案,那么迷失方向的搜索引擎可能就真的有麻烦了。毕竟,谷歌就是通过这种方式打败了之前的搜索引擎,比如AltaVista。
OpenAI烧钱,今年可能亏损50亿美元。目前,该公司正在进行新一轮谈判,估值超过1000亿美元。要证明接近这一估值是合理的,它需要一条盈利之路。接管搜索市场是一种可以证明所有投资都是合理的事情。
OpenAI的SearchGPT还不是一个严重的威胁。它仍然是一个“原型”,这意味着如果它在告诉人们在披萨上涂胶水的命令上犯了错误,那就更容易解释。与Google不同的是,SearchGPT的用户数量有限,因此很少有人会发现早期的错误。
与出版商的协议也为SearchGPT提供了另一个声誉缓冲。它的竞争对手Perplexity正因抓取那些明确禁止它的网站而受到抨击。相比之下,SearchGPT是与签订协议的出版商合作的。
当法院真正做出裁决时会发生什么?
目前还不清楚“搜索引擎”对出版商的底线意味着什么。也许有些人会继续点击查看原始来源,特别是如果不可能从大型语言模型中删除幻觉的话。另一种可能的模式来自于Perplexity,该公司姗姗来迟地推出了一项收入分享计划。
收益分成计划让Perplexity更容易宣称其数据收集属于合理使用(听起来很熟悉吗?)Perplexity的情况与ChatGPT略有不同;它创造了一种“Pages”产品,不幸的是,它有抄袭受版权保护的材料的倾向。《福布斯》(Forbes)和condnast已经向Perplexity发送了法律信函。
所以这里有一个大问题:当法院实际裁决时会发生什么?这些出版商协议存在的部分原因是为了减少法律诉讼的威胁。但它们的存在可能会反驳“为人工智能抓取受版权保护的材料是合理使用”的论点。
一项有利于《纽约时报》的裁决可能对谷歌和OpenAI以及支持OpenAI的微软都有帮助。也许这就是谷歌(Google)前首席执行官埃里克?施密特(Eric Schmidt)所说的,企业家应该随心所欲地处理有版权的作品,并“聘请一大群律师来收拾残局”。
当涉及到版权法时,法院是不可预测的,因为它有点像色情作品——法官看到它就知道是侵权的。此外,如果《纽约时报》和OpenAI之间真的进行了审判,无论谁赢,几乎肯定会对判决提出上诉。
法庭案件需要时间,上诉需要更多时间。法院要花几年的时间才能解决所有这些问题。对于OpenAI这样的公司来说,这段时间足够发展主导业务。
她特别提到了谷歌,因为它太大了,可以强迫出版商接受它的条款
假设OpenAI最终输了。这意味着所有大型语言模型的创建者都必须付出代价。这可能会变得非常昂贵,非常快,这意味着只有最大的玩家才能竞争。它会让所有老牌企业陷入困境,并可能摧毁大量开源法学硕士。这使得谷歌、微软、亚马逊和meta在生态系统中的地位比它们已经占据主导地位的还要重要——还有OpenAI和Anthropic,这两家公司都与一些主要参与者有交易。
新闻媒体联盟(News Media Alliance)的科菲表示,大型科技公司如何应对不利于它们的裁决,也有一些先例。她特别提到了谷歌,因为它太大了,可以迫使出版商接受它的条款;似乎是为了强调她的观点,在我们采访几周后,谷歌在一起反垄断案件中被法律宣布为垄断。
以下是谷歌巨大权力的一个例子:2019年,欧盟赋予数字出版商在谷歌使用其作品片段时要求付费的权利。这项法律首先在法国实施,结果谷歌告诉出版商,它只会使用他们作品中的标题,而不是付费。科菲说:“所以他们给法国出版物发了很多信,说如果你想被发现,就放弃版权保护。”“从这个意义上说,他们几乎凌驾于法律之上”,因为谷歌搜索占据了主导地位。
谷歌目前正利用其在搜索领域的主导地位,以类似的方式挤压出版商。阻止人工智能总结人们的工作意味着谷歌根本不会列出他们,因为它使用相同的工具来抓取网络搜索和人工智能培训。
“这将是一个真正的反竞争悲剧,发生在这个生态系统的初期。”
因此,如果《纽约时报》赢了,谷歌和其他主要的人工智能公司似乎仍有可能要求达成对出版商没有多大好处的交易,同时也会摧毁竞争对手的法学硕士。Public Knowledge的政策顾问尼古拉斯?加西亚(Nicholas Garcia)表示:“我非常担心这样一种可能性,即我们正在建立一个生态系统,在这个生态系统中,只有大公司才有能力负担得起培训数据。”
事实上,这套西装的存在可能足以阻止一些玩家使用可公开访问的数据来训练他们的模型。人们可能会意识到,他们无法在公开可用的数据上进行训练——这比已经存在的计算机和专家供应瓶颈进一步缩小了竞争动态。加西亚说:“在这个生态系统的初期,这将是一个真正的反竞争悲剧。
OpenAI并不是《纽约时报》案的唯一被告;另一个是它的合作伙伴微软。如果OpenAI必须支付至少数亿美元的和解金,那么它就有可能被微软收购——在版权法要求许可协议的世界里,微软拥有OpenAI已经谈判过的所有许可协议。相当大的竞争优势。当然,由于政府对反垄断的新兴趣,微软现在假装不知道OpenAI,但随着版权案件在整个系统中展开,这种情况可能会改变。
OpenAI可能会因为它谈判的许可协议而失败。这些交易为出版商的数据创造了一个市场,根据版权法,如果你扰乱了这样一个市场,那就不是合理使用。这种特别的论点最近出现在最高法院关于安迪·沃霍尔的一幅画的案件中,该画被发现与用于创作这幅画的原始照片进行了不公平的竞争。
当然,法律问题并不是唯一的问题。还有一个更基本的问题我一直在想:人们想要答案引擎吗?如果是的话,它们在经济上是否可持续?搜索不仅仅是为了找到答案——谷歌是一种找到特定网站的方式,而不需要记住或收藏URL。另外,人工智能很昂贵。OpenAI可能会失败,因为它根本无法盈利。至于谷歌,由于这一垄断裁决,它可能会被监管机构分拆。
在这种情况下,也许发行商才是最聪明的:在钱还不错的时候赚到钱。