(路透社)-社交媒体平台Reddit周二表示,将更新该平台用于阻止其网站自动数据抓取的网络标准,此前有报道称人工智能初创公司绕过该规则为其系统收集内容。
此举正值人工智能公司被指控抄袭出版商的内容,在没有注明出处或征求许可的情况下创建人工智能生成的摘要之际。
Reddit表示,它将更新机器人排除协议(Robots .txt),这是一个被广泛接受的标准,旨在确定网站的哪些部分可以被抓取。
该公司还表示,它将保持限速,一种用于控制来自一个特定实体的请求数量的技术,并将阻止未知的机器人和爬虫在其网站上进行数据抓取——收集和保存原始信息。
最近,robots.txt已成为出版商用来防止科技公司免费使用其内容来训练人工智能算法并根据某些搜索查询创建摘要的关键工具。
上周,内容授权初创公司TollBit致出版商的一封信称,几家人工智能公司正在绕过网络标准,抓取出版商网站。
此前,《连线》杂志的一项调查发现,人工智能搜索初创公司Perplexity可能绕过了通过robots.txt阻止其网络爬虫的努力。
6月初,商业媒体出版商《福布斯》(Forbes)指责Perplexity抄袭其调查性报道,用于生成式人工智能系统,却没有给出署名。
Reddit周二表示,研究人员和互联网档案馆等组织将继续以非商业用途访问其内容。
(Harshita Mary Varghese报道;编辑:Alan Barona)
×