生活
就像数字蝗虫一样,OpenAI和Anthropic AI机器人会给网站造成破坏,并提高成本

  

  Edd Coates的游戏UI数据库它受到来自OpenAI IP地址的流量的影响。

  人工智能公司正在积极地在网络上爬行,造成混乱。

  由于人工智能僵尸网络的流量,网站所有者看到云账单激增。

  感谢您的报名!转到时事通讯偏好

  艾德·科茨知道出事了。他的在线数据库遭到了攻击。

  Coates是一名游戏设计师,也是game UI Database的创造者。他花了五年时间整理了56,000多张视频游戏用户界面的截图,这是他热爱的工作。如果你想知道《辐射3》中的生命值条是什么样子,并将其与《荒野之息》中的库存屏幕进行比较,Coates可以帮你找到答案。

  他说,几周前,该网站的速度慢得像爬行一样。加载页面的时间是原来的三倍,用户会遇到502个糟糕的网关错误,并且每秒要重新加载主页200次。

  科茨告诉《商业内幕》:“我以为这是某种小规模的DDoS攻击。”

  但当他检查系统日志时,他意识到流量洪流来自OpenAI拥有的一个IP地址。

  在构建世界上最先进的人工智能的竞赛中,科技公司已经在整个网络上分散开来,像一群数字蝗虫一样释放僵尸网络,搜索网站,寻找任何可以用来为他们贪婪的模型提供动力的东西。

  他们追求的通常是高质量的训练数据,但他们也会寻找其他可能有助于人工智能模型理解世界的信息。比赛开始了,在信息用完之前尽可能多地收集信息,或者规则改变了什么是可接受的。

  一项研究估计,到2032年,世界上可用的人工智能训练数据可能会耗尽。人类经验的整个在线语料库可能很快就不足以使ChatGPT保持最新状态。

  像Game UI Database这样的资源(游戏邦注:在这里人类已经完成了清理和分类图像的艰苦工作)看起来就像自助餐一样。

  对于资源有限的小型网站所有者来说,托管一群饥饿的机器人的成本可能会带来巨大的负担。

  “在10分钟的时间里,我们传输了大约60到70 gb的数据,”负责管理科茨数据库服务器的游戏设计师杰伊·皮特(Jay Peet)说。“根据亚马逊的按需带宽定价,每天要花费850美元。”

  Coates并没有从游戏UI数据库中赚到钱——事实上,他在亏本经营这个网站——但他担心大型人工智能公司的行为可能会危及依赖网站谋生的独立创作者。

  他说:“事实上,OpenAI的行为已经使我的网站瘫痪到无法运行的地步,这只是锦上添花。”

  OpenAI的一位发言人表示,该公司的机器人每秒大约查询两次科茨的网站。这位代表补充说,OpenAI正在抓取该网站,作为了解网络结构的努力的一部分,而不是抓取数据。

  发言人补充说:“我们让网络出版商可以很容易地选择退出我们的生态系统,并就他们的网站和内容如何与我们的产品合作表达他们的偏好。”“我们还建立了系统来检测和调节网站负载,以成为有礼貌和体贴的网络参与者。”

  数字产品工作室Planetary的创始人Joshua Gross告诉BI,他在为他的一个客户重新设计一个网站时遇到了类似的问题。推出后不久,流量激增,客户发现他们的云计算成本比前几个月翻了一番。

  格罗斯说:“对流量日志的审计显示,大量流量来自抓取机器人。”他补充说:“问题主要是人为驱动了大量无意义的流量。”他指的是重复的请求都会导致404错误。

  Anthropic的发言人詹妮弗·马丁内斯(Jennifer Martinez)表示,该公司努力确保其数据收集工作是透明的,而不是侵入性的或破坏性的。

  格罗斯说,最终,他通过更新网站的robots.txt代码,阻止了流量的泛滥。txt是一个协议,从20世纪90年代末开始使用,它让机器人爬虫知道它们能去哪里,不能去哪里。它被广泛接受为网络的非官方规则之一。

  针对人工智能公司的Robots.txt限制激增。一项研究发现,在2023年4月至2024年4月期间,近5%的在线数据和约25%的最高质量数据为人工智能僵尸网络添加了robots.txt限制。

  同一项研究发现,25.9%的此类限制是针对OpenAI的,相比之下,Anthropic为13.3%,谷歌为9.8%。作者还发现,许多数据所有者在他们的服务条款中禁止爬行,但没有适当的robots.txt限制。这使得它们容易受到仅依赖robots.txt的机器人的恶意抓取。

  OpenAI和Anthropic都表示他们的机器人尊重robots.txt,但BI报告了最近两家公司绕过限制的例子。

  网络巨头Akamai负责欺诈和滥用的首席产品架构师David Senecal表示,他的公司跟踪了谷歌、微软、OpenAI、Anthropic等公司管理的人工智能训练僵尸网络。他说,在Akamai的用户中,这些机器人是有争议的。

  塞内卡尔说:“网站所有者通常不会介意自己的数据被Googlebot或Bingbot等网络搜索引擎编入索引。“然而,有些人不喜欢用他们的数据来训练模型。”

  他说,一些用户抱怨云计算成本增加或流量增加带来的稳定性问题。其他人则担心僵尸网络会带来知识产权问题,或者会“污染关键指标”,比如转化率。

  当一个人工智能机器人一次又一次地涌入你的网站时,你的流量指标可能会与现实不同步。这给在线做广告的网站带来了问题,需要跟踪这种营销的效果。

  Senecal说,robots.txt仍然是管理不必要的爬行和抓取的最佳方式,尽管它是一个不完美的解决方案。它要求域名创建者知道他们想要屏蔽的每个机器人的具体名称,并要求机器人运营商自愿遵守。最重要的是,Senecal说,Akamai跟踪各种冒充Anthropic或OpenAI网络爬虫的“模仿者”机器人,这使得解析它们的任务变得更加困难。

  塞内卡尔补充说,在某些情况下,僵尸网络每天会抓取整个网站,只是为了看看有什么变化,这种生硬的方法会导致大量重复数据。

  “这种收集数据的方式非常浪费,”他说,“但除非人们对数据共享的观念发生改变,出现一种更成熟的数据共享方式,否则抓取数据将保持现状。”

  Roberto Di Cosmo是Software Heritage的主管,这是一个非营利性数据库,旨在“收集、保存和分享所有公开可用的源代码,以造福社会”。

  迪·科斯莫说,去年夏天,他看到前所未有的人工智能僵尸网络在抓取在线数据库,这导致网站对一些用户失去响应。他的工程师花了几个小时来识别和列入黑名单的数千个IP地址,这些地址正在驱动流量,从其他重要任务中转移资源。

  “我们不是谷歌。我们只有有限的资源来开展这项行动,”迪科斯莫说。

  他是开放获取的传道者,理论上并不反对人工智能公司使用数据库来训练模型。Software Heritage已经与hug Face建立了合作关系,后者利用该数据库帮助训练其人工智能模型StarCoder2。

  “开发包含这些数字公共资源的机器学习模型可以使软件开发民主化,使更广泛的受众从数字革命中受益,这是一个符合我们价值观的目标,”迪·科斯莫说,“但这必须以负责任的方式完成。”

  Software Heritage已经发布了一套原则,规定如何以及何时同意共享其数据。使用数据库创建的所有模型都必须是开源的,而不是“为私人利益垄断”。而底层代码的创造者必须能够选择退出。

  “有时候,这些人无论如何都会得到数据,”迪·科斯莫说,他指的是一个接一个抓取数千亿网页的僵尸网络。

  “由于人工智能机器人的原因,我们已经下线了几次,”非营利捐赠和慈善捐赠机会数据库360Giving的首席执行官塔尼亚·科恩(Tania Cohen)说。

  科恩说,对于这家没有内部技术团队的小型慈善机构来说,流量的激增是非常具有破坏性的。她补充说,更令人沮丧的是,很多信息可以通过其他方式轻松下载,不需要抓取。

  但饥饿的人工智能僵尸网络先抓取,然后再提问。

  Coates表示,他的游戏UI数据库已经恢复运行,他还在继续完善它。世界上有数以百万计的人像科茨一样,沉迷于世界的某个小角落,被迫投入数千小时去追求一种别人找不到意义的东西。这是我们热爱互联网的原因之一。

  这是另一个受到人工智能革命连锁反应冲击的社会领域。小型数据库运营商的服务器成本似乎不值一提。但科茨的故事象征着一个更大的问题:当人工智能改变世界时,谁来承担代价?

  他表示,Coates将该数据库作为其他游戏设计师的参考资料。他担心,依赖于人类创造者工作的生成式人工智能,将不可避免地取代那些同样的创造者。

  科茨说:“我发现我的工作成果不仅被一个大组织窃取,而且还被用来伤害我试图帮助的人,这让我感到非常恶心。”

点击分享到

热门推荐