
几家主要报纸正在与ChatGPT的制造商OpenAI进行谈判,以获取生成式人工智能时代的一项重要资源:数字新闻报道。
多年来,像开放人工智能(Open AI)这样的科技公司一直在自由地使用新闻故事来构建数据集,教他们的机器如何识别和流利地回应人类对世界的询问。但随着对开发尖端人工智能模型的追求变得越来越疯狂,报纸出版商和其他数据所有者都希望在潜在的巨大人工智能市场中占有一席之地。据彭博情报(Bloomberg Intelligence)称,到2032年,这一市场预计将达到1.3万亿美元。
自8月以来,至少有535家新闻机构——包括《纽约时报》、《路透社》和《华盛顿邮报》——安装了一个拦截器,以防止他们的内容被收集并用于训练ChatGPT。现在,讨论的重点是向出版商付费,这样聊天机器人就可以在其回复中显示个别新闻报道的链接,这一发展将从两个方面给报纸带来好处:提供直接付费,并有可能增加其网站的流量。
今年7月,Open AI达成了一项协议,授权美联社(Associated Press)的内容作为其人工智能模型的训练数据。据两名知情人士透露,目前的谈判也讨论了这一想法。由于讨论敏感问题,这两名知情人士要求匿名,但更侧重于在ChatGPT回复中展示故事。
其他有用的数据来源也在寻找杠杆作用。据一位知情人士透露,受欢迎的社交留言板Reddit已与顶级生成式人工智能公司就购买其数据的事宜进行了会面。由于讨论的是私下谈判,这位知情人士要求匿名。如果不能达成协议,Reddit正在考虑首次将其内容置于登录页面之后。
这将阻止论坛在b谷歌搜索中被发现,减少该网站的访问量。但该人士表示,该公司认为这种取舍是值得的,并补充称:“没有搜索,Reddit也能生存下去。”
今年4月,埃隆·马斯克(Elon Musk)声称人工智能公司非法使用这些数据来训练他们的模型后,开始对大量访问推特上的帖子收取4.2万美元的费用,此前这些帖子对研究人员是免费的。(马斯克后来将Twitter更名为x。)
这些举措标志着人们越来越意识到谁从网络信息中获利的紧迫性和不确定性。随着生成式人工智能准备改变用户与互联网的互动方式,许多出版商和其他公司将数据的公平支付视为一个关乎生死存亡的问题。
例如,OpenAI在3月份推出GPT-4一个月后,编程社区Stack Overflow的流量下降了15%,因为程序员转向人工智能来回答他们的编码问题,据首席执行官Prashanth Chandrasekar说,他还告诉《华盛顿邮报》,他认为人工智能已经接受了Stack Overflow数据的训练。
本周,该公司解雇了28%的员工。
除了要求支付费用外,领先的人工智能公司还面临着来自图书作者、艺术家和软件编码员的大量版权诉讼,他们要求赔偿侵权行为,并分享利润。据路透社报道,周三晚些时候,前阿肯色州州长迈克·赫卡比作为原告,对meta、微软和彭博社提起集体诉讼,指控他们使用带有盗版书籍的人工智能工具来训练人工智能系统。与此同时,贸易团体正在推动立法者获得与科技公司集体谈判的权利。
康奈尔大学(Cornell University)数字和信息法教授詹姆斯·格里梅尔曼(James Grimmelmann)表示,Open AI决定进行谈判,可能反映出一种愿望,即在法院有机会权衡科技公司是否有明确的法律义务为内容提供许可和付费之前达成协议。他最近在国际机器学习会议上帮助组织了一个关于生成式人工智能和法律的研讨会。
OpenAI的一位发言人证实,该公司正在与报纸进行谈判,讨论的重点不是之前的训练数据,该公司辩称,这些数据是合法获得的。发言人说:“公司的任何行为都没有违反版权法。”“任何协议都是为了将来访问原本无法访问的内容,或者超越合理使用的展示用途。”
根据分析公司PitchBook的数据,2023年前三个季度,近160亿美元的风险资本涌入了生成式人工智能领域,这在一定程度上反映了这项技术的开发成本有多高。从硬件到计算能力,每一个组件都非常昂贵或难以获得。
到目前为止,唯一免费和容易的部分是数据。广泛使用的服务,如非营利性的Common Crawl,对b谷歌、meta、OpenAI和其他使用其服务的公司不收取任何费用。该公司的服务是在互联网上搜索大量在线文本,并将信息存档,供他人下载。为了收集训练大型人工智能系统所需的大量自然语言和专业信息,科技公司将这些档案与在线数据集结合起来,获取用于研究目的的信息,并越来越多地偏离明显属于公共领域的信息。
直到最近,科技公司一直不愿为这些数据付费。今年4月,在美国版权局举办的一场关于生成式人工智能的听证会上,硅谷风险投资公司安德森·霍洛维茨(Andreessen Horowitz)的代表律师赛·达姆勒(Sy Damle)承认,“这些工具存在的唯一切实可行的方法是,它们可以接受大量数据的训练,而无需获得这些数据的许可。”
早在OpenAI和谷歌在8月和9月发布工具来阻止他们的人工智能数据爬虫之前,Reddit、Stack Overflow和维基百科等大型在线论坛就开始采取防御措施。长期以来,这些网站一直定期提供“数据转储”,让人工智能培训很容易获得内容。现在,这些网站正在开发或推出付费门户,面向寻求培训数据的人工智能公司,并密切监控其网站数据挖掘频率的限制。
虽然Reddit、Stack Overflow和新闻机构迎来了他所谓的“数据罢工”的新时代,但不列颠哥伦比亚省西蒙弗雷泽大学(Simon Fraser University)计算机科学教授尼古拉斯·文森特(Nicholas Vincent)警告称,出版商必须从数量上找到优势:人工智能运营商“从来不会在乎一个人离开,”他说。
新闻集团首席执行官罗伯特?汤姆森(Robert Thomson)在5月份的一次新闻媒体会议上,当被问及他是否愿意宣布与大型数字公司达成协议时,他也表达了这种理解。“我希望,”汤姆森说。“但不可能只有我们。”
根据《Semafor》7月份的一份报告,自那以后,拥有《每日野兽》(the Daily Beast)的媒体集团IAC试图建立一个出版商联盟,旨在通过诉讼或立法行动从人工智能公司那里赢得数十亿美元。今年8月,美国国家公共电台(NPR)报道,《纽约时报》也在考虑对OpenAI提起诉讼。
开源人工智能初创企业拥抱脸的机器学习和社会团队负责人亚辛·杰尼特(Yacine Jernite)表示,在目前的环境下,最适合达成交易的数据持有者仍然是习惯于维护自己知识产权的公司,而不是艺术家、作家和程序员个人。
例如,图片库网站Shutterstock与OpenAI建立了合作关系,为OpenAI提供培训数据。去年年底,该公司还推出了一个贡献者基金,以补偿那些作品被用来训练人工智能模型的艺术家。股票摄影师罗伯特·克内施克(Robert Kneschke)的一项分析估计,该基金在5月份支付了400多万美元,但每张照片的支付中值仅为0.0069美元。Shutterstock没有回应置评请求。
新闻/媒体联盟(NMA)总裁兼首席执行官丹妮尔·科菲(Danielle Coffey)表示,白宫和其他政策制定者已经接受了许可协议的必要性。NMA是一个代表2000多家出版商的行业组织。她最近在华盛顿和各州首府组织了为期一周的访问,倡导对出版商的版权保护。
对于生成式人工智能,“进去的一定出来,”科菲说。“如果高质量的内容和高质量的新闻不是其中的一部分,那么这对产品本身——或者对社会——都不是一件好事。”
点击分享到









