
Butterick不同意。“诉讼可以阻止他们,”他说。“如果我们赢了。”
《连线》杂志采访的每个人都同意的一件事是什么?所有这些对数据集的日益严格的审查,使得人工智能的大玩家们回避了透明度。meta就是最好的例子。它公开分享了用于训练其ChatGPT竞争对手的第一个版本的数据集,包括Books3。现在,它对新版本中使用的内容守口如瓶。麦卡锡说:“这些公司理应对他们的信息来源保持不透明。如果他们承认在他们的数据训练集中使用了受版权保护的材料,他们可能会面临诉讼,这是一种强大的威慑。反过来,这将使作家更难知道他们的版权何时可能受到侵犯。
目前,人工智能公司是否披露他们的训练集来自哪里取决于他们自己。如果没有这些信息,人们几乎不可能证明他们的数据被使用了,更不用说要求删除了。虽然欧洲议会已经通过了一项人工智能法规草案,要求提高数据透明度,但这些法规尚未生效,其他地区也远远落后。
这场争论直指人工智能在我们的世界中应该扮演什么样的角色这一恶性分歧的核心。版权法的存在是为了平衡授予创作者的权利和集体获取信息的权利,至少在理论上是这样。关于Books3的战斗是关于在人工智能时代这种平衡应该是什么样子的。
Presser认为,如果OpenAI可以访问这种数据集,那么公众也应该有权访问它们。从这个角度来看,打击book3的尝试可能最终会使这个行业钙化,阻止小公司和研究人员进入,而对目前的大公司没有多大帮助。
版权法的存在是为了平衡授予创作者的权利和集体获取信息的权利,至少在理论上是这样。关于Books3的战斗是关于在人工智能时代这种平衡应该是什么样子的。
版权律师帕姆·萨缪尔森(Pam Samuelson)是伯克利法律与技术中心(Berkeley Center for Law and Technology)的联合主任,她也认为,打击这些数据可能会让已经在使用这些数据集的大公司受益。“你不能追溯过去,”她说。她还认为,监管可能会改变大公司聚集的地方。以色列和日本等国家已经对人工智能培训材料采取了宽松的立场,因此欧盟或美国更严格的规定可能会促进她所说的“创新套利”,人工智能企业家会涌向对他们的想法更友好的国家。
这场斗争的核心在于,我们是否接受在受版权保护的材料上进行生成式人工智能训练是不可避免的。这是斯蒂芬·金最近发现自己的作品被收录进《book3》后所采取的立场。“我会禁止(如果可以这么说的话)把我的故事教给电脑吗?”就算我能也不行。我还不如做克努特国王,禁止潮水涌进来。或者一个勒德分子试图通过把一台蒸汽织布机砸成碎片来阻止工业进步,”他说。
想要为创作者夺回控制权的理想主义者,比如Butterick和Hedrup,还不愿意放弃战斗。有一种运动将生成式人工智能训练转变为一种选择模式,只有在公共领域或免费提供的工作才能进入数据集。新兴技术研究人员Eryk Salvaggio说:“这并不仅仅是未经许可就从网络上抓取数据集。”如果人工智能公司被迫放弃他们在受版权保护的材料上所做的工作,并重新开始,这肯定会颠覆目前的竞争环境。(不太确定?不管这是否有可能。)
与此同时,已经有一些权宜之计来说服生成型人工智能团队尊重那些希望将自己的工作排除在数据集之外的人的意愿。致力于这类工具的初创公司Spawning有一个名为“我受过培训吗?”“目前,它允许人们检查他们的视觉工作是否已用于人工智能训练数据集;它计划明年增加对视频、音频和文本的支持。它还提供了一个API,帮助公司遵守选择退出。到目前为止,StabilityAI是采用该技术的主要参与者之一,尽管Spawning首席执行官Jordan Meyer乐观地认为,OpenAI和meta等公司有朝一日可能会加入进来。迈耶最近联系了另一位潜在的合作者:肖恩·普莱斯。
毕竟,Presser确实希望帮助创意类型的人感到他们可以控制自己的工作结果。他说:“我认为人们可以说‘嘿,不要用我的东西’是完全合理的。”“这就像是互联网的一种基本原则。”
点击分享到









