根据最近的一项研究,生成式人工智能(AI)模型经常产生虚假的法律信息,所谓的“幻觉”发生率在69%至88%之间。
大型语言模型(llm)——像ChatGPT这样被训练来理解和产生人类语言内容的生成人工智能模型——以前被认为会产生“幻觉”并产生虚假信息。
然而,斯坦福大学以人为本的人工智能与监管、评估和治理实验室研究所的作者在一篇博客文章中指出,法律幻觉的“普遍”性质引发了对在该领域使用法学硕士的可靠性的“重大担忧”。
当被问及有关联邦法院案件的直接、可验证的问题时,研究发现,ChatGPT背后的模型GPT-3.5在69%的情况下产生幻觉,而谷歌的PaLM 2在72%的情况下给出了错误的答案,meta的Llama 2在88%的情况下提供了错误的信息。
当被问及更复杂的法律问题时,比如核心法律问题或案件的中心判决,或者当被问及地方法院等下级法院的判例法时,这些模型的表现更差。
研究发现,在法律问题上,他们也经常无法反驳错误的前提,并倾向于夸大他们对自己回答的信心。
作者在周四发表的博客文章中写道:“今天,法学硕士将通过为公众提供一种简单、低成本的方式获得法律咨询,使诉诸司法的途径民主化,这让人非常兴奋。”“但我们的研究结果表明,法学硕士目前的局限性可能会进一步加深现有的法律不平等,而不是缓解这种不平等。”
他们补充说:“理想情况下,法学硕士将擅长于提供本地化的法律信息,有效地纠正用户被误导的查询,并以适当的信心水平限定他们的回答。”“然而,我们发现目前的型号明显缺乏这些功能。”
在法律领域已经看到了这种幻觉的后果。今年6月,一名联邦法官处罚了两名律师,原因是其中一名律师使用了ChatGPT生成的虚假案件引证。
前总统特朗普的私人律师迈克尔·科恩上个月也承认,在使用PaLM 2上运行的Google Bard后,给他的律师提供了虚假的案件引用。
首席大法官约翰·罗伯茨(John Roberts)在其年度年终报告中警告称,在法律领域使用人工智能的潜在弊端,尽管他表示这项技术可能会对未来的司法工作产生重大影响。
“任何对人工智能的使用都需要谨慎和谦逊,”他指出。今年,人工智能的一个突出应用程序因其被称为“幻觉”的缺陷而成为头条新闻,这导致律师使用该应用程序提交的摘要引用了不存在的案例。(这总是一个坏主意。)”
点击分享到









