商业
Anthropic的Claude 2.1 LLM涡轮增压性能,提供beta工具使用

  

  

  Anthropic提高了大型语言模型(LLM)一次可以消耗多少信息的赌注,周二宣布其刚刚发布的Claude 2.1拥有20万个代币的上下文窗口。Anthropic说,这大约相当于50万字或500多页的印刷信息。

  该公司在声明中说,最新的Claude版本也比之前的版本更准确,价格更低,还包括测试版工具的使用。

  新模型为Anthropic的Claude生成人工智能聊天机器人提供动力,因此免费和付费用户都可以利用Claude 2.1的大部分改进。然而,20万个令牌上下文窗口是针对付费专业用户的,而免费用户仍然有10万个令牌限制——明显高于GPT-3.5的1.6万个。

  Claude 2的beta工具特性将允许开发人员将api和定义函数集成到Claude模型中,类似于OpenAI模型中可用的功能。

  Claude之前的100,000个令牌上下文窗口在这个指标上远远领先于OpenAI,直到上个月,OpenAI宣布了GPT-4 Turbo的预览版本,其中包含128,000个令牌上下文窗口。然而,只有每月支付20美元的ChatGPT Plus用户才能以聊天机器人的形式访问该模型。(开发人员可以按使用量付费访问GPT-4 API。)

  如果您有大型文档或其他信息,那么大型上下文窗口(一次可以处理的数据量)看起来很有吸引力,但是llm是否可以处理大量数据和较小块中的信息还不清楚。人工智能从业者兼企业家格雷格·卡姆拉特(Greg Kamradt)一直在追踪这个问题,他进行了一项他称之为“大海捞针”的分析,看看在查询法学硕士(LLM)时,是否能在一份大文件中找到微小的信息碎片。他重复测试,将一个随机语句放入一个大文档的不同部分,该文档被输入LLM并进行查询。

  “在20万代币(近470页)的情况下,Claude 2.1能够回忆起一些文件深度的事实,”他在X(以前的Twitter)上写道,并指出他已经被允许提前访问Claude 2.1。“从约90K代币开始,文档底部的召回性能开始变得越来越差。”GPT-4在其最大的背景下也没有完美的召回。

  在Claude 2.1上运行测试需要花费大约1000美元的API调用(Anthropic提供了积分,这样他就可以运行与GPT-4相同的测试)。

  他的结论是:如何设计提示很重要,不要假设信息总是可以被检索到,更小的输入会产生更好的结果。

  事实上,许多寻求从大量数据中查询信息的开发人员创建了一些应用程序,这些应用程序将数据分割成更小的部分,以改善检索结果,即使上下文窗口允许更多。

  从新模型的准确性来看,在Anthropic所谓的“一大批复杂的、事实性的问题来探测当前模型中已知的弱点”的测试中,该公司表示,与之前的版本相比,克劳德2.1的虚假陈述减少了2倍。根据Anthropic的声明,目前的模型更有可能说它不知道,而不是“产生幻觉”或编造一些东西。该公司还表示,在理解和总结方面取得了“有意义的进步”。

点击分享到

热门推荐