共计 1682 个字符,预计需要花费 5 分钟才能阅读完成。
撰稿 | 周愚
编辑 | 邓咏仪
OpenAI的主要竞争者之一——Anthropic,再次引发关注。
在美国时间7月11日,这家由前OpenAI高层共同创办的人工智能公司,正式推出了全新的AI模型Claude 2及其网页版测试版。此测试版可以免费使用,支持中文互动,但目前仅限于美国和英国的用户。
Anthropic还表示,面向企业的Claude 2 API定价与Claude 1.3保持一致(每生成1000个单词约0.0465美元),并计划在未来几个月内将Claude 2推广到全球市场。
此次Claude 2的更新,特别值得关注的是其单次输入长度的提升——达到了10万token,这几乎是目前可商用模型中的最大值。10万token意味着Claude 2可以一次性处理大约75000个单词,相当于几百页的技术文档或一本书籍。
此外,该模型在编程、数学和推理能力上也有了显著改善。在Codex HumanEval(Python编程测试)中,Claude的得分从1.3的56.0%提升至2的71.2%。在小学数学问题(GSM8K)、多学科问答(MMLU)以及科学问题(ARC-Challenge)方面,Claude 2同样展现出了进步。

与Claude 1.3功能相似,Claude 2同样具备文档搜索、总结、代码分析和编码等多种功能。
根据官方网站的示例,用户只需上传待分析的文档,并提供相应指令,Claude便能自动阅读文档并给出回复。示例中的两个pdf文件总大小接近300kb,包含超过83000个token,Claude 2依然成功完成了任务。
36氪尝试输入一份英文文档,并使用中文发出指令。虽然Claude 2提供了相对清晰的回应,但明显带有翻译腔,无法达到自然流畅的中文对话水平。

阅读pdf,并回答问题。

另外,Anthropic在发布的论文中提到,Claude 2具备支持20万token上下文的潜力,但目前尚未开放这一功能。
为了进一步评估Claude 2的中文能力,36氪向其提出了较为复杂的“谐音梗”问题。起初,Claude 2显然未能理解问题的核心,试图给出符合逻辑的答案。
当36氪提供了正确答案——“巴黎世(是)家”时,Claude 2虽然意识到问题可能涉及“谐音梗”,但随后却开始给出一些离谱的回应。
Claude 2的最新功能与发展动态在编程方面,官方展示了如何借助Claude 2为静态地图添加交互效果。用户只需将静态地图的JavaScript文件粘贴到聊天框中,Claude 2便能够分析代码的功能,随后用户可以输入所需的新功能,Claude 2会自动生成相应的代码。
36氪也进行了一次中文提问,请求Claude 2生成五子棋游戏的代码。尽管Claude 2迅速提供了可运行的代码,但仍无法判断游戏胜负的逻辑。不过,Claude 2为用户提供了相应的解释,鼓励用户继续扩展其他功能。
分析代码的功能。
生成新代码。
在最新的更新中,Claude 2使用了全新的数据集,这些数据集包括了网站数据、第三方授权的信息以及2023年初用户自愿提供的数据。相比之下,OpenAI的ChatGPT在未联网的情况下,其数据集依然停留在2021年底。
然而,Anthropic的上市负责人Sandy Banerjee在接受TechCrunch采访时指出,Claude 2与1.3在模型架构上并无显著差异,仅是“持续迭代的模型开发方法所带来的成果”。
截至目前,Anthropic声称已经拥有“数千名客户”及一系列合作伙伴。其中,谷歌作为公司的投资者之一,已承诺投资3亿美元,以换取10%的股权。
此外,Anthropic还表示将继续致力于大模型的研发,预计在未来两年内需要约50亿美元的资金,其中大部分将用于计算资源的投入。
