共计 1560 个字符,预计需要花费 4 分钟才能阅读完成。
今天,我们将通过一个有趣的实验来评估GPT-5的表现,而不是进行复杂的测试。我们将邀请多款人工智能参与海龟汤游戏,观察最新发布的GPT-5是否能在推理方面超越DeepSeek R1、Claude 4.1和最近开源的GPT OSS模型,迅速找出谜底。
首先介绍一下规则:我准备了两道不同难度的海龟汤谜题,并将分别与每个AI进行对话。AI需要通过我给出的谜面,进行互动以获取信息,最终推理出故事的真相。我在整个过程中只能回答“是”、“不是”或“无关紧要”。

我们要求参与的AI在不超过十个问题内,推理出完整的故事情节,看看谁的答案更接近我预先设定的汤底。

目前,GPT-5尚未开源,因此只能通过网页端访问。而其他三款模型则可以通过Amazon Bedrock平台进行调用。我们将在Bedrock上使用比较模式,实时观察不同模型的响应过程,这一功能相当便利。

令人惊讶的是,原本是竞争对手的Claude与ChatGPT,竟然在Amazon Bedrock平台上碰撞交锋。

作为一项全面托管的服务,Amazon Bedrock让我们不再担心复杂的基础设施问题。通过一个API,即可访问来自多个人工智能公司的基础模型,包括Anthropic、Cohere、Meta、Mistro AI、Stability AI和Amazon。这些模型各有特色,适用于文本生成、图像生成等多种AI任务。
感兴趣的朋友可以通过简介中的链接获取更多信息,无需注册,微信扫码即可享受12小时的免费体验。
接下来,我们将探讨第一道谜题:一个男人走进酒吧,点了一杯水,随后服务员掏出手枪对准了他。

男人道谢后离开了酒吧。接下来,我们将查看各个AI的对话与回答。可以看出,GPT-5仅用六步便推理出了答案,且反应速度极快。

而GPT-5与Amazon Bedrock都在十步内给出了正确的汤底。

Deepseek开始时会进行自问自答,然后直接生成一个答案。

在进一步交流中,我要求它每次只提出一个问题,而非一次性提出十个。DeepSeek表现活跃,但推理步骤较为简约。由于当前的海龟汤题目相对简单,接下来我们将增加难度。
这一高难度题目源自某位UP主:
> 我杀了人,在被警察带走时,发现门口的黑猫一直盯着我,这才意识到自己错了。
接下来,让我们看看它们的回答,最终答案将在视频结尾揭晓。

大家可以根据这几款AI的回答进行评分,同时也欢迎海龟汤爱好者在评论区展开讨论。
Cloud的整体体验非常不错,响应迅速,回复简洁且逻辑清晰。然而,由于这道谜题的难度极高,几乎不可能在十步内推理出汤底,因此未能成功挑战。
录制完成后,我又尝试了几次,其中一次接近答案,展现出了巨大潜力。

而DeepSeek则依然存在老问题,往往不遵循既定规则,常常自行完成推理过程,导致内容出现较为明显的幻觉现象。需要逐步明确规则并进行强调,经过适当调整后,其他方面表现良好。

尽管挑战未能成功,但我们依然需继续努力。

GPT-OSS的输出与DeepSeek相似,通常不会出现问题。尽管推理过程以英文呈现,但最终结果依然为中文,显示系统在推理方面的优化努力。

然而,最终结果依旧不尽如人意,挑战也因此以失败告终。

最后,轮到GPT-5出场。由于我的Plus会员已久未续费,免费十字对话后未能得到结果。从其提问方向来看,基本无法推理出正确的汤底。
