GPT-5的逻辑连贯性为何似乎下降了？

共计 1560 个字符，预计需要花费 4 分钟才能阅读完成。

探索GPT-5的推理能力：海龟汤游戏实验

今天，我们将通过一个有趣的实验来评估GPT-5的表现，而不是进行复杂的测试。我们将邀请多款人工智能参与海龟汤游戏，观察最新发布的GPT-5是否能在推理方面超越DeepSeek R1、Claude 4.1和最近开源的GPT OSS模型，迅速找出谜底。

首先介绍一下规则：我准备了两道不同难度的海龟汤谜题，并将分别与每个AI进行对话。AI需要通过我给出的谜面，进行互动以获取信息，最终推理出故事的真相。我在整个过程中只能回答“是”、“不是”或“无关紧要”。

我们要求参与的AI在不超过十个问题内，推理出完整的故事情节，看看谁的答案更接近我预先设定的汤底。

目前，GPT-5尚未开源，因此只能通过网页端访问。而其他三款模型则可以通过Amazon Bedrock平台进行调用。我们将在Bedrock上使用比较模式，实时观察不同模型的响应过程，这一功能相当便利。

令人惊讶的是，原本是竞争对手的Claude与ChatGPT，竟然在Amazon Bedrock平台上碰撞交锋。

作为一项全面托管的服务，Amazon Bedrock让我们不再担心复杂的基础设施问题。通过一个API，即可访问来自多个人工智能公司的基础模型，包括Anthropic、Cohere、Meta、Mistro AI、Stability AI和Amazon。这些模型各有特色，适用于文本生成、图像生成等多种AI任务。

感兴趣的朋友可以通过简介中的链接获取更多信息，无需注册，微信扫码即可享受12小时的免费体验。

接下来，我们将探讨第一道谜题：一个男人走进酒吧，点了一杯水，随后服务员掏出手枪对准了他。

男人道谢后离开了酒吧。接下来，我们将查看各个AI的对话与回答。可以看出，GPT-5仅用六步便推理出了答案，且反应速度极快。

而GPT-5与Amazon Bedrock都在十步内给出了正确的汤底。

Deepseek开始时会进行自问自答，然后直接生成一个答案。

在进一步交流中，我要求它每次只提出一个问题，而非一次性提出十个。DeepSeek表现活跃，但推理步骤较为简约。由于当前的海龟汤题目相对简单，接下来我们将增加难度。

这一高难度题目源自某位UP主：
> 我杀了人，在被警察带走时，发现门口的黑猫一直盯着我，这才意识到自己错了。

接下来，让我们看看它们的回答，最终答案将在视频结尾揭晓。

大家可以根据这几款AI的回答进行评分，同时也欢迎海龟汤爱好者在评论区展开讨论。

Cloud的整体体验非常不错，响应迅速，回复简洁且逻辑清晰。然而，由于这道谜题的难度极高，几乎不可能在十步内推理出汤底，因此未能成功挑战。

录制完成后，我又尝试了几次，其中一次接近答案，展现出了巨大潜力。

而DeepSeek则依然存在老问题，往往不遵循既定规则，常常自行完成推理过程，导致内容出现较为明显的幻觉现象。需要逐步明确规则并进行强调，经过适当调整后，其他方面表现良好。

尽管挑战未能成功，但我们依然需继续努力。

GPT-OSS的输出与DeepSeek相似，通常不会出现问题。尽管推理过程以英文呈现，但最终结果依然为中文，显示系统在推理方面的优化努力。

然而，最终结果依旧不尽如人意，挑战也因此以失败告终。

最后，轮到GPT-5出场。由于我的Plus会员已久未续费，免费十字对话后未能得到结果。从其提问方向来看，基本无法推理出正确的汤底。

来源：知乎

原文标题：为什么感觉GPT-5吐出的答案逻辑连贯不如以前了？ – Trisimo崔思莫的回答

原文链接：https://www.zhihu.com/question/1941122061889143368/answer/1949863803320791844

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

GPT-5 人工智能机器学习深度学习逻辑连贯性

发表至： ai编程

2025-12-04

0

版权声明：本站原创文章，由小智于2025-12-04发表，共计1560字。

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

Claude技能与新技术齐发，编程实力为何如此强大？GPT-5、Gemini及国产AI何以望尘莫及？

内存危机警报！Windsurf优化方案大公开，轻松解决占用过高问题

开发者亲测：这款国产AI编程助手助我效率翻倍！

轻松掌握cursor solidity使用教程视频，看看这位新手如何一步步入门编程世界

claude无门槛背后的真相是什么？智能时代的黑马科技为何如此强势崛起？

疑似超越ChatGPT的Claude模型发布，究竟能否引领AI新潮流？

claude账号背后隐藏了什么秘密？他是如何凭这一账号逆袭成功的？解析真实故事与内幕！

谁才是王者？深入解析Claude Code、Cursor与TRAE的实力对决！

GPT-5的逻辑连贯性为何似乎有所下降？

GPT-5的真实能力到底有多强？崔思莫的深度解析！

利用智语AI写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效ai率，激发灵感。来智语AI体验ChatGPT中文版，开启你的智能ai写作之旅！