GPT-5的逻辑连贯性为何似乎下降了?

共计 1560 个字符,预计需要花费 4 分钟才能阅读完成。

探索GPT-5的推理能力:海龟汤游戏实验

今天,我们将通过一个有趣的实验来评估GPT-5的表现,而不是进行复杂的测试。我们将邀请多款人工智能参与海龟汤游戏,观察最新发布的GPT-5是否能在推理方面超越DeepSeek R1、Claude 4.1和最近开源的GPT OSS模型,迅速找出谜底。

首先介绍一下规则:我准备了两道不同难度的海龟汤谜题,并将分别与每个AI进行对话。AI需要通过我给出的谜面,进行互动以获取信息,最终推理出故事的真相。我在整个过程中只能回答“是”、“不是”或“无关紧要”。

我们要求参与的AI在不超过十个问题内,推理出完整的故事情节,看看谁的答案更接近我预先设定的汤底。

目前,GPT-5尚未开源,因此只能通过网页端访问。而其他三款模型则可以通过Amazon Bedrock平台进行调用。我们将在Bedrock上使用比较模式,实时观察不同模型的响应过程,这一功能相当便利。

令人惊讶的是,原本是竞争对手的Claude与ChatGPT,竟然在Amazon Bedrock平台上碰撞交锋。

作为一项全面托管的服务,Amazon Bedrock让我们不再担心复杂的基础设施问题。通过一个API,即可访问来自多个人工智能公司的基础模型,包括Anthropic、Cohere、Meta、Mistro AI、Stability AI和Amazon。这些模型各有特色,适用于文本生成、图像生成等多种AI任务。

感兴趣的朋友可以通过简介中的链接获取更多信息,无需注册,微信扫码即可享受12小时的免费体验。

接下来,我们将探讨第一道谜题:一个男人走进酒吧,点了一杯水,随后服务员掏出手枪对准了他。

男人道谢后离开了酒吧。接下来,我们将查看各个AI的对话与回答。可以看出,GPT-5仅用六步便推理出了答案,且反应速度极快。

而GPT-5与Amazon Bedrock都在十步内给出了正确的汤底。

Deepseek开始时会进行自问自答,然后直接生成一个答案。

在进一步交流中,我要求它每次只提出一个问题,而非一次性提出十个。DeepSeek表现活跃,但推理步骤较为简约。由于当前的海龟汤题目相对简单,接下来我们将增加难度。

这一高难度题目源自某位UP主:
> 我杀了人,在被警察带走时,发现门口的黑猫一直盯着我,这才意识到自己错了。

接下来,让我们看看它们的回答,最终答案将在视频结尾揭晓。

大家可以根据这几款AI的回答进行评分,同时也欢迎海龟汤爱好者在评论区展开讨论。

Cloud的整体体验非常不错,响应迅速,回复简洁且逻辑清晰。然而,由于这道谜题的难度极高,几乎不可能在十步内推理出汤底,因此未能成功挑战。

录制完成后,我又尝试了几次,其中一次接近答案,展现出了巨大潜力。

DeepSeek则依然存在老问题,往往不遵循既定规则,常常自行完成推理过程,导致内容出现较为明显的幻觉现象。需要逐步明确规则并进行强调,经过适当调整后,其他方面表现良好。

尽管挑战未能成功,但我们依然需继续努力。

GPT-OSS的输出与DeepSeek相似,通常不会出现问题。尽管推理过程以英文呈现,但最终结果依然为中文,显示系统在推理方面的优化努力。

然而,最终结果依旧不尽如人意,挑战也因此以失败告终。

最后,轮到GPT-5出场。由于我的Plus会员已久未续费,免费十字对话后未能得到结果。从其提问方向来看,基本无法推理出正确的汤底。

来源:知乎
原文标题:为什么感觉GPT-5吐出的答案逻辑连贯不如以前了? – Trisimo崔思莫 的回答
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-12-04发表,共计1560字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!