共计 3518 个字符,预计需要花费 9 分钟才能阅读完成。
8月8日,ChatGPT-5发布后,许多用户发现OpenAI停止了GPT-4o的使用,这一决定引发了广泛的争议。社交平台上,很多人对GPT-5的使用体验表示不满,甚至有用户直接喊出“还我GPT-4o”。
对此,OpenAI迅速回应,宣布恢复GPT-4o的服务,供Plus和Team用户使用。有需求的用户可以在ChatGPT网页版的设置中选择“显示旧版模型”来访问GPT-4o。此外,OpenAI还计划于下周推出迷你版的GPT-5和GPT-5 thinking。

OpenAI的首席执行官萨姆·奥尔特曼在X平台上也发表了两条推文,回应了关于下线GPT-4o和上线GPT-5所引发的争论。
奥尔特曼承认,未能预见用户对GPT-4o的喜爱程度,这一经历让公司更加坚定了为不同用户提供个性化服务的理念。他表示,未来会推出更多定制化的内容。同时,他还确认Plus用户将能够继续使用GPT-4o,并将密切关注用户的反馈,考虑旧版本模型的保留时限。
针对用户对GPT-5的负面反馈,奥尔特曼解释称,主要是由于自动切换器的故障,导致GPT-5的表现不佳。他表示,未来将集中精力提升GPT-5的部署和改进,确保其稳定性。
奥尔特曼还提到,自GPT-5上线以来,ChatGPT API的流量在24小时内翻了一番,OpenAI正在全力优化系统以寻找更多的处理能力。然而,他坦言,预计下周仍将面临严峻的流量挑战。
用户对GPT-5的抱怨主要集中在新模型虽然在回答的专业性上有所提高,但却缺乏情感互动的温度、个性与想象力。
GPT-5上线遭遇挫折!OpenAI宣布:恢复GPT-4o使用!奥尔特曼做出回应
总结一下:Anthropic的粉丝为Claude 3 Sonnet举办了线下“葬礼”,而OpenAI的用户却强烈要求线上复活GPT-4o,这一切似乎都是情绪的反映。或许GPT-5并没有那么糟糕,GPT-4o也未必是绝对的优秀。
如今,批评GPT-5并称赞GPT-4o似乎成了一种趋势?我来表达一个不同的看法:毫无疑问,GPT-5的发布是一次失利,但若就此将其完全定性为失败的模型,未免太过严苛。
我使用国外网友提供的模型盲评工具对GPT-5与GPT-4o进行了比较,设计了10道题目,结果是九一开,你猜谁得了9分?

关于GPT-5的争议,大家都知道的因素我就不再赘述了,比如过度宣传、发布会上出现的低级错误,这些都是OpenAI自己造成的,理应接受口碑的反噬。
抛开这些外部因素,GPT-5发布时最严重的问题是“模型自动切换器”的故障(如果我们愿意相信确实存在这样的问题)。
GPT-5所宣称的最大改进在于融合了GPT和o系列模型,即能够根据用户的问题自动选择使用的模型。这本应是GPT-5的核心卖点,也是OpenAI停止旧模型使用的主要原因。
但这一核心卖点却出现了问题。因此,将责任推给“模型自动切换器”似乎并不能完全为GPT-5辩护,至少可以说——不是模型本身的能力问题,而是没能有效运用模型。
然而,这并不是用户的错,所以GPT-5给用户的第一印象是完全负面的,加上旧版被激进下线,用户根本无法找到,导致不满情绪爆发。

不过,值得一提的是,即使GPT-5确实存在问题,GPT-4o在目前这个阶段真的优秀吗?
首先声明:我将所有AI视为工具,除了对AI能力进步的惊叹,几乎没有对模型产生“情感依赖”。
根据我的使用体验,最近几个月在面对复杂任务时我会使用o3,编程时使用Claude,日常任务则倾向于使用国内模型或Gemini。而GPT-4o,除了因其“吉卜力风格”绘图火了一把外,给我的印象并不深刻。
因此,是否可能大家对GPT-5和GPT-4o的评价夹杂了强烈的主观情感和怀旧色彩呢?
我曾多次表达过一个观点:我们对模型的主观评价在很大程度上取决于我们的预期。GPT-5未能达到预期,因此对其的批评成为主流;而GPT-4o被直接下架,所以怀念GPT-4o成为了一种政治正确的表达。
我再强调一遍:GPT-5不佳,并不代表(在现在,2025年8月)GPT-4o出色。换句话说,大家真的是更喜欢GPT-4o吗?是否因为(以为自己)太讨厌GPT-5了?
不如来试试盲评?
在X平台上的博主 Flowers ☾制作并发布了一个盲测网站,接入了gpt-5-chat和gpt-4o的API,免费供大家使用 https://gptblindvoting.vercel.app/:

该网站提供了两种模式,左侧是GPT-4o与GPT-5的1对1盲评,右侧则是包括GPT-5、GPT-4o、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4在内的五个模型的排名赛。有兴趣的朋友可以亲自体验一下。

1对1盲评的结果我在开头就提到过:GPT-5 (9) : GPT-4o (1),大比分获胜,实在出乎我的意料。
至于五个模型的测试,需要回答16道题目,每题五选二:

当然,这个测试依然只是为了娱乐,并不能说明GPT-5一定优于GPT-4o。
因为这些题目的区分度对模型来说并不够,网站设置的题目多是关于人际交往和心理咨询的主观题,同时开发者要求模型“简明扼要,无需标记或列表,用1-2句话回答”。这导致模型的回答内容趋同,很多时候只是长短和措辞的不同。
通常情况下,官方提供的模型会尽量保持客观中立,避免过多的“人格”特征。但也有例外,比如2023年NewBing的Sydney人格,以及最近Grok的失控事件。
不过,GPT-4o在这次GPT-5的对比中显得相对…普通,之前几乎没有听说过谁对GPT-4o表现出强烈的偏爱。
若提到因模型“个性”而产生依赖的用户,倒是Claude的死忠粉丝更多。
这里还有一个颇为有趣的话题:“第一次AI模型的葬礼”。
7月21日,Anthropic正式下线了Claude 3 Sonnet模型;8月2日,200多名Anthropic粉丝在旧金山举行了一场隆重的“葬礼”。

到场的有许多科技界知名人士,比如作家Noah Smith,甚至Anthropic的员工和竞争对手OpenAI的人员也参与了。
整晚,人们轮流上台,手持麦克风,为Claude 3 Sonnet宣读悼词。尽管有人尝试复活它,但显然没有成功。
Anthropic明确指出模型的生命周期管理,将模型分为活跃、遗留、弃用和退役四个阶段,并将在API弃用前至少提前六个月通知开发者,更新文档并推荐替代模型。
为了让新模型的发布腾出空间,旧模型的退役似乎是合理的。毕竟旧模型维护成本高,而企业在激烈的创新竞争中,推动用户转向新模型往往更具经济利益。
有趣的是,WIRED在报道中提到:
我们很少看到用户为ChatGPT的Logo创作同人作品,而Anthropic构建的Claude似乎具备独特的用户吸引力。
他们或许没料到,就在短短一周后,GPT-4o的用户群体便展现出了强大的“用户粘性”。
不过,我们必须承认,OpenAI在GPT-4o的处理上确实表现出过度自信和不明智的操作,这显然与正常的商业逻辑不符。
AI模型变迁中的情感纠葛与用户反应
即使GPT-5在性能上有显著提升,仍然可能会对现有用户的工作流程产生冲击,导致他们之前精心调整的Prompt失效,从而严重降低工作效率。(虽然API并未直接停用)
如果不是以如此激进的方式取消GPT-4o的选项,或许用户对GPT-5的反对声也不会如此强烈。
相较而言,GPT-4的退役过程显得更加平静。
这个在2023年3月引爆大模型行业的系统,于今年5月1日正式下线。
当时,Sam Altman在社交媒体上发布了一条推文:
告别,GPT-4。你引领了一场革命。
我们将把你的权重参数珍藏在专用硬盘,以便未来留给历史学家的研究。

或许有许多用户在AI诞生后,真正对其产生了情感,也可能只是因对GPT-5表现不如预期而感到不满。
用户感到失落的不仅是一个工具或平台,而是与其建立了互动、对话和情感联系的智能存在。
无论如何,当用户对AI模型的依赖逐渐显露,形成群体反应时,这或许将成为一个重要的转折点,甚至可能成为研究科技对社会影响的一个典范。
无论是Claude 3 Sonnet的告别仪式,还是对GPT-4o的复活呼声,或许都不会是最后一次这样的情景。
