OpenAI 突然免费提供 GPT-4o 的背后原因解析

共计 4168 个字符，预计需要花费 11 分钟才能阅读完成。

OpenAI 的新策略：免费开放 GPT-4o 背后的真实动机

对用户而言，这无疑是一个好消息。然而，我们也不必将 OpenAI 捧得过于高尚，毕竟它的宣称——“为尽可能多的人提供最先进的人工智能工具是我们的使命”，似乎并不完全正确。

我认为 OpenAI 将 GPT-4o 免费开放的原因十分现实：其护城河并没有想象中那么深厚。

虽然说免费的 GPT-3.5 一文不值可能有些夸张，但在目前的免费聊天机器人中，至少有十款产品的实用性远超它。如果 OpenAI 再不采取让利措施，用户群体，尤其是免费用户，将会被竞争对手逐渐蚕食。

回顾一年多前，GPT- 4 刚问世时，其综合性能无疑是“一骑绝尘”，其他模型几乎无从望其项背。即便是当时的免费版 GPT-3.5，优势也十分明显。因此，不论是付费还是免费用户，OpenAI 当时都不愁用户流失。

如今，大模型市场竞争的格局发生了根本变化。尽管 GPT- 4 依旧保持领先，但它绝对不是不可或缺的，国外的 Claude 3、Gemini，以及国内的通义、Kimi 等模型的表现已在某些方面具备了替代性。至于 GPT-3.5，其性能已经落后，并且不具备文件上传、联网等附加功能。

面对一系列竞争对手的免费版本能够与付费版抗衡，并且功能更多时，OpenAI 又该如何留住用户呢？

因此，OpenAI 的 GPT-4o 开放战略在某种程度上是出于竞争压力所迫。

实际上，几个月前 OpenAI 允许用户免注册使用 GPT-3.5，正是出于类似的考量，这在以前是难以想象的。其核心原因在于降低用户接触 ChatGPT 的门槛。

综合来看，无论是免注册使用还是免费开放 GPT-4o，OpenAI 至少考虑了以下几点：

吸引和留住更多用户，以维持市场份额；
收集更多数据。用户越多，OpenAI 能够获取的数据也越丰富，这对于优化模型及训练下一代模型至关重要；
即将推出更多新模型和功能，例如 Sora、GPT- 5 等。

目前，大模型面临的一个主要问题是同质化严重，性能和功能上的趋同使得各家产品愈发相似。竞争的关键在于差异化，谁能胜出，最终还要看谁能推出独特的产品及优势。

在我看来，今年最显著的变化是 AI 工具的数量激增，社群中每天都有用户分享各类“新奇”的 AI 工具，有些来自公司产品，有些则是个人或朋友开发的。这也是 AI 大模型与以往技术的一大不同之处——许多人根据兴趣与实际需求探索 AI 的各种应用。一些人把它作为学习开发经验的机会，还有不少程序员甚至将其发展为副业。

这一现象的根本原因在于生成式 AI 技术的 应用场景丰富且高度可定制 ，外部因素则是 开源模型不断增多 以及API 价格愈加低廉，使得大家研究的成本大幅降低。

因此，任何有兴趣的人都可以尝试，例如最简单的，自己微调一个大模型，或利用 RAG 构建个人知识库。如今，关于大模型训练和开发的学习资源非常丰富，找到合适的学习材料并不困难。

作为程序员，我们在大模型研发上具有天然的先发优势，但想要快速入门对大多数人来说并非易事，因此我更推荐大家观看视频课程。正好知乎知学堂推出了一门关于 AI 大模型的进阶公开课，内容涵盖从底层逻辑到实际开发与部署的系统讲解。课程中关于微调、Langchain 及 Prompt 工程，以及训练 / 微调开源模型的部分，务必要认真学习！这里我直接为大家提供了入口，大家可以直接听⬇️

学习大模型的关键在于结合实际开发经验，仅仅了解抽象概念和原理是难以真正掌握的。亲自动手训练、微调或部署模型的过程，将帮助你理解 AI 大模型的原理、使用及产品开发的全流程。如果未来你希望在这一领域发展或自己开展项目，这一点尤为重要。

–

再谈谈 GPT-4o，OpenAI 在某种程度上还是非常谨慎的。虽然他们宣称向免费用户开放 GPT-4o，但实际上并非完全开放。

首先是数量限制。虽然没有明确规定具体的限制，但根据我的实际体验和社区反馈，大约每 3 小时能使用 10 条左右，官方会根据服务器压力动态调整，我也曾遇到高峰期使用一条后便被限制的情况。

其次是 功能有限。与 Plus 付费用户相比，免费用户无法使用绘图功能，也不能创建 GPTs，进行数据分析时也不支持交互式表格和图表。

最后是 上下文窗口长度限制，免费用户仅有 8k 的上下文长度，而付费用户则是 32k。这一限制在上传文件时尤为明显，意味着免费用户只能分析较少的文档。8k 的最大限制意味着能处理的文档字数也不到 8000 字。

OpenAI 当前的上下文长度设置显得相对较低（即使是 32k 的付费版本），对于需要分析大量文档的用户来说显然不够。如果是需要处理长文档，或许可以考虑其他国内模型，如 Kimi、通义千问、智谱 GLM 等，它们已有的支持能处理百万级或千万级字数的文档分析。

在性能方面的提升是显而易见的，使用中也能直观感受到，这里不再赘述，主要来看与之前版本相比，免费开放的 GPT-4o 在功能上增加了哪些新特性。

我认为这是最能体现 GPT-4o 实力的功能，因为它将改变人类与 AI 的互动方式。尽管之前有语音对话功能，但并非即时，而是将语音通过语音识别模型（Whisper）转化为文本后，再由 GPT-3.5/ 4 生成回应，最后再将文本转化为语音（Vall-E），这一过程的平均时间为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。