共计 4168 个字符,预计需要花费 11 分钟才能阅读完成。
对用户而言,这无疑是一个好消息。然而,我们也不必将 OpenAI 捧得过于高尚,毕竟它的宣称——“为尽可能多的人提供最先进的人工智能工具是我们的使命”,似乎并不完全正确。
我认为 OpenAI 将 GPT-4o 免费开放的原因十分现实:其护城河并没有想象中那么深厚。
虽然说免费的 GPT-3.5 一文不值可能有些夸张,但在目前的免费聊天机器人中,至少有十款产品的实用性远超它。如果 OpenAI 再不采取让利措施,用户群体,尤其是免费用户,将会被竞争对手逐渐蚕食。
回顾一年多前,GPT- 4 刚问世时,其综合性能无疑是“一骑绝尘”,其他模型几乎无从望其项背。即便是当时的免费版 GPT-3.5,优势也十分明显。因此,不论是付费还是免费用户,OpenAI 当时都不愁用户流失。

如今,大模型市场竞争的格局发生了根本变化。尽管 GPT- 4 依旧保持领先,但它绝对不是不可或缺的,国外的 Claude 3、Gemini,以及国内的通义、Kimi 等模型的表现已在某些方面具备了替代性。至于 GPT-3.5,其性能已经落后,并且不具备文件上传、联网等附加功能。
面对一系列竞争对手的免费版本能够与付费版抗衡,并且功能更多时,OpenAI 又该如何留住用户呢?
因此,OpenAI 的 GPT-4o 开放战略在某种程度上是出于竞争压力所迫。
实际上,几个月前 OpenAI 允许用户免注册使用 GPT-3.5,正是出于类似的考量,这在以前是难以想象的。其核心原因在于降低用户接触 ChatGPT 的门槛。
综合来看,无论是免注册使用还是免费开放 GPT-4o,OpenAI 至少考虑了以下几点:
目前,大模型面临的一个主要问题是同质化严重,性能和功能上的趋同使得各家产品愈发相似。竞争的关键在于差异化,谁能胜出,最终还要看谁能推出独特的产品及优势。
在我看来,今年最显著的变化是 AI 工具的数量激增,社群中每天都有用户分享各类“新奇”的 AI 工具,有些来自公司产品,有些则是个人或朋友开发的。这也是 AI 大模型与以往技术的一大不同之处——许多人根据兴趣与实际需求探索 AI 的各种应用。一些人把它作为学习开发经验的机会,还有不少程序员甚至将其发展为副业。
这一现象的根本原因在于生成式 AI 技术的 应用场景丰富且高度可定制 ,外部因素则是 开源模型不断增多 以及API 价格愈加低廉,使得大家研究的成本大幅降低。
因此,任何有兴趣的人都可以尝试,例如最简单的,自己微调一个大模型,或利用 RAG 构建个人知识库。如今,关于大模型训练和开发的学习资源非常丰富,找到合适的学习材料并不困难。
作为程序员,我们在大模型研发上具有天然的先发优势,但想要快速入门对大多数人来说并非易事,因此我更推荐大家观看视频课程。正好知乎知学堂推出了一门关于 AI 大模型的进阶公开课,内容涵盖从底层逻辑到实际开发与部署的系统讲解。课程中关于微调、Langchain 及 Prompt 工程,以及训练 / 微调开源模型的部分,务必要认真学习!这里我直接为大家提供了入口,大家可以直接听⬇️
学习大模型的关键在于结合实际开发经验,仅仅了解抽象概念和原理是难以真正掌握的。亲自动手训练、微调或部署模型的过程,将帮助你理解 AI 大模型的原理、使用及产品开发的全流程。如果未来你希望在这一领域发展或自己开展项目,这一点尤为重要。
–
再谈谈 GPT-4o,OpenAI 在某种程度上还是非常谨慎的。虽然他们宣称向免费用户开放 GPT-4o,但实际上并非完全开放。
- 首先是数量限制。虽然没有明确规定具体的限制,但根据我的实际体验和社区反馈,大约每 3 小时能使用 10 条左右,官方会根据服务器压力动态调整,我也曾遇到高峰期使用一条后便被限制的情况。


OpenAI 当前的上下文长度设置显得相对较低(即使是 32k 的付费版本),对于需要分析大量文档的用户来说显然不够。如果是需要处理长文档,或许可以考虑其他国内模型,如 Kimi、通义千问、智谱 GLM 等,它们已有的支持能处理百万级或千万级字数的文档分析。
GPT-4o 的功能
在性能方面的提升是显而易见的,使用中也能直观感受到,这里不再赘述,主要来看与之前版本相比,免费开放的 GPT-4o 在功能上增加了哪些新特性。
1、实时语音对话
我认为这是最能体现 GPT-4o 实力的功能,因为它将改变人类与 AI 的互动方式。尽管之前有语音对话功能,但并非即时,而是将语音通过语音识别模型(Whisper)转化为文本后,再由 GPT-3.5/ 4 生成回应,最后再将文本转化为语音(Vall-E),这一过程的平均时间为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。

大家有尝试过原版的语音功能吗?我的体验是非常不流畅,说完后总要等待几秒钟(生成文本及 TTS 的时间)才能听到它的回应,这严重影响了对话体验。
但是,GPT-4o 作为原生多模态,其对话的平均响应时间缩短至 320 毫秒,已接近人类对话的响应速度,因此完全可以为用户提供沉浸式的交流体验,仿佛与真实的人交谈一般。
需要注意的是,截至 5 月 27 日,GPT-4o 的实时语音(以及视觉)交互能力尚未完全开放。也就是说,现在用户所体验的依然是之前的版本。官方表示将在未来几周内逐步开放这些功能。
我个人非常期待实时语音和视觉交互功能的推出,如果其实际表现能够达到发布会的演示效果,我相信每个人都将拥有一个真正的“私人助手”。

2、支持上传文档
此功能适用于文章阅读、分析和总结等场景。

3、联网功能
可用于信息检索(增强信息)及网页文章内容的总结等。

4、多模态能力
GPT-4o 能够处理图像内容,例如当你面对某种产品的英文说明书或者不懂的产品配件时,可以直接拍照发送给 ChatGPT 进行解读。


5、数据分析功能
这是一个非常实用的功能,尤其是许多人需要处理 Excel 表格,甚至进行编程和可视化图表时,只需将文档上传给 ChatGPT,便可实现自动分析、编程和可视化。
例如,以下是关于不同国家和地区对 AI 担忧状况的统计数据示例,展示如何使用 GPT-4o 进行数据分析和可视化。
(1)上传文件。
如何利用 AI 高效处理 Excel 数据
首先,上传文档至 ChatGPT,系统将自动对表格数据进行初步分析。

接着,输入相关提示信息,让 AI 进行简要的数据解读。


若未能达到理想的可视化效果,可以进一步进行调整。

最终,我们得到了一个二维热力图。为了提升其可读性,建议将数值直接展示在热力图上。

经过这些步骤,最终呈现出如下图形。

此外,这幅图的生成还依赖于下面的 Python 代码。

记录下这一过程的主要目的是为了展示 AI 在处理复杂任务时的优势。即使你已经掌握了 Python 语言,如果想要独自完成上述任务,还必须熟悉 matplotlib 库并自行编写代码,整个过程无疑会非常耗时。而现在,借助 AI 的帮助,完成这些工作变得快捷高效。
AI 大型模型的能力远不止于此,其高级用法还有很多,甚至可以结合多个工具建立个人工作流,或微调并部署特定的模型。相关的知识可以通过前面提到的课程深入学习,总之,在生成式 AI 时代,如何成为一个“超级个体”,以一己之力完成多人的任务,正是我们的追求。
GPT-4o 的限制是什么?
尽管名称相同,GPT-4o 的免费版本与订阅版相比,有以下限制:
还有哪些实用的免费 AI 工具?
如上所述,目前并没有任何一个大型模型是全能的,因此不建议只依赖于单一模型。实际上,许多 AI 产品各具特色,在某些领域展现出独特优势,具有很高的实际应用价值。
具备网络搜索功能的 AI
- Perplexity AI。这是一个外国产品,属于最早进行 AI 搜索的项目,由黄仁勋投资,适合英文用户。


支持文件上传与文档分析的 AI
AI 绘图工具
值得一提的是,由于绘图需要较大的计算资源,很多高效的 AI 绘图工具都是收费的,例如 Midjourney,而免费的工具通常会有限制使用次数。
- Bing(必应)Copilot。这是一款免费的工具,调用 OpenAI 的 Dall·e 3 模型,在 ChatGPT 中需要订阅 Plus 才能使用,但通过 Bing 可以免费获取,支持风格转换,值得一试。

每日提供 60 个免费积分,每次消耗 1 个积分,足以满足日常需求,生成的图片质量也颇为理想。

构建专属的聊天机器人
字节推出的 coze,有国内和海外版本(.com),建议访问海外版,因为可以免费使用 GPT-4o 和 GPT-4-Turbo。

以上是我个人认为非常实用的工具,若无法使用 GPT-4o,可以尝试这些,大多数情况下它们都能有效替代。如果大家还有推荐的好用 AI 工具,欢迎在评论区分享讨论。
感谢阅读!

