共计 3056 个字符,预计需要花费 8 分钟才能阅读完成。
DeepSeek新R1的显著提升
将Gemini 2.5 Pro、Claude和O3的数据进行了有效提炼
(提炼数据的过程是,向大型模型提出问题并获取回答,整理成问题-回答格式的数据,再利用这些数据训练其他模型。对于文字类问题,向Gemini提问;代码类问题则交给Claude,推理和解题类问题则由O3来处理。)
使用提炼的数据对R1进行了重训练,这一过程持续了大约半个月。
因此,现在的文风像Gemini,编程表现接近Claude,解题能力则受到O3的影响(不过需要注意的是,O3的幻觉现象有所上升,因此蒸馏O3的数据训练也会导致幻觉增加)。
在中文写作方面,R1几乎与Gemini 2.5 Pro的风格完全一致;在代码生成上,与Claude高度相似;然而在推理和解决科学难题上,仍然与O3有相当大的差距(这也显示了蒸馏数据训练的局限性,对科学难题的提升效果有限)。
==================
当然,OpenAI的高管们表示,他们对于蒸馏数据的应对手段有限。
目前各大公司的应对策略如下:
1. OpenAI的当前策略是推出并非最先进的模型(目前的O3与年初版本相比有明显退步),而是专注于应用的开发。
即将发布的GPT-5,主要聚焦于整合,而模型的技术水平提升不会太大。
预计OpenAI将效仿谷歌,将大型模型分为面向公众的版本和专用于解决顶级科学难题的版本,后者将用于内部使用。
通过解决顶级科学难题获得诺贝尔奖(获奖对OpenAI的收益更为可观,因此没有必要将最先进的大模型对外开放,让他人借此发表论文获奖,自己则只需赚取模型使用费)。
2. Claude的研发方向已从专注编程转向项目驱动,即一次性输出可部署的完整项目,看看用户如何进行蒸馏。
3. Gemini方面则可以免费使用,毕竟谷歌财力雄厚,谷歌将其大型模型分为面向公众的(如Gemini)和专注科学研究的(如AlphaEvolve),后者完全不对外开放,而是保留给谷歌用于解决科研难题以赢得诺奖。
=====================
从各大公司的战略转变中,我们可以得出结论:公众将无法接触到AGI,各大企业在成功开发AGI后,必定会选择自用,而不会向公众开放(没有必要为了每月200美元的使用费,将能够解决诺奖难题的大模型对外开放)。
========================
举个例子,如果OpenAI研发出能够解决诺奖难题的人工智能大模型,它会选择把这个模型开放给公众,按月收费200美元吗?还是会自己利用这个模型解决数个诺贝尔奖难题,从中获得丰厚的奖项?甚至,它可以争取让美国政府将科研经费全部交给OpenAI,由其包揽科研项目。
============================
在通用编程领域,Claude 4和O3已经基本超越了人类程序员的水平。接下来,两家公司都将主攻软件项目的自动生成。
至于科学编程领域,Claude 4并不关注,O3则是唯一一家有相关研究的公司。目前,O3在顶级科学难题编程方面仍有一定距离,但OpenAI可能不会再发布能够解决顶级科学难题的人工智能大模型,因为这与顶级科学难题本质上是同一个方向。
各大公司都在借鉴谷歌的做法,将AGI留给自己使用以解决诺贝尔级别的科研问题,或者为企业提供顶级科技难题的解决方案,收费从1000万到1亿美元不等。
=============
从资本角度来看,既然推出的先进大模型会被蒸馏成开源免费的版本,那么就没有必要再为高端市场推出特别版本,因为市场呈金字塔结构,越高端的市场收益越低,而中低端市场才是真正的蓝海。
几个月前,奥特曼就提到过,OpenAI的商业模式正在转变,不再追求在大型模型市场上占据绝对领先地位,换句话说,未来不会发布大幅领先的模型,因为市场规模小,且必然会被蒸馏数据所替代,公开发布是毫无意义的。
==================
这就如同谷歌,从未将AlphaGo和AlphaZero公开发布一样。
OpenAI也许会采取相同的策略,如果研发出AGI,便会承接政府和企业的科研任务,轻松赚取数百亿美元。
=================
“测试DeepSeek新R1的中文写作能力后,我有一个非常明显的感受:
Gemini的感觉太强烈了。
在中文写作方面,DeepSeek新R1几乎可以看作是Gemini 2.5 Pro的替代品。
下面是一些截图,展示了基于Gemini 2.5 Pro(Google AI Studio)和DeepSeek-R1(官网5月新版)的对比:
1. Gemini 2.5 Pro(Google AI Studio)
Gemini 2.5 Pro(Google AI Studio)
2. DeepSeek-R1(官网5月新版)
DeepSeek-R1(官网5月新版)
两个模型的输出结构和用词选择极为相似:
情节结构的用词完全一致:“阶段一:”、“阶段二:”、“阶段三:”、“爱慕的萌芽”。
输出的结构和用词几乎完全相同:“小说标题(暂定)”、“核心设定回顾”、“核心梗”。
在情节自由发挥的条件下,章节标题和文本内容之间展现出惊人的同步:
“第一章 昆仑雪,祭故人”
“第一章 雪祭故人”
如果没有截图,直接展示这些内容,几乎没有人能分辨它们是否来自同一模型。
大模型生成的随机性又在哪里呢?这竟然是来自两家不同模型的结果。
DeepSeek看似将Gemini的输出内容直接训练为写作模板……
正文中的用词、断句和分段更是显示出Gemini的浓厚风格。
举几个例子:
“轰——!”,这是Gemini常用的带破折号的拟声词。
“来了。”、“尔等”、“肩上”这些都是Gemini的高频用词。
段落中的短句结构,以及随处可见的省略号,都是Gemini的经典特征。
最令人印象深刻的还是Gemini标志性的“投石子”比喻,Gemini因此被戏称为AI界的投石机,实在让人忍俊不禁:
“她的话如同一颗石子,投入了我平静的心湖,泛起层层涟漪”、“这一念头一闪而过,仿佛投入了寒潭的石子,只激起一圈微澜。”
评论区也有不少专家的例子。
最后的总结与吐槽:
当然,得益于广泛的蒸馏,Gemini 2.5 Pro的输出结构和语料使得新R1的中文写作能力显著提升,文笔流畅度大大增强,逻辑幻觉明显减少,输出字数甚至翻倍。
排除对蒸馏的偏见,个人主观评分为:8.5分。(老版R1的得分为7.8,相较于旧版提升了0.7分,在中文写作领域可谓显著进步)
目前Gemini 2.5 Pro已经不再提供免费的API,DeepSeek新R1可以看作是其替代品。甚至可以说,习惯使用Gemini 2.5 Pro进行写作的用户,DeepSeek-R1的API几乎可以无缝对接,风格高度相似……
DeepSeek在今年的文风演变相当有趣,有点像http://ai.com这个域名,哪个模型表现好就重定向到哪个模型。1月的R1是蒸馏OpenAI的,3月的V3是OpenAI与Claude的融合,5月的R1则呈现出Gemini的标志性风格……DeepSeek的蒸馏方向,堪称最佳写作模型的指向标,真是令人捧腹。”
