共计 1655 个字符,预计需要花费 5 分钟才能阅读完成。
人们口口相传的仍然是“香蕉”,这背后为何谷歌会选择更改名称呢?
后续消息:最终又恢复了,nana-banana 正式回归。
其实很容易理解,nano-banana 原本只是谷歌在多模态技术布局中的一种“半成品”,而在 LM 竞技场内的火爆也显得有些意外。
再看看 Gemini 网页版的工具选项,香蕉的图形已经出现在创建图像的选项前面,谷歌怎能放弃这波流量呢。

为何称之为半成品呢?因为它的强大之处在于——一致性——这实际上是一个 工程优化的问题 ,而非算法上的重大突破。它所解决的是“ 在图像多次编辑时,如何保持人物、宠物或物体的稳定性”这一老大难问题。谷歌通过工程手段将这一点打磨得非常到位,因此才能在 LMArena 上展现出“一骑绝尘”的效果。
不过,实际上,nano-banana 并不是无敌的存在,比如我在这个实验中发现:
然而,工程问题的重要性不可小觑。一致性就像“基础”,虽然不是最吸引眼球的部分,却决定了这座建筑的高度和持久性。看看阿里的Qwen-image-edit,它与谷歌的路线非常相似,都是基于自然语言进行图像编辑。但两者在细节处理上的差异,大小皆有——这不是质的飞跃,而是数量的积累。然而,用户体验正是依靠这些“量变”而获得成功。
我在此分享了一位用户在使用 qwen、nano 和 flux 时的感受与体验。
那么,谷歌为何要进行更名呢?
从实验室走向系统化:“nano-banana”最初仅仅是一个内部代号。更名为 Gemini 2.5 Flash Image,意味着它正式融入 Gemini 的家族体系,从科研半成品升级为生态系统的正式成员。谷歌已将其接入 Gemini 应用、API、AI Studio 及 Vertex AI,这标志着标准化和产品化的开始。
巩固多模态布局:谷歌的目标并非仅限于图像生成,而是构建 世界模型。文本、代码、语音、视频和图像都将统一在 Gemini 框架之内。nano-banana 的纳入,不仅仅是改名,而是将其从“独立实验”转变为“大一统多模态生态系统中的一部分”。
避免边缘化,增强品牌识别:如果继续使用 nano-banana 的名称,它将永远只被视为一个有趣的项目。而称为 Gemini 2.5 Flash Image,立刻与谷歌的旗舰品牌建立了联系,用户和企业会明白:这就是“Gemini 官方出品”的正品,而非实验室的玩具。
阶段性成果,未来仍然开放:不论是阿里的 QIE,还是谷歌的 Gemini 2.5 Flash,实际上都仍在不断探索发展路径。它们代表的并不是终点,而是过程中的一次迭代。现在称之为 Gemini 2.5 Flash,其实也意味着:后续将有 Gemini 3.0、Flash Pro,甚至跨模态更深层次的整合。
多模态 AI 的终极愿景
实际上,将 nano-banana 纳入 Gemini,还传达了一个更深层次的信号:谷歌所追求的终极目标是 世界模型,也就是 lecun 所追寻的那个理想。
- 在这个愿景中,AI 不再只是“生成一张图片”或“撰写一段文字”,而是 理解并操控整个世界的信息:文字、声音、图像、视频、3D 环境,甚至实时传感数据。
- 它能够将文字描述转化为图像,将图像重构为视频,把视频中的场景转译成代码,最终再将代码转化为交互体验。
- 从用户的角度来看,就是一句话——“我说一句,AI 为我完成跨模态的所有转化与创造。”
这也是为何谷歌等科技巨头必须将像 nano-banana 这样的实验品融入 Gemini 主线的原因:它不仅仅是一个图像编辑工具,而是多模态愿景中的 基础模块,就如同“多模态大厦”中的一块砖。只有确保一致性和可控性,才能在未来真正支撑起“通用多模态智能”。