共计 1927 个字符,预计需要花费 5 分钟才能阅读完成。
最近,谷歌推出了一项重磅更新——Gemini 2.5 Flash Image Preview,内部代号为 nano-banana,正式发布日期为 8 月 26 日。作为第一时间了解这一消息的人,我深入研究了谷歌开发者博客、DeepMind 的图像模型介绍以及 Gemini App 的实际更新,感慨万千——这次的变化真的是颠覆性的, 图像生成的基础逻辑正在经历巨变!

直接切入主题,这次升级的亮点究竟在哪里呢?
首先,多图融合的能力令人惊叹!我尝试上传了两张风格迥异的照片,结果它成功将它们融合为一张风格统一的新图,完全没有拼接的痕迹,背景和光影的结合也非常自然。相比之前使用 MJ 或 SD,想要实现这样的效果需要费劲心思进行修改,而 Gemini 则轻松搞定。
其次,角色一致性这一点值得特别称赞。我尝试生成了一系列图像,比如“坐在沙发上的我”和“穿婚纱站在海边的我”,结果发现它能够保持面部特征完全一致!即使是眼神细节也没有偏差,之前 AI 图像中的一个大问题——每张图中人物形象变化,现在终于迎来了突破,实在令人惊艳!
第三,多轮对话式的图像修改体验,仿佛是在和设计师进行合作。我输入“画一个骑自行车的小女孩”,生成之后又请求“换成雨天”“给她加个黄色雨衣”“后面放个彩虹”,每一步都能理解并保持逻辑一致性,这种多轮语义的连贯性真的是少数几家能够做到的。
还有一个细致的功能也非常出色——你可以画一个简笔画,它能够理解并还原为真实的物品。我画了一个类似台灯的草图,它竟然为我制作出了一个复古风格的小夜灯,并且还加上了木质底座。这种理解力让我感受到它的智能,仿佛真的会思考一样!
这一模型发布后,已经可以在多个平台上使用,包括:
尤其是与 Adobe 的合作,意义非凡。以前 AI 图像生成在“生成”方面表现突出,但在“编辑”上相对较弱,而 Gemini 的解决方案将“可编辑性”提升到了新高度,这将彻底改变广告设计与内容电商的工作流程。
此外,Gemini 2.5 Flash Image 还内置了SynthID 数字水印,每张 AI 生成的图像都会附带谷歌的隐形水印,肉眼不可见,但技术手段可以识别。这对内容合规和版权问题至关重要,这次他们也在积极防范深度伪造及身份冒充的问题。
我浏览了一些科技媒体的评论,整体评价较为积极:
- PC Gamer 表示“虽然还不能裁剪图,但多轮一致性表现令人惊叹”;
- TechRadar 认为这个模型“可能成为 Adobe AI 设计体验的关键引擎”;
- Lifewire 指出它比之前的版本更像一个真正的视觉编辑助手;
- Android Central 强调“对品牌风格管理和图像一致性控制具有重大意义”。
我个人认为,它不再仅仅是生成图像这么简单,而是转变为一个“AI 协同编辑平台”,用户可以逐步完善,最终得到一幅参与创作的作品。
另外,它对于世界知识的理解也让人印象深刻。例如,我输入“画一只在日本京都看樱花的柴犬”,它能生成背景是清水寺的图像,狗狗穿着和服,还佩戴樱花发饰。如果我再要求“再加个寿司”,它会将寿司放在狗旁边的小餐盘上。这种对文化背景的理解,之前的模型几乎无法实现。
当然,它目前仍有一些小不足,比如裁剪、画布缩放和分辨率调整等基本功能还不够完善,或许下一版本会有所改进。但总体来说,它已经脱离了“只会出图”的局限,开始朝着“图像理解与可控生成”的方向进化。
简要总结一下 Gemini 2.5 Flash Image 的几个关键点:
- 正式
- 内部代号:nano‑banana;
- 主要功能亮点:多图融合、角色一致性、多轮自然语言编辑、草图理解、具备世界知识、隐形水印防伪;
- 可用平台:Gemini API、Google AI Studio、Vertex AI、Gemini App、Adobe Firefly & Express;
- 用户体验:操作流畅、多轮编辑自然、内容理解准确,但裁剪等基础功能尚待完善;
总体来看,这一版本 标志着图像从“生成工具”向“智能图像编辑平台”的重大升级,非常适合那些希望进行品牌 IP 塑造、产品图设计、短视频封面制作以及宣传素材创作的用户,绝对值得关注!