共计 7256 个字符,预计需要花费 19 分钟才能阅读完成。

你是否认为 ChatGPT 会一直保持其霸主地位?然而,最近的动态却让人感到意外。
凭借近期热度颇高的 Nano Banana 图像处理工具,Google Gemini 成功跻身 App Store 免费榜首 ,使 ChatGPT 不得不屈居第二。
Gemini 在 App Store 免费榜的所有分类中名列第一,图片来源:
https://apps.apple.com/us/charts/iphone/top-free-apps/36;15/09/2025
这一变化标志着 Google 终于迎来了属于自己的“AI 热潮”。
而且,Gemini 只是这股浪潮的一部分。Google 还拥有一系列 AI 工具,涵盖写作、绘图、学习笔记以及视频生成等功能。今天,我们将为你揭秘 Google 的“AI 全家桶”。
简要概述:
- Gemini,功能与 ChatGPT 相似的通用助手 :包括 nano banana(近期热门的生图模型)、Canvas 画布、Veo3 视频生成、Storyboard 故事板以及 Deep Research 等众多功能,目前提供 Gemini 2.5 Pro 和 Flash 两个版本。体验地址:gemini.google.com
- NotebookLM,深入研究的知识库 :最多可上传 300 个文件,能够将文档转化为音频、视频、思维导图等六种形式,是学习和研究的得力助手。体验地址:notebooklm.google
- Flow,高质量视频生成 :支持竖屏 9:16、1080p 高清,价格低廉,免费用户每月可获得 100 积分。体验地址:flow.google
- AI Mode,搜索具备推理与思考能力 :在 Google 搜索框中即可直接启用,提供比 AI Summary/Overview(总结)更为严谨和详尽的结果;目前支持英文等五种语言(但暂时不包括中文)。体验地址:google.com/ai
- Gemini CLI:一个多功能的本地助手 :不仅是开发工具,还可以下载视频、转换 GIF、压缩文件。体验地址:github.com/google-gemini/gemini-cli
- AI Studio 和 Labs Google:其他有趣的小工具,能够生成音乐、简单学习新语言,体验最新、最全的 Google 大语言模型……体验地址:ai.dev 和 labs.google
Gemini:不仅能聊天,更是全能工作台
近期大热的 nano banana,主要的官方渠道除了网页版外,就是 Gemini 应用。
Gemini 的主页上,常驻提示推广 nano banana 图像编辑模型
然而,如果你仅仅把 Gemini 用来处理图片,那将是极大的浪费。它与 ChatGPT 相似,具备跨对话的“记忆”功能,且能够与 Google 生态系统无缝连接。
Gemini 的“记忆”功能
对我来说,这一重要的更新,加上教育邮箱所赠送的 Pro 会员,足以让我将大部分日常对话迁移到此。
Google 最近公布了 Gemini 免费用户和付费用户的具体使用限制。虽然免费用户在使用 Gemini 2.5 Pro 和 Deep Research 时次数有限,但 nano banana 的单次生成费用非常低,因此免费用户依然享有慷慨的 100 次生成机会。
图片来源:
https://support.google.com/gemini/answer/16275805
Gemini 2.5 Pro 的最大优势在于,每次回答都具备类似 DeepSeek 的清晰推理过程,且速度相较之下更快。相比之下,ChatGPT 在更新至 GPT-5 后,采用了全新的路由控制系统,自动选择模型的优势愈发突出。
因为在某些情况下,ChatGPT 有时无法准确判断我希望其使用何种模型进行回复;而我表达的意图,并非总是能够清晰地传达给模型。
更擅长交流的代价:性能与能力的对比
然而,能言善辩的代价往往是执行力的不足。就如同 LMArena 的排行榜所展示的那样,尽管在文本处理能力上名列前茅,Gemini 在网页开发方面却不及 GPT 和 Claude。值得庆幸的是,最近谷歌频繁为 Gemini 进行更新与补丁,使得用户在软件交互方面的体验不断提升。
在 Gemini 与 ChatGPT 共同承担的开发任务中,哪个更合你的心意呢?
拿网页开发来说,Gemini Canvas 现已具备了直接选择应用中元素并用自然语言进行修改的能力。
在功能上,Canvas 画布与 ChatGPT 的画布预览类似,均以直观的方式将我们的创意转化为应用、游戏或信息图表等内容。
Gemini 画布的新功能使用户可以轻松选择元素并提出修改请求。如今,只需点击目标元素并描述所需的更改,便可直观地编辑网页应用的各个部分。图片来源:
https://x.com/GeminiApp/status/1965475292526551105
此外,Gemini 终于实现了音频文件的上传功能。这一进步意味着,诸如会议录音和采访视频等富含上下文的材料,可以直接交由 Gemini 处理,这样就省去了手动整理和撰写复杂提示的麻烦。
相比之下,ChatGPT 长期以来的反馈却是无法使用相关工具。
根据最新消息,flowith 的创始人 Derek Nee 与 Gemini 3 的工程师团队交流后透露,Gemini 3.0 Flash 的功能将超越 2.5 Pro。
图片来源:
https://x.com/DerekNee/status/1965811795559653506
与 ChatGPT 的使用条件相似,Gemini 可能对谷歌账户的地域有所限制。
想要体验的朋友可以访问:gemini.google.com
NotebookLM:你的理想个人知识库
是否曾经收藏了大量英文长文或书摘,却始终未能抽出时间阅读?NotebookLM 正是为了拯救这些被遗忘的资料而诞生。
只需将几篇文章、报告或书摘放入其中,它就能够:
- 自动提炼要点,为你生成一份逻辑清晰的学习笔记;
- 如果你偏好可视化效果,还能直接生成思维导图,让你一目了然地理解文章结构;
- 想要进一步学习?它还能基于这些资源出小测验,帮助你巩固复习。
例如,我曾用它整理过一批论文,NotebookLM 支持上传多达 300 个文件,并且兼容丰富的文件类型,如 PDF、txt、Markdown,以及音视频文件,均可被识别。
我上传了 297 篇来自同一研究领域的论文,NotebookLM 能够基于这些资料生成多种形式的内容总结。
多样化的内容生成工具
在这个信息爆炸的时代,NotebookLM 提供了多种形式的内容生成方式,包括文字报告、播客预览、视频介绍、思维导图、闪卡以及小测验六种选项。
文字报告和播客是 NotebookLM 最初推出的功能,如今这两者均已得到显著提升。用户可以选择将文字报告直接生成为博客、说明文档或指南等类型,NotebookLM 还会根据知识库中的信息提供动态建议。例如,当用户上传一篇论文时,系统可能会推荐创建一份白皮书,而对于新闻类文章,则可能生成解释性内容。此外,用户现在可以自定义提示内容。
通过 NotebookLM 生成的博客文章
音频播客的支持语言现已超过 80 种,播客类型从概述扩展到深入探讨,还包括辩论和批判性思考等多样化内容。
我特别喜欢新增的视频、Quiz 测验和闪卡功能。这些工具不仅帮助我更好地消化知识,同时也便于进行进一步的内容传播,NotebookLM 的实用性得以充分体现。
尽管论文研究偏向于较小众的领域,我们依然借此机会展示 NotebookLM 的强大功能。对于学生与研究者而言,毫无疑问,这款工具是 Google AI 中最值得推荐的。
在更广泛的应用场景中,NotebookLM 能够高效地构建各类知识库。以官方给出的案例为例,上传多家公司的季度财报,我们可以通过思维导图迅速明了地掌握财报的具体信息。
NotebookLM 还与 OpenStax(一个提供免费教科书的平台)合作,将其受欢迎的内容转化为互动式笔记本,涵盖生物学、化学、心理学以及管理学等主题。
在心理学知识库中,每一章节都配有小测验和记忆卡片,旨在帮助我们巩固所学的知识要点。
语言选择包括中文,知识库链接:
https://notebooklm.google.com/notebook/90a2ee5f-cccb-4c28-a356-bb1682cc8aeb
小测验和闪卡的主题及难度均可自定义。无论是使用闪卡还是测验,用户只需点击解释按钮,即可深入了解当前主题;NotebookLM 会生成详细概述,帮助我们理解闪卡的定义,或解释某道题为何回答错误,并附上指向原始资料的引用。
体验网址为:notebooklm.google
Flow:电影级 AI 视频生成
尽管 AI 视频越来越受欢迎,但人们依然对其用途感到困惑。我们曾介绍过多款 AI 视频生成模型,许多读者也曾询问:这些 AI 视频的目标观众是谁呢?
在 Gemini 中,用户可以直接使用 Veo 3 进行视频生成,虽然 Veo 3 目前仅支持首帧,首尾帧则需借助 Veo 2。
Google 的更新或许为这一问题提供了部分答案:其支持竖屏(9:16)以及 1080p 高清分辨率,这无疑是为抖音、YouTube Shorts、Reels 等短视频社交平台量身定制的。
近期 Veo 3 更新,Veo 3 Fast 的价格从每秒 0.4 美元降至 0.15 美元,并支持 9:16、1080p 等功能。图片来源:
https://x.com/GoogleAIStudio/status/1965436154762920074
如今,AI 视频已经成为一种新的内容消费形式,与其被动地观看,不如亲自尝试一下。
探索视频生成的新风潮:Google 的 Veo 3
在如今的视频生成领域,除了 Sora、可灵与海螺等备受欢迎的模型之外,Google 的 Veo 3 也凭借其卓越的表现,稳居文生视频类别的前列。
近期在社交媒体上广为流传的第一视角穿越视频、ASMR 切水果以及金属和兔子在蹦床上的夜视监控片段,皆是由 Veo 3 生成的杰作。
提示词的质量直接影响视频的成效。例如,在上述提及的视频中,我们直接参考了 Google 官方提供的案例。
他们的说明指出,优秀的提示词应包含三个关键部分:首先是「50mm 相机、特写镜头」用于指定拍摄设备;接下来是详细描述拍摄对象及视频内容的段落;最后一句则是进一步阐明场景中的光线和质感。
Flow 对网络环境的要求相对较高,通常在 Gemini 的网页或应用程序中使用即可满足需求。
体验地址:flow.google
AI 模式扩展语言支持,打造全球搜索平台
作为流量的主要入口,AI 浏览器成为了各大模型企业争相布局的领域,尽管这条路充满挑战。
在 Arc 项目宣布暂停后,重新启动的 Dia 浏览器不久前被 Atlassian 以 6.1 亿美元收购。之所以面临挑战,不仅在于缺乏利益,更多是因为市场竞争异常激烈。
上个月,微软宣布将 Edge 升级为 AI 浏览器,Copilot 无缝融入各个功能模块,能够轻松完成预订餐厅、机票及标签页的整理等操作。与此同时,OpenAI 也在推出 ChatGPT agent 时传出要开发自家 AI 浏览器的消息。
Google 自然不会停下脚步,与我们平常使用 Google 搜索时看到的 AI Overview 不同,AI Mode 更像是深度分析报告,利用 Gemini 2.5 的推理能力和多模态特性,精准处理用户的搜索请求。
例如,当我询问关于 iPhone Air 的 eSIM 卡时,它能够自动从网页内容中提炼出更为准确的信息。
想要切换回普通 Google 搜索,只需点击上方的 All 按钮即可。
不过,AI Mode 目前的一个不足之处在于尚不支持中文。然而,Google 最近宣布将支持日语、韩语和葡萄牙语等五种新的语言。他们强调,构建一个全球化的 AI 搜索不仅是翻译,更要注重语言的本地化和实用性。
体验地址:google.com/ai
Gemini CLI:一站式文件处理解决方案
即使 Claude Code 不再更新,Gemini CLI 依然表现出色。
之前提到利用该终端工具修改文件名,实际上是最基本的应用。我最近使用它进行 X 视频、YouTube 等视频的下载、视频转 GIF 及格式转换、图片和视频压缩等操作,效果都非常理想。
Gemini CLI 的安装与使用:轻松上手的便捷工具
Gemini CLI 的安装过程相对简单,即使在面临环境配置的挑战时,现代人工智能也提供了有效的解决方案。
最初的困难主要出现在 Node.js 的安装上,对于 Windows 用户而言,终端的使用体验不如 macOS 和 Linux 友好,因此需要一些耐心。
一旦 Node.js 成功安装,接下来可以遵循 GitHub 上的说明,通过执行 npm 或 npx 命令来安装 Gemini CLI。
输入命令 gemini 后,系统会提示进行验证,通常只需通过 Google 账号登录,无需额外创建 Gemini API 等操作。免费用户每分钟可进行 60 次请求,每天最多 1000 次,这对于日常的简单工作流程来说绰绰有余。
在终端中,有一些基本命令需要掌握,因为默认情况下打开终端时,当前文件夹可能是整个计算机的目录,直接输入 gemini 可能会导致文件检索变得复杂。
正确的使用方式是:首先输入 ls 命令,它会列出当前目录下的所有文件和文件夹;接着使用 cd xxx 命令进入某个特定文件夹;最后,使用 mkdir xxx 命令来创建新的文件夹。
例如,打开终端后,输入 ls 命令可以查看当前目录中的所有文件和文件夹;选择一个用于处理的文件夹,如输入 cd Downloads,可以看到命令前面显示当前目录的名称。接着,创建一个新文件夹,使用命令 mkdir testing,随后进入该目录,执行 cd testing。当然,你也可以选择一个文件夹,右键点击并在终端中打开。输入 gemini,终端就会正式接管,之后我们可以通过自然语言处理各种复杂任务。
以下载某个视频为例,首先它会搜索并找到 yt-dlp 工具,这个工具可以用来下载视频;然后,它会自动检查电脑上是否已安装该工具。如果检测到已安装,视频便会开始下载。
此过程涉及调用 yt-dlp 工具,而在终端环境中,还有许多高效的工具可供使用,例如 FFmpeg,这是一款强大的多媒体处理工具。
在输入指令后,Gemini CLI 会直接说明需要使用 yt-dlp 和 ffmpeg 这两个工具;然后,它会自动调整视频的分辨率和帧率,以满足我们指定的最终文件大小,最后删除临时文件。
继续以下载视频为例,这次我们直接要求将链接中的视频下载为 GIF 文件,并确保其大小在 5 到 10 MB 之间。
除了从网络上下载文件,Gemini CLI 同样能够直接处理本地文件。比如,当我有一张图片大小不符合上传标准时,只需告诉它文件名并要求进行压缩,整个过程无需寻找在线工具。
可以使用模糊语言指定图片位置,系统顺利定位到目标图片,并使用 ffmpeg 进行压缩。不过,最终它会删除原始文件。当我请求恢复时,系统会修改它的 gemini.md 配置文件——这相当于它的“记忆”,确保今后不再犯同样的错误。
命令行工具种类繁多,几乎所有文件都能处理,甚至遇到一些压缩包无法解压时,可以直接请求 Gemini CLI 来处理,而无需额外下载解压工具。
结合 MCP(大模型上下文协议),Gemini CLI 的功能远不止于编程开发。
体验地址:
https://github.com/google-gemini/gemini-cli
AI Studio 与 Google Labs:探索谷歌前沿 AI 技术
Google Labs 汇聚了许多尚未正式推出的 AI 黑科技产品,如 AI Mode、NotebookLM 等,目前仍处于实验阶段,但它们的知名度相对较高。我们挑选了一些有趣的小项目,尽管背后的模型均为 Gemin 2.5 Pro/Flash,但我们可以观察到在模型之上,不同的软件形态。
首个项目是 Whisk,这是一款不需要提示词的图片生成工具,用户只需上传照片便可尽情创作,近期还新增了 animate 动画功能,能够将生成的图片直接转换为视频。
访问链接:
https://labs.google/fx/tools/whisk
在学习新语言方面,Google 推出了一个名为 Little Language Lessons 的项目。这一项目的独特之处在于,它通过一系列由 Gemini 构建的小实验,帮助用户在真实场景中快速掌握新的语言,并学习到丰富的俚语表达。
我尝试了一下粤语,发现体验大大不同于多邻国那种千篇一律的肠粉和豉汁排骨。
访问链接:
https://labs.google/lll/
Google 实验室中还有许多其他项目,用户可以前往体验,地址是:labs.google。
在讨论通用大模型 Gemini 2.5 Pro、图像编辑工具 nano banana 及视频生成工具 Veo 3 时,Imagen 4 同样不可忽视。
目前,Imagen 4 的官方体验渠道仅通过 Gemini API 和 AI Studio 可用。尽管 Google Labs 内有专门的图像生成工具 ImageFX,其使用的仍然是 Imagen 3 模型。
在 AI Studio 中,用户可以体验到 Google 最新、最全面的各种模型。更有趣的是,AI Studio 的对话功能中,提供了“分支”选项,允许用户在保留现有对话的基础上,开启新的讨论主题。
访问链接:
ai.studio/ai.dev
不久前,马斯克在 X 平台上与奥特曼展开了一场激烈的辩论,指责对方与 Apple 之间存在私下交易,否则他的 Grok 为何无法登顶排行榜,而 ChatGPT 却始终稳居第一。
通过这次体验,我们似乎能窥见 Gemini 的独特之处。Google AI 几乎是通过一整套无缝的工作流,将其融入我们的学习、工作和创作中。从资料整理到创意激发,再到双手的解放,这一系列工具的核心目标是显著提升每个人的生产力。
那么,你最常用或最想尝试的是哪些工具呢?请在下方留言与我们分享你的看法。
想看视频请点击以下链接,前往微信预览:
https://mp.weixin.qq.com/s/gdSkrm95Mq1RORe-sIoK4A
# 欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),我们将为您第一时间带来更多精彩内容。
爱范儿 | 原文链接· ·新浪微博