共计 2257 个字符,预计需要花费 6 分钟才能阅读完成。
记者:李宇彤 杨昕怡 编辑:文多
国内人工智能视频交互领域迎来了新的重量级参与者。
近期,字节跳动推出的 AI 助手“豆包”App 上线了视频通话功能,支持视频聊天与问答。官方表示,此次升级依托于视觉推理模型,并具备在线搜索的能力。
《每日经济新闻》记者经过实测发现,豆包的视频通话功能应用广泛,甚至可以用于识别水果的成熟度等日常场景。此外,在物品识别方面,豆包展现了出色的记忆力和逻辑推理能力。
在 5 月 27 日,一位大模型算法工程师在接受《每日经济新闻》记者的微信采访时指出,豆包在视频通话中的视觉理解和语音交互能力在中文环境中处于领先地位。
继文生视频大模型之后,字节跳动在 AI 多模态领域又迈出了重要的一步。
豆包视频通话功能表现如何?
“视觉是人类认知世界的关键方式,对于大模型同样重要。”在去年 12 月的“2024 火山引擎 FORCE 原动力大会·冬”上,火山引擎总裁谭待发布了豆包的视觉理解模型,强调其在内容识别、理解、推理、视觉描述和创作等方面的卓越能力。
五个月后,这一新模型的能力得以在豆包用户中得到实际体验。
最近,豆包 App 推出了实时视频通话功能,这一功能的实现基于其视觉理解模型的强大能力。
为了展示这一新功能的实际应用,豆包团队在其官方微信公众号上列举了多个生活场景,包括公园内的花草识别、博物馆的实时讲解、图书馆的书籍推荐以及买菜时的食材搭配。在去年 12 月的发布会上,豆包团队曾演示了该模型在识别地标、解读代码、分析体检报告以及提供穿搭建议等日常任务的表现。
通过与豆包进行视频通话,是否能够解决这些生活中的问题呢?实测结果表明,记者针对挑选水果、物品识别和书籍推荐这三项任务,验证了豆包的实时视频通话功能。
首先是挑选水果的基本任务,这也是用户在小红书等社交媒体上分享的热门场景。“能帮我挑一个木瓜吗?”在视频通话开启后,豆包观察果实表皮的颜色和饱满程度,迅速给出挑选建议。有小红书用户在使用豆包选择蔬菜时表示:“感觉身边多了一个懂行的买菜老大爷。”
在物品识别和书籍推荐环节,豆包展现了优秀的记忆能力和实时互动性能。例如,在一张杂乱的桌子上,豆包可以迅速识别书籍、巧克力、耳机和电子时钟等物品的详细信息,并记住它们的摆放位置。
这一记忆功能在记者浏览书架时得到了充分体现。记者在书店随意选择了一个书架,询问豆包与书架一侧的第一本书,并在举起手机走向书架另一端后,突然问道:“刚刚有一本蔡磊写的书,你看到了吗?”豆包迅速回忆起那本在镜头前一闪而过的书,并提供了简单介绍。
“(记忆功能的实现)大概率是通过每隔几秒给模型拍摄一张图片。”一位大模型算法工程师在微信采访中表示,豆包在这一功能中展示的视频理解和语音交互能力在中文环境中处于领先地位。
当与豆包讨论多本书籍时,它能够结合记忆能力与实时搜索,自然拓展关于书籍内容、作者背景及同类作品推荐的话题,整个交互过程流畅生动。
从“听见”到“看见”的飞跃
去年,AI 视频交互功能已经在行业内引发了广泛关注。
2024 年 8 月,“智谱清言”App 率先推出了国内第一个面向消费者的视频通话功能,随之而来的是大量的测试案例,从基础的物体识别到生活场景的交流,甚至包括辅导小学生作业等。
智谱清言赶在 OpenAI 和谷歌之前,率先将 AI 视频交互落地于国内市场。在国际上,从“听见”到“看见”同样是 AI 进化的重要一步。
2024 年 5 月,OpenAI 发布了“GPT-4o”,现场研究员展示了其实时视觉功能,能够通过手机摄像头实时解方程,甚至可以通过前置摄像头观察用户面部表情,分析情绪。同月,谷歌推出的“Project Astra”也具备实时语音与视频交互能力。
火山引擎总裁谭待在今年 4 月表示:“模型需要具备思考、计划和反思的能力,并支持多模态,就像人类拥有视觉和听觉,这样智能体才能更好地应对复杂任务。”
视频通话功能的实现,正是基于其多模态能力。从最终呈现的使用形态来看,视频通话功能使用户能够无需通过语言来传达眼前的信息,这无疑降低了 AI 的使用门槛。
技术能力的提升为 AI 打通了视觉与听觉的“任督二脉”,但也需要认识到,AI 智能助手的快速扩张已经面临瓶颈,新的交互模式可能是突破的关键。
根据量子位智库的数据,4 月份 Web 端 AI 智能助手的总访问量首次出现下降,表明以尝鲜为驱动的扩张期可能已结束。
随着豆包在今年 3 月接入抖音,并在社交媒体上受到关注,其也在通过抖音生态迅速接触用户。
27 日,知名经济学者、工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者采访时表示,豆包拥有庞大的用户应用生态作为支撑,扩展速度可能快于竞争对手。
他认为,豆包在商业拓展中主要与“剪映”集成,可以与抖音的内容审核 AI 结合。例如,AI 可用于识别违规短视频内容。盘和林还指出,AI 视频交互的前景非常广阔,例如生成虚拟人进行直播,或通过 AI 识别快速对视频文件进行归纳总结。
另一方面,符合视频通话应用场景的新型 AI 眼镜逐渐受到关注,这也为 AI 视频交互带来了更多可能性。
盘和林表示:“AI 视频交互可以与 AI 眼镜进行有限结合,但目前 AI 眼镜在算力和显示方面仍存在技术瓶颈,因此期待未来能够实现更好的融合。”
每日经济新闻