共计 2201 个字符,预计需要花费 6 分钟才能阅读完成。
每经记者:李宇彤 杨昕怡 每经编辑:文多
国内的人工智能(AI)视频互动领域迎来了新的重要参与者。
最近,字节跳动推出了其AI智能助手“豆包”的新App版本,增添了视频通话功能,支持视频聊天与问答。根据官方的说明,此次更新是基于视觉推理模型,能够进行联网搜索。
《每日经济新闻》记者通过实测发现,豆包的视频通话功能用途广泛,涵盖了如识别水果成熟度等日常需求。此外,在物品识别过程中,豆包还展现了其持续记忆和逻辑推理的能力。
5月27日,一位负责大模型算法的工程师在接受《每日经济新闻》记者的微信采访时指出,豆包在视频通话中表现出的视觉理解及语音互动能力,在中文环境下处于领先水平。
继文生视频大模型之后,字节跳动在AI多模态技术上又取得了重要进展。
豆包的视频通话功能表现如何?
“视觉是人类认识世界的关键方式,对于大模型而言同样如此。”去年12月,在“2024火山引擎FORCE原动力大会·冬”上,火山引擎总裁谭待发布了豆包的视觉理解模型,强调该模型在内容识别、理解、推理、视觉描述和创作等方面的卓越能力。
五个月后,豆包的新模型能力让所有用户得以亲身体验。
最近,豆包App新增的实时视频通话功能正是基于这一视觉理解模型而实现的。
为了更直观地展示这一新功能,豆包团队在其官方微信公众号上列出了一些应用场景,包括公园内的花草识别、博物馆的实时讲解、图书馆的书籍推荐以及买菜时的食材搭配。在去年12月的发布会上,豆包团队曾展示该模型在识别地标、理解代码、分析体检报告和提供穿搭建议等日常任务中的表现。
与豆包进行视频通话,真的能解决这些生活中的小问题吗?百闻不如一见,《每日经济新闻》记者近期选择了挑选水果、识别物品和推荐书籍这三项任务,进行了实地测试。
首先是较为简单的挑选水果任务,这是用户在小红书等平台上频繁分享的应用场景。“请帮我挑选一个木瓜。”在视频通话中,豆包通过分析果实表皮的颜色和饱满程度,迅速给出了挑选建议。一位小红书用户在使用豆包选择蔬菜后表示:“感觉身边多了一个懂行的买菜老大爷。”
在识别物品和推荐书籍的环节,豆包展现了出色的记忆能力,实时搜索和互动也非常流畅。例如,当面对杂乱无章的书桌,豆包能轻松识别书籍、巧克力、耳机和电子时钟等物品,并能记住它们的摆放位置。
在记者浏览书架时,豆包的记忆功能得到了充分展示。记者随意挑选了一个书架,询问豆包关于书架上第一本书的信息,并在走到书架另一端后突然问:“刚才那本蔡磊写的书,你注意到了吗?”豆包立即回忆起这本曾在镜头前一闪而过的书,并简要介绍了该书。
“(记忆能力的实现)大概是每隔几秒对模型拍摄一张图片。”一位大模型算法工程师在微信采访中表示,豆包在该功能下展现的视频理解和语音互动能力在中文环境中处于前列。
在与豆包讨论多本书籍时,豆包能够利用记忆和实时搜索,自然延伸话题,涉及书籍内容、作者生平,以及同类作品推荐等,互动过程流畅而生动。
从“听见”到“看见”
在去年,AI的视频互动功能在业内已经引发了热烈讨论。
2024年8月,“智谱清言”App首先推出了国内首个面向消费者的视频通话功能,迅速引起了广泛关注,网上涌现出大量测试视频。这些测试内容从简单的物体识别到日常场景的互动交流,甚至包括辅导小学生的作业。
智谱清言在OpenAI和谷歌之前,率先将AI视频互动落地国内市场。在国际上,从“听见”到“看见”同样是AI技术进化的重要一步。
2024年5月,OpenAI发布了“GPT-4o”,现场演示了其实时视觉功能——通过手机摄像头实时解方程,甚至还能通过前置摄像头分析用户的面部表情,判断其情绪。同月,谷歌推出的“Project Astra”也具备实时语音和视频互动的能力。
火山引擎总裁谭待在今年4月表示:“模型需要具备良好的思考、计划和反思能力,且必须支持多模态,就像人类拥有视觉和听觉一样,智能体才能更有效地处理复杂任务。”
视频通话功能的实现,正是基于其多模态能力。从最终的使用效果来看,视频通话功能使用户无需再通过语言传达眼前的信息,这无疑降低了AI的使用门槛。
技术能力的提升为AI打通了视觉与听觉的“任督二脉”,但也要认识到,AI助手的快速扩张已面临瓶颈,新的互动模式可能是未来发展的关键。
根据量子位智库的数据显示,4月份Web端AI助手的访问量首次出现下降,表明以尝鲜为驱动的扩张期或已结束。
随着豆包在今年3月接入抖音,其“打电话”功能在社交媒体上受到关注,豆包通过抖音生态迅速触达用户。
27日,知名经济学者、工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者采访时表示,豆包依托庞大的用户生态,扩展速度应该快于竞争对手。
他还认为,豆包在商业拓展中主要与“剪映”进行整合,可以结合抖音的内容审核AI。例如,通过AI识别违规短视频内容。盘和林指出,AI视频交互的前景广阔,例如生成虚拟人进行直播,或通过AI快速归纳总结视频文件。
此外,AI眼镜等新硬件逐渐升温,也为AI视频互动带来了更多可能性。
盘和林认为:“AI视频互动可以与AI眼镜有限结合,但目前AI眼镜在算力和显示等方面仍存在技术短板,期待未来能有新的融合。”
每日经济新闻