共计 2252 个字符,预计需要花费 6 分钟才能阅读完成。
“如果你问我,在过去的两年中,行业内最显著的变化是什么?我的答案必然是,大模型几乎消除了幻觉,回答问题的准确性显著提高。”在昨日的百度世界大会上,百度的创始人李彦宏如是说。
这一进展离不开增强检索(RAG)技术的支持,它使得大模型能够利用检索到的信息来辅助生成文本或答案,从而极大地提升了内容的质量与准确性。虽然目前文本层面的 RAG 已经取得了显著的改善,但基于大语言模型的文生图系统生成的图像往往表现得“仿佛不真实”,甚至在逻辑上也显得不合常理。
李彦宏提到,在今年初,整个中文互联网都在为 Sora 的问世而欢呼之际,百度选择主动出击,着手解决图像生成中的幻觉问题,推出了 iRAG(基于图像的增强检索技术)。这一技术结合了百度搜索中数以亿计的图片资源和强大的基础模型能力,能够生成各种极为真实的图像。
在发言中,他以大众揽巡汽车飞越长城、爱因斯坦游历世界等生动的文生图示例,证实了 iRAG 的整体效果远超原生文生图系统,去掉了以往的机器感。
那么,文心一言的文生图效果究竟如何?记者在今天的实测中发现,部分生成的图片确实展现了较高的真实度和创意,但整体上仍有不小的提升空间。例如,某些特定人物的生成并不完全准确,比如爱因斯坦的形象,而且在一些细节上,图片中显示的数字和文字往往变成了乱码。
在昨日的发布会上,百度推出了智能眼镜。一位记者请文心一言绘制一幅苹果 CEO 库克佩戴百度眼镜的图像。结果呈现的图片中虽然有苹果的 LOGO,但明显人物并非库克本人,只是外貌相似,且图片中眼镜的形状也与实际不尽相同。
李彦宏还通过提示词,展示了爱因斯坦在悉尼歌剧院、复活节岛巨石阵、长城、鸟巢等地游历的景象,形象逼真。不过,当记者请求 AI 绘制霍金和爱因斯坦在深秋的老北京胡同漫步的场景时,放大后观察,除了爱因斯坦的发型相似外,两位角色都并非真实人物,而且面孔呈现出亚洲特征。
当记者提醒 AI 这两位角色并非霍金与爱因斯坦本人,请 AI 重新绘制时,得到的图像依旧不是他们的真实形象。
当我们将绘制人物的对象换成百度董事长李彦宏时,这次 AI 的表现明显好转。AI 创作了一幅“李彦宏在北京大学门口摊煎饼”的图像,人物和北京大学的建筑真实感较强,然而,放大后可以发现,建筑上“北京大学”四个字依然出现了乱码,并非真实的字样。
我们尝试使用 AI 技术创作一幅图像,描绘马斯克在故宫享用豆汁的场景。生成的人物形象与马斯克极为相似,而故宫的背景也展现了不错的真实感。然而,细节放大后却发现,马斯克手中的饮品并非豆汁,碗上所印的字样更是变成了乱码。
接着,我们又设想了一幅运动员在长城上打乒乓球的画面。无论是长城的壮丽背景,还是乒乓球桌的设置,整体效果都相当逼真。但令人遗憾的是,运动员队服上的数字同样出现了乱码,未能如预期那样清晰。
在进一步的实验中,我们观察到 AI 作图时,数字和文字出现乱码的情况频繁。例如,一幅描绘猫咪查看时刻表的图像中,虽然部分数字显示正常,但仍有乱码现象;而另一幅展现企鹅在公园中喝咖啡并阅读报纸的图像中,报纸上的文字也出现了混乱。
有时候,人工智能并不能完全把握人类的意图。举个例子,当我们希望它生成一幅写实风格的作品,主题为“热闹的街道上,一位身着白裙的少女坐在一只巨型猫咪上”,最终的结果却是漫画风格,且少女并没有坐在猫咪之上。有些图像展示了猫咪骑在自行车,另一些则是少女与猫咪并肩而行,甚至还有些画面中少女怀抱着猫咪。
然而,当我们为 AI 提供更加生动且细致的场景描述时,生成的画作质量显著提升。例如,描述为“武康大楼前,一只巨型猫咪堵在拥挤的马路上,猫的爪子与汽车同样巨大”,这样的超现实作品完成得相当出色,对武康大楼等细节的刻画也颇为到位。
随着天气转凉,我们可以让 AI 为东方明珠设计一件色彩斑斓的毛衣,最终的效果令人满意。
但当我们将类似的提示转向“水立方”建筑时,结果却大相径庭,生成的图像是一位穿着色彩毛衣的男士站在水立方前面,甚至 AI 还为水立方设计了一件“并不合身”的人类毛衣,这让人感到意外。
标题:AI 在创作中的表现:美好与不足并存
在一次演讲中,李彦宏指出,作为一项基础技术,iRAG 在多个领域均展现出广阔的应用潜力。无论是影视作品、漫画创作,还是海报设计,这项技术都能显著降低创作成本。“想象一下,如果大众生成的海报车型都和丰田一模一样,那将会是多么令人失望。”因此,我们尝试让 AI 生成一幅汽车海报,描绘雷军驾驶小米 SU7 穿越月球的场景。结果表明,虽然整体场景表达得相当准确,人物形象也有相似之处,但在一些图片中,汽车与真实的小米 SU7 存在明显差异,甚至 LOGO 的准确性也不足。
随后,我们又让 AI 展示小米 15 手机的图像。尽管场景和动物形象的表现相对准确,但每张图中的手机外观却各不相同,甚至有一幅图中的手机看起来更像是一台平板电脑,而非小米 15。
在艺术海报创作方面,记者要求 AI 绘制一张《只此青绿》的演出海报,希望其展现水墨风格。AI 的作品总体上符合要求,意境深远,但在放大查看时,发现其中一张海报的文字出现了乱码现象。
(本文转自第一财经)