共计 1735 个字符,预计需要花费 5 分钟才能阅读完成。
在英国布莱奇利园,参会者经过首届人工智能安全峰会的宣传展板。新华社记者 李 颖摄
位于旧金山的美国人工智能公司“开放人工智能研究中心”(OpenAI)近日推出了一款名为Sora的生成式人工智能模型,能够基于文本指令生成视频。这一创新不仅巩固了OpenAI在人工智能领域的地位,同时也引发了对“深度伪造”(Deepfake)等潜在风险的广泛关注。
“惊艳之作”可能颠覆行业
这是OpenAI第一次涉足视频生成领域。根据公司的介绍,Sora采用Transformer架构,能够根据文本指令创造出接近现实的富有创意的场景,生成多样风格和不同画幅的视频,最长可达一分钟。此外,该模型还可以将静态图像转化为视频,或对已有视频进行扩展与修复缺失的帧。
一些分析师认为,Sora的发布再次凸显了人工智能技术进步对现实生活及传统行业的深远影响。人工智能在视频生成领域的巨大潜力不仅为影视产业带来了新的发展机遇,也可能对现有的影视行业造成冲击。去年,好莱坞遭遇了63年来首次的全行业编剧和演员罢工,因为部分工作岗位面临被人工智能取代的威胁。Sora的推出使这一风险变得愈发明显,其发布后的第二天,专业从事图像处理和视频制作软件的奥多比公司(Adobe)股价随即下跌超过7%。
尽管Sora并非首个进入文本转视频领域的公司,但其推出使OpenAI在这一赛道上取得了领先地位,进一步巩固了其在生成式人工智能领域的主导地位。高德纳咨询公司的分析师钱德拉塞卡兰表示:“在这一领域,OpenAI展现出无与伦比的雄心,而这种雄心似乎仍在不断增强。”
OpenAI表示,Sora对语言有深刻的理解能力,不仅能够理解用户的文本提示,还能识别这些事物在现实世界中的存在方式。“我们的目标是训练人工智能,帮助人们解决与现实世界交互所需的各种问题。”
“深度伪造”疑虑加剧
Sora的发布引发了广泛关注,但目前公众对该模型的优缺点仍缺乏深入了解。OpenAI指出,目前Sora的访问权限主要面向设计师和电影制作人,以便获取改进反馈。公司尚未公布有关训练该模型的基础数据,亦未确定向公众发布的具体日期。
OpenAI承认,Sora生成的视频中可能出现不合逻辑的图像,空间细节混淆等问题,难以准确模拟复杂场景的物理原理与因果关系。例如,一个人咬了一口饼干,然而饼干上却没有留下咬痕。
尽管如此,随着计算能力的提升和模型的不断完善,用户可能会在不久的将来获得更加先进和完善的视频生成功能。
许多业内人士对Sora可能助长“深度伪造”技术表示担忧。加利福尼亚大学伯克利分校信息学院的副院长法里德指出:“当新闻、图像、音频和视频都可以被伪造时,那么在这样的环境中,就再也没有什么是真实的。”
针对造假的顾虑,OpenAI表示,真正向公众推出产品时,将确保生成视频附带来源元数据,并推出检测视频真伪的工具。OpenAI还承诺在产品中使用Sora前将采取多项安全措施,包括由“错误信息、仇恨内容和偏见等领域的专家”进行对抗性测试,评估可能的危害与风险;核查并拒绝包含极端暴力、性内容、仇恨图像及他人知识产权的文本提示等。
尽管如此,OpenAI也承认,尽管进行了广泛的研究和测试,“我们仍无法完全预测人们将如何利用我们的技术进行有益的应用或滥用。”
不可忽视的监管挑战
在科技领域不断涌现颠覆性创新的背景下,如何在拥抱技术进步与确保社会安全之间找到平衡,已成为各界关注的焦点。
OpenAI表示,计划与全球政策制定者、教育工作者及艺术家合作,了解他们的担忧,明确Sora的积极应用案例,并认为从现实世界的使用中学习是创建和发布更安全的人工智能系统的重要组成部分。
业内人士指出,在现有治理框架和管控措施尚未跟上的情况下,仅依赖企业难以满足社会对人工智能安全性与信任度的需求。
(据新华社电 记者吴晓凌)