Sora视频生成模型：创新突破与潜在风险解析

共计 1705 个字符，预计需要花费 5 分钟才能阅读完成。

在英国布莱奇利园，参与者经过首届人工智能安全峰会的宣传展板。

新华社记者李颖摄

美国旧金山的人工智能公司“开放人工智能研究中心”（OpenAI）近期推出了一款新的生成式人工智能模型Sora，用户可以通过文本指令生成视频。这一创新不仅巩固了OpenAI在人工智能领域的地位，同时也引发了对“深度伪造”技术潜在风险的关注。

“惊鸿一瞥”或将颠覆行业

此次OpenAI首次涉足人工智能视频生成领域，Sora的推出标志着这一领域的重大突破。根据公司介绍，Sora基于Transformer架构，能够根据用户提供的文本指令，创造出近乎真实且富有创意的场景，生成不同风格和画幅的高清视频，最长可达一分钟。此外，该模型还具备根据静态图像生成视频的能力，或对已有视频进行扩展和填补缺失的帧。

一些分析人士指出，Sora的发布再一次强调了人工智能技术进步对现实生活及传统行业的深远影响。人工智能在视频生成领域的快速发展，不仅为影视产业新业态的形成提供了可能，也有可能颠覆现有的影视行业。去年，好莱坞经历了63年来首次编剧和演员全行业罢工，部分工作岗位面临被人工智能替代的威胁。Sora的问世使这一问题更加紧迫，推出的第二天，图像处理和视频制作软件公司奥多比（Adobe）股价随之下跌超过7%。

尽管并非首家进入文本转视频领域的公司，Sora的推出使OpenAI在这一赛道中占据了领先地位，进一步巩固了其在生成式人工智能领域的主导地位。高德纳咨询公司的分析师钱德拉塞卡兰表示：“在这一领域，没有哪家公司比OpenAI更具雄心，而这种雄心似乎正在不断增强。”

OpenAI表示，Sora对语言的理解非常深刻，既能理解用户的文本提示，也能理解所描述事物在物理世界中的存在方式。“我们正在教会人工智能理解和模拟物理世界中的运动，目标是培养模型帮助人们解决与现实世界交互的问题。”

“深度伪造”风险加剧

Sora的发布引起了广泛关注，但目前推出的版本更像是预览，公众尚难以全面了解该模型的优缺点。OpenAI表示，现阶段Sora的访问权限主要限于一些设计师和电影制作人，以便获取反馈以改进模型。该公司并未公开Sora模型的训练数据等基础细节，也没有确定向公众推出的具体日期。

OpenAI承认，Sora生成的视频中可能会出现不合逻辑的图像，空间细节混淆等问题，难以准确模拟复杂场景的物理原理和因果关系。例如，一个人咬了一口饼干，却看不到明显的咬痕。

然而，随着计算能力的提升和模型的不断改进，用户可能会在不久的将来体验到更加先进和完善的视频生成功能。

业内人士对Sora可能助长“深度伪造”技术表示担忧。加利福尼亚大学伯克利分校信息学院副院长法里德指出：“当新闻、图像、音频和视频都可以被伪造时，现实世界将变得难以辨别真伪。”

针对这些担忧，OpenAI表示将在正式向公众推出产品时，确保生成的视频附有来源元数据，并计划推出检测视频真伪的工具。此外，公司承诺在Sora使用之前将采取一系列安全措施，包括由专家对模型进行测试，以评估潜在的风险和危害，同时审核并拒绝极端暴力、性内容及仇恨图像等输入提示。

尽管如此，OpenAI也承认，尽管进行了充分的研究和测试，“我们仍无法预见人们将如何利用或滥用我们的技术。”

监管挑战不容忽视

在科技领域不断涌现颠覆性创新的背景下，如何在拥抱技术进步与确保社会安全之间找到平衡，已成为各界关注的焦点。

OpenAI表示，将与全球的政策制定者、教育工作者和艺术家合作，倾听他们的意见，确定Sora的积极使用案例，并认为从现实世界的应用中学习是创建和发布更安全人工智能系统的重要组成部分。