新华社：全新视频生成模型Sora的创新突破与潜在风险分析

共计 1605 个字符，预计需要花费 5 分钟才能阅读完成。

位于旧金山的“开放人工智能研究中心”（OpenAI）最近发布了一种新的生成式人工智能模型 Sora，它能够根据文本指令生成视频。这一创新不仅巩固了 OpenAI 在人工智能领域的领导地位，同时也引发了对“深度伪造”等潜在风险的担忧。

“惊鸿一瞥”或将重塑行业

OpenAI 首次涉足视频生成领域，Sora 利用 Transformer 架构，能够根据文字指令创建接近真实且富有创意的场景，生成多种风格和不同画幅的高清视频，最长可达一分钟。此外，该模型还可依据静态图像生成视频，或对现有视频进行扩展及补充缺失的帧。

分析人士指出，Sora 的推出再次突显了人工智能技术进步对日常生活和传统产业的深远影响。视频生成领域的巨大潜力可能会重塑影视行业的生态，甚至对现存的影视产业造成颠覆性冲击。去年，好莱坞经历了 63 年来首次全行业的编剧和演员罢工，部分工作职位面临被人工智能取代的风险。Sora 的问世使得这一威胁愈加明显。发布的第二天，专注于图像处理和视频制作软件的奥多比公司（Adobe）股价应声下跌超过 7%。

尽管不是首个进入文本转视频领域的公司，Sora 的推出使 OpenAI 在这一领域中占据了领先地位，进一步巩固了其在生成式人工智能行业的影响力。高德纳咨询公司的分析师钱德拉塞卡兰表示：“在这一领域，没有哪家公司比 OpenAI 更具雄心，而这种雄心似乎在不断增长。”

OpenAI 表示，Sora 对语言有着深刻的理解，不仅能够理解用户的文本提示，还能理解所描述事物在物理世界中的存在方式。“我们致力于教授人工智能理解和模拟物理世界中的运动，目标是训练模型以帮助人们解决与现实世界交互时遇到的问题。”

对“深度伪造”的担忧加剧

Sora 的发布引发了广泛的关注，但目前的版本更像是一个预览，公众对该模型的优缺点仍缺乏深入了解。OpenAI 表示，目前仅向部分设计师和电影制作人提供 Sora 的访问权，以便获取改进反馈。公司尚未公布训练 Sora 模型所用的数据等基本细节，也未确定向公众发布的具体时间。

OpenAI 承认，Sora 生成的视频可能会出现不合逻辑的图像，空间细节混淆等问题，难以准确模拟复杂场景的物理原理和因果关系。例如，一个人咬了一口饼干，但饼干上却没有留下咬痕。

尽管如此，随着计算能力的提升和模型的不断改进，人们可能在不久的将来体验到更为先进的视频生成功能。

许多业内人士对 Sora 可能助长“深度伪造”技术表示担忧。加利福尼亚大学伯克利分校信息学院的副院长法里德指出：“当新闻、图像、音频和视频都能够被伪造时，那个世界里就没有什么是真实的。”

针对这种造假风险，OpenAI 承诺在正式面向公众推出产品时，将确保生成视频包含来源元数据，并提供检测视频真伪的工具。此外，OpenAI 还表示，在使用 Sora 之前，将采取安全措施，包括对模型进行对抗性测试，以评估可能的危害或风险，并核查并拒绝包含极端暴力、性内容和仇恨图像等文本输入提示。

尽管如此，OpenAI 也承认，尽管进行了广泛的研究和测试，“我们仍无法预测人们将如何利用我们技术的所有积极方式以及滥用的方式。”

AI 狂飙中的监管挑战

在科技领域不断涌现颠覆性创新的背景下，如何在推动技术进步与确保社会安全之间找到平衡，成为各界关注的焦点。

OpenAI 表示，将与全球政策制定者、教育工作者和艺术家合作，了解他们的担忧，识别 Sora 的积极应用案例，并认为从实际使用中学习是创建和推出更安全人工智能系统的关键部分。