共计 2067 个字符,预计需要花费 6 分钟才能阅读完成。
一段时长为60秒的视频正在科技界引发广泛关注——画面中,一位时尚女性在东京的街头缓步而行,雨后街道上闪烁着霓虹灯光,细节真实得令人难以置信。这一切都由人工智能创造而成。
美国的OpenAI公司最近推出了其首款文本生成视频模型Sora,该模型可以根据文字指令生成时长最长可达60秒的高清内容,其画面质量、物理规律模拟和细节处理能力令业界感到震惊。
这一波震撼迅速传递至国内,影视行业的从业者们纷纷表示“震惊”,而百度、阿里、腾讯等国内科技巨头也及时作出了反应。
01 理解现实世界的模型
Sora的问世标志着人工智能视频生成技术进入了一个新的阶段。与以往的视频生成工具不同,Sora不仅能够创造出高清画面,更展现了对现实世界物理规律的深刻理解。
在展示的案例中,一位时尚女性在东京街头漫步的视频展示了Sora在多个方面的突破:角色形象一致、场景细节丰富且自然、光影效果真实。另一段视频则展现了群狼在月光下的雪地里嬉戏,每只狼的毛发和动作都栩栩如生。
OpenAI在技术报告中指出:“Sora能够生成复杂场景,包含多个角色、特定动作类型以及准确的主体和背景细节。”该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的表现方式。
更令人惊讶的是,Sora具备多镜头切换的能力,能够在同一生成视频中保持视觉风格的一致性。这使得其生成的内容更加具备影视级的质感。
02 国内大厂迅速回应
面对Sora的强势推出,国内科技巨头们迅速作出了回应。
百度首先声明,其文心一言大模型在中文领域已处于“领先地位”,并透露正在训练文生视频模型,承诺“将很快与大家见面”。阿里旗下的通义千问团队则表示,正在“加快相关视频生成模型的训练进度”。
腾讯的混元大模型团队的负责人表示,相关能力“正在开发中”,但未透露具体的发布时间。而字节跳动的相关负责人也提到,公司在视频生成技术领域“有布局”,但暂时没有明确的发布时间。
值得关注的是,国内并非没有技术储备。去年,字节跳动推出了PixelDance视频生成模型,而昆仑万维则发布了“天工SkyAgents”平台。然而,与Sora展示的效果相比,业界普遍承认还有显著差距。
03 影视行业的焦虑与期待
Sora的推出对影视行业造成了强烈的冲击。
一位北京影视特效公司的负责人坦言:“如果这种技术普及,我们这些底层制作公司将面临巨大的挑战。过去需要几十人团队数周才能完成的特效镜头,未来可能只需输入几行文字便可完成。”
多位业内人士表示,Sora或将彻底改变视频内容的生产方式。传统拍摄制作流程可能会经历重构,部分岗位甚至可能会消失。
然而,部分导演则持乐观态度。“尽管AI再强大,它依然只是工具,创意和情感表达仍然是人类导演的核心竞争力。”新锐导演王磊认为,“Sora能够帮助我们实现更多天马行空的想象,降低创作门槛。”
据知情人士透露,国内多家领先影视公司已紧急召开内部会议,以研讨AI视频技术对行业的影响及应对策略。
04 技术差距与机遇
尽管国内企业在AI视频领域有所布局,但专家普遍认为,仍与国际顶尖水平存在一定差距。
清华大学计算机系的李振教授指出:“从Sora展示的效果来看,我们在视频生成的连贯性、物理规律模拟及时长方面确实还有待提升。”
不过,中国市场也具备独特优势。国内拥有丰富的应用场景和庞大的视频数据,这对AI模型的训练至关重要。此外,中文语义理解的复杂性,也为国内企业构筑了一定的竞争优势。
“视频生成不是终点,如何与行业深入融合才是关键。”中国人工智能学会理事长戴琼海院士表示,“我国在智能制造、文化传媒等领域的需求,将为AI视频技术提供广阔的应用空间。”
05 安全与监管的考量
Sora的出现也引发了关于AI安全与监管的深入讨论。
OpenAI在发布Sora的同时强调,正在与红队专家合作进行对抗性测试,以防止生成不当内容。公司表示将在推出Sora之前,建立包括检测分类器在内的多重安全措施。
在中国,AI生成内容的监管框架已经初步建立。去年实施的《生成式人工智能服务管理暂行办法》明确规定,提供生成式AI服务应采取有效措施防止生成违法信息,尊重知识产权。
国家工业信息安全发展研究中心AI所副所长刘永东指出:“技术的发展必须与治理并行,我们需要在鼓励创新与防范风险之间找到平衡。”
AI视频时代的到来正在加速。从GPT到Sora,OpenAI再次展示了其在人工智能领域的领导地位。对于国内企业而言,这既是挑战也是机遇。
在技术创新的浪潮中,追赶者需要更多的耐心与智慧。正如一位业内人士所说:“与其恐慌,不如思考如何在这场变革中找到自己的位置。”毕竟,决定未来的不仅仅是技术本身,更是我们应用技术的方式。