共计 2633 个字符,预计需要花费 7 分钟才能阅读完成。
本报记者 张晓玉
2023 年 12 月 10 日,OpenAI(美国的人工智能研究公司)正式向用户推出其人工智能视频生成模型 Sora,该系统能够根据用户提供的文本提示生成高度真实的视频。自首次公开预览这款产品以来,已经过去了十个月。
OpenAI 的一位负责人表示,Sora 会在当天晚些时候向美国及其他地区的 ChatGPT 付费用户开启使用。新工具 SoraTurbo 能够生成最长达 20 秒的视频,并提供多种视频变体供用户选择。
据了解,Sora 的发布是 OpenAI 为期 12 天的产品直播活动的一部分。作为视频生成领域的先锋,Sora 带来了显著的“鲇鱼效应”。根据《证券日报》的不完全统计,自 Sora 推出以来,全球范围内已有近 20 家公司对视频生成模型进行了发布或更新。
美股视频行业受冲击
Sora 能够迅速根据用户输入的描述生成视频,并且可以灵活地向前或向后扩展现有视频内容。
这一新技术引起了全球科技行业的广泛关注,尤其是在视频生成领域。Sora 以其卓越的生成质量、快速的响应能力和低成本的生成方式,给一些传统视频公司带来了巨大的竞争压力。
例如,AdobeSystemsIncorporated(以下简称“Adobe”)的股价在 Sora 首次发布的次日(2023 年 2 月 16 日)大幅下跌 7.41%,创下去年 11 月以来的新低,市值在短短一天内蒸发了近 198 亿美元。
Adobe 在图像处理和视频编辑软件领域一直处于领先地位,但 OpenAI 所推出的 Sora 技术显著降低了视频生成的技术门槛。市场普遍认为,Sora 的推出可能会改变视频创作的格局,从而威胁到 Adobe 的市场份额。
然而,市场上也存在不同的看法。有观点认为,像 Sora 这样的开放模型无法为专业用户提供同等的安全保障,Sora 的主要应用场景可能仅限于社交媒体平台。在专业领域,Adobe 的市场地位依旧稳固。
面对 Sora 的挑战,国外企业正在加快在 AI 视频生成领域的布局。2024 年,RunwayAI,Inc. 将推出 Gen- 2 模型,迅速重回视频生成的第一梯队,用户只需输入文字描述即可生成 4 秒的视频,并可根据需求调整分辨率和帧率。
而就在 Sora 正式开放的前几天,12 月 4 日,谷歌旗下的 DeepMindTechnologiesLimited 发布了一款名为 Genie2 的新型模型,能够通过一张图片和文字描述生成“无限”种类的可玩 3D 世界。
贝恩咨询公司商品战略顾问总监潘俊在接受《证券日报》采访时指出,Sora 的发布将对现有的视频生成模型生态产生深远影响。它将打破传统视频制作的技术壁垒,创造新的竞争格局。其他视频生成模型公司将在 Sora 的压力下,迫切需要调整产品和服务,以适应新的市场需求和技术趋势。未来,视频生成领域的竞争将愈加激烈,创新和差异化将成为关键。
国内企业积极应对
Sora 的发布也促使国内科技巨头们加快文生视频大模型的开发进程。
中国电信集团有限公司在 2024 数字科技生态大会上更新了昆仑云网能力开放平台、“息壤”算力服务、视觉大模型及文生视频大模型等进展;12 月 3 日,深圳市腾讯计算机系统有限公司旗下的腾讯混元大模型宣布,正式上线视频生成能力,参数量达到 130 亿,是目前最大的开源视频模型;而北京快手科技有限公司推出的可灵 AI 视频生成模型,可以生成长达两分钟的 1080p 视频,并支持多种输出比例,能够模拟现实世界的物理特性。
清华大学战略新兴产业研究中心副主任胡麒牧在接受《证券日报》采访时表示,尽管目前这些国内公司的视频生成技术在某些功能上与 Sora 仍有差距,但它们的迅速跟进表明,国内企业对 AI 视频生成技术的重视。自 Sora 发布以来,国内视频大模型的生成效果显著提升,与 Sora 的差距在不断缩小,部分功能甚至已实现突破。
例如,北京智谱领航科技有限公司的新版本 AI 视频模型“新清影”,在文生视频性能上有了进一步的提升,支持 10 秒时长及 4K、60 帧超高清画质,并可输出任意尺寸的视频,自带音效和更好的人体动作及物理世界模拟。
北京火山引擎科技有限公司的总裁谭待表示,视频大模型的技术突破非常艰难,需要大模型理解复杂的指令,包括多镜头语言的运用,实现多个主题的互动视频,并保持风格一致。目前,视频生成功能仍面临许多挑战亟待克服。豆包的两款模型将不断演进,以解决关键问题,扩展 AI 视频创作的可能性和应用场景。
推动多模态大模型的创新
在文生视频算法领域,国内也取得了显著进展。根据中国国家互联网信息办公室的公开信息,今年以来,国内共有 2277 个深度合成服务算法完成备案。其中,主要用途中包含可实现文生视频能力的算法有 34 个,备案名称中明确标注为“文生视频算法”的仅有 6 个。
例如,商汤集团有限公司备案的商汤 V -ME 视频合成算法支持将已有的人物视频、动画、声音和文字等多种元素进行驱动。而天娱数字科技(大连)集团股份有限公司的子公司北京智境云创科技有限公司,今年 6 月份一次性通过了“三项算法备案”,包括“智境云创人脸融合算法”、“智境云创文本生成视频算法”和“智者千问大语言模型算法”。
德邦证券股份有限公司的分析师陈涵泊表示,Sora 的正式推出,有望成为全球视频生成领域的新标杆,推动多模态大模型的迭代与应用。
潘俊认为,Sora 的推出将加速 AI 在视频生成领域的商业化进程。由于 Sora 的高度创新和广泛的应用潜力,预计将吸引众多企业进行投资和合作,包括内容创作者、广告公司和电影制作公司等。随着商业化进程的推进,Sora 可能会为视频生成领域引入全新的商业模式。
“不过,Sora 仍未达到完全取代人类内容创作的水平,其发展阶段与 GPT- 1 相当,依然处于起步阶段。对于其他视频生成模型公司而言,真正的竞争才刚刚开始。它们将在算力、数据和算法三大领域展开激烈竞争。”工业和信息化部信息通信经济专家委员会的委员盘和林向《证券日报》记者表示。
此外,胡麒牧提到:“技术创新与安全伦理之间的平衡是 AI 技术发展的重要问题。在推动技术进步的同时,我们必须关注其可能带来的社会影响,例如隐私保护、版权争议和滥用风险等问题,确保技术在符合伦理和社会责任的基础上得到合理应用。”