共计 995 个字符,预计需要花费 3 分钟才能阅读完成。
IT 之家在 10 月 1 日报道,北京时间今天凌晨,OpenAI 正式推出了其新一代视频生成模型 Sora 2。
这一新模型在视频效果的真实感上有了显著提升,新增了音频生成功能。它不仅承袭了早期图像生成技术,还进行了扩展。在同步推出的新版应用中,用户可以通过一次性录制视频与语音来完成身份验证,进而在生成的内容中“出演”自己或其他角色。
Sora 应用的功能与目前流行的社交媒体类似,提供个性化的信息流推荐,基于用户的互动和兴趣推送相关内容,并引入了“可调排序”功能,用户可以进一步自定义所看到的内容。
Sora 2 延续了 2024 年 2 月发布的首个模型。与其前身相比,新版本在处理如篮球反弹等动作时,表现得更为自然,不再显得僵硬。
与前一代相比,Sora 2 还具备了语音生成功能。OpenAI 指出,尽管模型尚不完善,存在诸多错误,但这一进展表明通过大规模视频训练,模型可以逐步接近现实世界的模拟效果。
目前,Sora 应用已在 iOS 平台上架,但仅限邀请制,用户需要通过申请获取使用资格。OpenAI 表示,初期将优先在美国和加拿大地区开放,并给予用户较为宽松的创作额度。不过,由于视频生成对计算能力的高要求,公司将对使用进行限制,以确保服务的稳定性。
OpenAI 坦言,目前唯一的商业策略是在算力不足时,向有需求的用户提供付费生成额外视频的选项。
为应对安全问题,OpenAI 同时发布了一篇博客声明。据 IT 之家了解,公司强调,所有 Sora 生成的视频均带有水印和元数据标识,用户的肖像只有在本人同意的情况下才能使用,并可随时撤销。青少年用户的账户将受到家长的控制,并限制使用时间。
系统的防护措施在生成时会尝试屏蔽不安全内容,包括色情、恐怖主义宣传和自残相关内容,并通过多帧画面和音频检测进行拦截。OpenAI 还计划扩大人工审核团队,重点审查可能涉及霸凌的内容。
OpenAI 将 Sora 2 视为迈向更强大 AI 系统的重要一步。公司表示:“视频模型的快速进化将引领通用世界模拟器和机器人智能体的崛起,重塑社会,推动人类发展进程。”