共计 1243 个字符,预计需要花费 4 分钟才能阅读完成。
探索AI视频创作的奇妙与挑战
在新兴技术的推动下,AI视频创作不断填充着那些未被开发的生态位。
例如,想象一下使用灭火器从月球起飞,穿越进入地球的大气层。
视频的开头部分交代得非常清晰,逻辑上没有明显错误,角色与灭火器的展示也相当完整。在从地球起跳的场景中,真实感相对较强。进入大气层时,特效呈现出闪亮的摩擦层,然而整体风格却显得不够写实(或许可以通过调整提示词来改进),最后的效果退化为儿童科普节目中的简单特效。配音部分虽然能够传达文字的内容,但在时间节奏上却显得有些混乱:倒计时是在跳起之后才进行的。
遗憾的是,视频的收尾显得较为平淡,这一问题已经困扰着AI视频制作很长时间了:模型似乎还未掌握如何恰当地处理谢幕和余韵的概念。
从数据生成的角度来看,技术水平有了显著提升。例如,能够相对精确地模拟自动驾驶车辆通过十字路口的场景。
通过摄像头展示的一辆自动驾驶汽车,从正面视角驶过繁忙的城市十字路口,周围有行人、狗和婴儿车经过,还有外卖小哥匆忙而过,旁边的人们在尖叫。
在这一过程中,表现出一些不够精准的地方,令文字的刻画显得稍显乏力。如果能够支持文字与导演故事板的结合,将会大大提升效果。
另外,角色”哥哥”的塑造也值得进一步打磨。
在中国山水的背景下,骑摩托车的场景同样可以实现:
然而,该视频在遵循牛顿定律方面显得不够严谨,最后的镜头切换也需要进一步优化。
尽管真实感有了显著提升,但也随之带来了如假新闻等负面影响:
Sora2在处理中文方面的能力依然有限。

如果视频中没有大量扭曲的中文字,几乎难以辨识出这是假新闻。可以预见,结合“AI生成视频素材”与“人类生成字幕”的方式将可能批量制造大量假新闻,进一步扰乱网络视频生态。
从另一个角度来看,国内的Kling和Wan等技术差距并不大。我们可以预见,模型在多样化的同时,应用层面也将继续混乱不堪,人类的“真善美”价值观将面临更多挑战。
最后,我与Sama共享了一顿晚餐~
(最后一秒心痛感受所有视频审核的压力)