共计 3952 个字符,预计需要花费 10 分钟才能阅读完成。
探讨中国电信AI战略的三个关键点
作者/ IT时报记者 孙妍
编辑/ 钱立富 孙妍
在12月10日,Sora的正式版本发布,引发全球关注,其文生视频技术取得重大进展,然而这并未让国内行业感到恐慌。在过去的一年里,国内的大规模模型在文生视频领域竞争激烈,逐步缩小了与国际尖端水平的差距,尤其是已有国家级模型实现了全面国产化。
在12月3日举行的2024数字科技生态大会上,中国电信集团首次举办了TeleAI开发者大会,推出了首个央企自主研发的视频生成大模型,标志着星辰大模型体系的全模态、全尺寸和全国产能力建设达到了“三全”标准。
国产原创是中国基座大模型发展的核心。中国电信集团的首席技术官及首席科学家,人工智能研究院院长李学龙在大会上指出,星辰大模型已完成基于全国产化的万卡集群模型训练,且训练、推理及其配套工具链均基于国产软硬件平台,实现了从基础架构到应用层的全面国产化。
与此同时,大模型领域正处于技术研发与商业化应用的关键时刻,AI需要更有力地推动实体经济的发展,并运用大模型解决实际生产中的问题。作为国家队,中国电信在加大研发力度的同时,也清醒地认识到这一点。董事长柯瑞文在大会上强调,必须坚持应用导向,加快使用,以应用促进建设和创新,加快实现“技术-产品-产业”的良性循环。
关键词1:国产原创
央企自研的首个视频生成大模型
自从Sora于今年2月问世后,国内的文生视频大模型纷纷跟随其步伐,开始竞相试验,其中一致性成为衡量文生视频能力的重要标准,即角色在整个故事中的外观保持一致。
在2024数字科技生态大会上,中国电信人工智能研究院(TeleAI)推出了首个央企全自研的视频生成大模型,填补了中国电信在全模态领域的空白。会上还展示了一段由星辰大模型生成的时长为1分36秒的微电影,所有的视频、语音和台词均由AI生成。
短片的主角是四位女孩,她们在转身时保持着相同的衣着和发型。第一位女孩从悬崖跳入水中,动作流畅自然,且潜入水底后产生的气泡符合物理规律。第二位女孩骑摩托车穿越火山,熔岩流动的画面自然流畅,头盔的反射效果十分真实。第三位女孩攀登悬崖,气喘声与画面完美同步。最后一位女孩在沙漠中骑骆驼,驼铃声清脆,与怪物的战斗场面精彩纷呈,开启了动作片的全新领域。
文生视频大模型的能力在于确保单个或多个主体角色在不同视频片段中的外观一致性,能够精确控制复杂的动作及交互,并使角色及目标物体的运动遵循物理定律,实现视频与音频的同步生成,创造出完美的视听体验。
其核心技术基于VAST(Video As Storyboard from Text)二阶段视频生成技术,能根据文本描述准确勾勒出包含视频构图、主体目标位置和人物姿态等关键要素的故事板,从而生成相应的视频内容。值得一提的是,故事板也是Sora正式版的一大亮点。
每个人心中都有一个梦想,能够随心所欲地编写剧本、拍摄电影。星辰大模型的文生视频技术不断将梦想变为现实,为短剧和影视创作者提供了一站式服务平台,输入一部小说便可一键生成剧本,无需专业演员、昂贵布景或繁琐拍摄和漫长的后期制作,即可自动生成电影。此外,基于星辰大模型在语义、语音和文生图等领域的能力,也将有效帮助短剧和影视行业降低成本、提高效率。
李学龙在大会上透露,Sora于今年2月发布,中国电信在1月就已成立了文生视频团队,团队在Sora发布两天后便快速完成了视频配乐的自动生成。更值得一提的是,TeleAI的视频生成大模型目前在权威评测榜单VBench中位居第一。
关键词2:开放合作
携手开发者共同打造TeleAI“大舰队”
开源与闭源成为当前大模型行业的一条分水岭,OpenAI和百度等企业走闭源路线,而腾讯、阿里等则走开源方向,中国电信则是首个也是唯一一家开源大模型的央企。
在2024年9月,TeleAI成功推出了国内首个基于全国产化万卡集群训练的万亿参数大模型——星辰语义大模型 TeleChat2,并正式对外开源千亿参数大模型——星辰语义大模型 TeleChat2-115B,这标志着国产大模型训练实现了真正的全国产化替代,稳固了在“自主创新、安全可控”方面的立足点。
TeleChat2-115B是基于中国电信自主研发的天翼云“息壤一体化智算服务平台”和“星海AI平台”完成的训练,确保训练精度的同时,GPU计算效率超过93%,模型有效训练时长占比达到98%以上。目前,TeleChat2作为央企唯一的开源大模型,实现了十亿级、百亿级和千亿级的全覆盖,全网模型的下载量已突破4万次。
中国电信一直以来都在开放合作,建立广泛的合作网络。李学龙在大会上形象地将TeleAI比作一支“海军舰队”,它既有大船也有小船,提供丰富的供给及灵活的平台,与开发者共同构成“大舰队”。
TeleAI将自有能力开放,面向不同开发者推出了多种平台,星海AI中台面向初级开发者,零代码的建模工具使得不具备复杂技术背景的开发者也能轻松构建自己的模型。
天翼AI开放平台目前已全面开放,面向专业用户,提供党建公文大模型、百万表格理解、软件工厂等垂直模型。今年,中国电信还推出了全国乃至全球首个支持40种方言自由混说的语音识别大模型,预计到2026年将实现全国333种方言的全面覆盖。届时,知识的传播将不再受语言障碍的限制,让AI技术深入到每一个角落,助力乡村振兴的“最后一公里”。
对于软硬件结合的开发者,星辰智能体平台将为其提供支持。在2024年数字科技生态大会的AI展区,不仅展示了穿戴式AI设备,还有各类机器人,如灵活的人形机器人、稳健的四足机器人、精细协作的双臂机器人以及深潜探测的水下机器人,每一个智能体都成为与世界对话的载体,技术正在融入我们的日常生活。
在大模型异构能力的支持下,智能体们能够协同工作。当“主人”说出“我饿了”时,一群机器人便会迅速行动:机器狗打开门,无人机外出取早餐,随后机械臂将早餐递给“主人”。
李学龙将这三大平台比喻为武功秘籍库,任何人都可以随时学习并迅速应用,利用平台的力量提升自己的技术能力。算力的流转、数据的使用、硬件的适配以及效率的提升,皆可一气呵成。
关键词3:商用加速
大模型“齐头并进”
在资金投入与商业回报之间,如何取得平衡,成为大模型领域所有参与者必须面对的挑战。
“两手都要抓,两手都要硬。”中电信人工智能科技(北京)有限公司副总经理刘翼表示,唯有通过技术研发投入来打造独特的竞争优势,才能实现良好的商业回报,反过来,良好的商业回报又为技术研发投入提供支持。
在中国电信的组织架构中,TeleAI负责AI技术的研发,而中电信人工智能科技(北京)有限公司等专业公司则聚焦于商业化落地。
规模化应用成为未来发展的主旋律。2024数字科技生态大会上,中国电信分享了商业化的最新进展,目前已针对政府、工业、教育等领域推出超过50个场景大模型,计划重点打造80多个行业大模型及20个行业智能体,提供“算力+平台+数据+模型+应用”的一体化服务。
在深圳、汕头等地区,星辰大模型凭借其文本检索缺陷图像的能力成功进入工业质检领域,在检测场景中的精准度超过99.4%;在北汽、长安汽车等智能网联汽车上,星辰大模型为用户提供了沉浸式、智能化的驾驶体验;在清华大学、中山大学等20多所高校及科研机构中,“息壤-科研助手”为教学辅助、实验研究等场景提供了一站式科研服务;在家庭中,AI与手机、云电脑、摄像头等智能终端的结合逐渐普及,AI眼镜和AI机器人等定制终端将开启更大的想象空间。
在此次大会上发布的天翼AI手机,植入了剪裁优化后的星辰大模型,能在通话中实时实现语音翻译、AI字幕、AI摘要等功能,并支持语音方式进行话费缴纳、机票和酒店预订,同时也是业内首个提供AI生成视频鉴伪能力的产品。
此外,AI+数字政务也在全国范围内推广,提升了政务热线的运营效率和市民的满意度。例如,“AI+12345政务热线”深度赋能深圳的“民意速办”平台,日均服务量达到20万次,总体满意率高达99.95%。在应急监测和防汛预警等场景中,星辰视觉大模型的应用增强了风险隐患和灾害的识别能力,提升了应急安全保障水平。
然而,大模型的商业化进程依然面临挑战,目前仍处于探索阶段,受限于模型的幻觉、训练数据的质量和数量不足、交付标准化程度不高导致的成本上升等问题,大模型尚未找到规模化发展的路径。
如何加速大模型的商业化落地?刘翼在接受《IT时报》采访时提出了四个关键词:持续投入、差异化特点、变革性场景创新和开放合作。
AI的进步如同一场长跑,关键在于谁能坚持到终点。作为央企AI的国家队,中国电信无疑会保持研发投入的连续性。差异化特点则是商业化过程避免同质化竞争的关键,例如国内首个支持40种方言自由混说的语音大模型,以及基于全国产化万卡集群训练的万亿参数大模型,均展现了中国电信的差异化优势。同时,中国电信还专注于实体经济与AI的深度融合,力求在C端场景中发挥运营商的资源优势,寻找变革性的场景创新。中国电信还计划扩展TeleAI开发者生态,并制定涉及人才、算力、投资、场地和项目等多个维度的激励措施,以引导和激励各类AI应用的开发。
柯瑞文在大会上也提到,需发挥我国超大规模市场的优势和完整的产业链配套,加速推动应用形成产业,利用科技创新成果赋能工业智能化转型升级、社会高效治理和生活智能化便捷化,解决经济社会发展中的各类问题,将科技创新成果转化为实际生产力。