共计 1439 个字符,预计需要花费 4 分钟才能阅读完成。
无论是像“画一匹青花瓷的马”这样的奇特提示词,还是以特定物品为中心的黑白连环漫画风格,腾讯的混元文生图模型已经能够轻松实现这些功能。这一国产开源文生图大模型的能力令人瞩目。
在5月14日,腾讯宣布对混元文生图大模型进行全面升级,并正式开源。值得注意的是,这是首个中文原生的类Sora架构开源模型。
据了解,腾讯的混元文生图大模型在多个方面进行了显著的提升,主要包括更大参数的DIT模型、更强的中文理解能力与双语编码能力,另外,还增强了对多轮对话的支持。这样的改进使得模型在训练过程中更加稳定,并且具有更好的生态兼容性,可以实现多分辨率生成和多轮绘画等功能。
具体来说,该模型的参数量达到了15亿,现已在Hugging Face平台和Github上发布,提供了模型权重、推理代码以及模型算法等完整组件,企业和个人开发者均可免费使用。此模型不仅支持文生图功能,还可以作为视频等多模态视觉生成的基础。
随着腾讯混元文生图大模型的推出,采用DiT架构(Diffusion Models with Transformers)的大规模模型新玩家也随之增多。DiT架构结合了扩散模型与变换器,OpenAI的视频生成模型Sora同样采用了这一架构。
腾讯方面表示,混元文生图大模型是业内首个中文原生的DiT架构文生图模型。
目前,主流的文生图开源生态主要是围绕英语构建,例如Stable Diffusion等主流开源模型,虽然支持中文输入,但核心数据集依然以英文为主,这导致对中国语言、美食、文化和习俗的理解不足,翻译过程中的误差可能引发语义混淆和生成错误。因此,构建一个自主可控且中文原生的大模型及其开源生态显得尤为紧迫。
腾讯的混元文生图大模型正是从零开始进行训练,涵盖了从模型算法到机器学习框架,再到人工智能基础设施的全链条自主研发。
该模型以中文为基础,支持中英文双语输入与理解,能够更好地把握中文语境,对中国古诗词、俚语、美食和文化等产生更优质的生成效果。
目前,腾讯混元的文生图能力已被广泛应用于素材创作、商品合成、游戏出图等多个业务和场景中。
这得益于腾讯在广告、游戏和社交等领域所构建的庞大生态体系。今年初,腾讯广告基于混元大模型推出了一站式AI广告创意平台——腾讯广告妙思,能够为广告主提供文生图、图生图和商品背景合成等多个创意工具。多家主流媒体也已经开始利用腾讯混元文生图来辅助新闻内容的创作。
腾讯文生图项目负责人芦清林指出:“我们研发混元文生图的理念在于实用,始终坚持从实践中来,到实践中去。此次开源最新一代模型,旨在与行业共享腾讯在文生图领域的经验与研究成果,共同构建中文文生图的开源生态,加速大模型行业的进步。”
据介绍,基于此次腾讯开源的文生图模型,开发者和企业无需重新训练,即可直接用于推理,并能够基于混元文生图开发个性化的AI绘画应用与服务,极大地节约了人力和计算资源。同时,透明的算法设计也保障了模型的安全性与可靠性。基于开放和前沿的混元文生图基础模型,除了以英文为主的文生图开源社区外,还能够丰富以中文为主的文生图开源生态,形成更多样化的原生插件,推动中文文生图技术的研发与应用。
