腾讯混元文生图大模型正式开源，未来将与QQ、企微及游戏深度联动！

共计 1219 个字符，预计需要花费 4 分钟才能阅读完成。

作者/观察者网周毅编辑张广凯

在5月14日，腾讯对外宣布其混元文生图大模型已完成全面升级，并正式开源。这一模型被认为是行业内首个中文原生的DiT架构文生图开源项目。它具备中英文双语输入和理解的能力，参数量达到15亿。目前，该模型已在Hugging Face平台和Github上发布，用户可以获得包括模型权重、推理代码和算法在内的完整资源，供企业及个人开发者免费使用。

不同模型在图文一致性等方面的表现图源Hugging Face

腾讯混元文生图项目的负责人芦清林在接受观察者网采访时指出，未来该大模型的发展将集中在提升技术能力和拓展应用范围两个方面。

“在技术能力提升方面，我们始终追求更快的图像生成速度和更优质的生成效果，这似乎是一个无止境的追求。”芦清林进一步表示，团队希望该模型能在腾讯内部及外部的多个业务场景中得到广泛应用。实际上，自去年以来，腾讯混元文生图已经与公司的广告业务展开了一系列合作。

“今年，我们计划与社交业务合作，包括QQ和企业微信等多个业务场景，开发新的技术能力。”芦清林透露。此外，该大模型也将与腾讯游戏进行深入的技术合作，力求在美术创作等场景中实现应用，包括QQ音乐等未来业务场景的支持。

大模型的优异性能往往源于其先进的技术架构。以前，视觉生成扩散模型主要基于U-Net架构，但随着参数量的增加，基于Transformer架构的扩散模型展现出更出色的扩展性，能够显著提升生成质量与效率。经过升级，腾讯混元文生图大模型采用了全新的DiT架构（即Diffusion With Transformer），这一架构同样是Sora和Stable Diffusion 3所使用的关键技术之一，基于Transformer的扩散模型。

根据公开资料，腾讯混元文生图大模型在DiT架构的基础上，还在算法层面进行了优化，增强了长文本的理解能力，能够支持最多256个字符的输入，并具备多轮生成和对话能力：用户可以通过自然语言描述，对初始生成的图像进行调整。

用户通过“对话”可调整文生图的具体内容测试截图

此外，腾讯混元文生图大模型的“中文原生”特性同样值得关注。之前，像Stable Diffusion等主流开源模型的核心数据集主要以英文为主，导致对中国语言、美食、文化和习俗的理解相对有限。作为首个中文原生的DiT模型，混元文生图在中英文理解及生成方面表现卓越，尤其在古诗词、俚语、传统建筑和中华美食等中国文化元素的生成上展现出色的能力。

混元文生图大模型的一部分能力展示图源Hugging Face

本文系观察者网独家稿件，未经授权，不得转载。

来源：今日头条

原文标题：腾讯混元文生图大模型宣布开源，未来还将跟QQ、企微和游戏做联动 – 今日头条

原文链接：https://www.toutiao.com/article/7369194283707974179/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

QQ 开源混元文生游戏腾讯

发表至： AI大模型

2025-11-25

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

独家2025年AI大模型开发就业井喷！最怕技能淘汰原因曝

探索AI大模型的无限可能-从个人使用到行业应用的全面解析

独家国产AI大模型手机横空出世，背后技术秘密震惊业内！谁才是最强芯片大佬？揭秘真相

启动AI大模型前夕：专家揭秘背后隐藏的关键步骤与挑战

大模型开发者深夜发问：2025年算力自由能否实现？

探索AI大模型：2024年高考题解析与最新排行榜全面剖析

为何我对Gemini 2.5 Pro模型的强大性能感到惊讶？

中国人工智能大模型的前五名股票都有哪些？-揭开2024年AI投资新机会的面纱

一文解锁文生图提示词的终极公式，轻松掌握！

国内首例AI生成图像版权案落幕，深度解析AIGC版权三大疑问