“夫妻肺片”文生图模型上线!探索Sora同款架构的魅力 – 今日头条

共计 1847 个字符,预计需要花费 5 分钟才能阅读完成。

一款能够理解并生成“夫妻肺片”“胸有成竹”等中文表达的大模型已正式推出。

在5月14日,腾讯宣布其混元文生图大模型完成全面升级,并对外开放源代码。目前,该模型已经在Hugging Face平台和Github上发布,包含模型权重、推理代码以及算法,企业和个人开发者均可免费使用。

据了解,升级后的混元文生图大模型采用了与sora相同的DiT架构,不仅支持文本生成图像,还可以作为视频等多元视觉生成的基础。南都记者通过测试发现,该模型目前能够充分理解中文成语和诗句,并快速生成相应的图片,同时支持用户在多轮对话中对图像进行调整。

基于Sora架构,中文表达理解能力显著提升

南都记者了解到,腾讯混元文生图大模型的升级采用了与Sora及Stable Diffusion 3相同的构架和核心技术。随着参数数量的增加,基于Transformer的扩散模型展现出更强的扩展性,从而提升了模型的生成效果与效率。

测试结果表明,腾讯的混元文生图大模型支持多轮对话,且具备较强的长文本理解能力,能够处理最多256字符的内容输入。用户可以在初始生成的图片基础上,利用自然语言进行调整,以获得更理想的结果。

回顾去年3月,率先推出文生图模型的公司并未因产品而受到关注,而是因其模型为用户提供了各种新奇的想法。例如,当网友输入“车水马龙”“鱼香肉丝”等成语时,模型往往根据字面意思输出“一辆车、一滩水、一条龙”和“用肉丝做成的鱼”。

南都记者获悉,文生图模型出现这种奇特现象的根本原因在于其核心数据集主要以英文为主,导致对中文的语言、饮食文化和习俗理解不足。腾讯文生图项目负责人芦清林在一次沟通会上指出,过去的做法通常是将国外模型应用于中文数据,这意味着首先需经过翻译,而翻译过程中常常会出现信息损失和误解。而混元文生图则直接使用原始中文数据进行训练,从而使其能够更好地理解中文。

腾讯混元文生图:新一代模型的突破与应用前景

在最近的一次交流会上,腾讯团队披露了新一代混元文生图大模型在视觉生成方面相较于上一代已提升了20%以上。这一进步在多轮对话、多主体互动、中国文化元素以及真实人像生成等多个场景中表现尤为突出,能够生成古典诗词、俚语、传统建筑以及中国美食等富有民族特色的内容。

南方都市报记者进行了实测,结果显示,当输入“映日荷花别样红”这一诗句时,混元能够准确理解并生成相应的荷花与夏日场景。而针对去年的一些大模型误生成的名菜如“鱼香肉丝”和“夫妻肺片”,混元也能成功生成符合常识的菜品。

“夫妻肺片”文生图模型上线!探索 Sora 同款架构的魅力 - 今日头条

然而,当随机输入“请画一盘蚂蚁上树”时,混元的输出仅是字面意思的表现。经过调整提示为“请画一道叫蚂蚁上树的菜”后,生成的图片才是正宗的川菜“蚂蚁上树”。

“夫妻肺片”文生图模型上线!探索 Sora 同款架构的魅力 - 今日头条

计划全面开源,未来将在QQ、企业微信等平台应用

据悉,腾讯混元文生图的技术现已广泛应用于素材创作、商品合成与游戏制作等多种业务场景中。今年初,腾讯广告基于该模型推出了一站式AI广告创意平台“腾讯广告妙思”,为广告主提供了文生图、图生图及商品背景合成等多种创意工具,从而显著提升了广告的生产与投放效率。

在此次沟通会上,腾讯还宣布将最新的文生图模型进行开源。这一决定将使得开发者和企业能够无需从头开始训练,便可直接进行推理,并在混元文生图的基础上打造个性化的AI绘画应用与服务,这将极大地节省人力和计算资源。腾讯已开源超过170个高质量项目,这些项目均源自真实业务场景,涵盖了微信、腾讯云、腾讯游戏、腾讯AI及腾讯安全等核心领域。

在谈及文生图模型的应用时,腾讯文生图项目负责人芦清林在会后接受采访时指出,去年该模型已与广告场景进行了深入合作,并与腾讯游戏展开了技术深度协作,支撑了QQ音乐的相关业务。今年,文生图模型还将与社交软件,包括QQ和企业微信的多个业务场景进行联动。

芦清林提到,此次选择开源的时机,一方面是由于混元已经具备开源的条件,另一方面也反映出业界对DiT架构的开发需求日益增长。他表示,过去腾讯走的是闭源模式,年内一直进行模型迭代并对外开放接口,但现在他们意识到,开源社区让更多人参与进来,共同构建能够加速进程,因此后续也在考虑将其他大模型进行开源。

撰稿:南方都市报记者 林文琪

来源:今日头条
原文标题:能画对“夫妻肺片”的文生图大模型来了!与Sora同款架构 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-06发表,共计1847字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!