DeepSeek文生图重磅来袭,性能测试部分不逊色于OpenAI!

共计 1136 个字符,预计需要花费 3 分钟才能阅读完成。

经济观察网 记者 钱玉娟 在北京时间1月28日的凌晨,农历新年的前夕,中国的人工智能初创企业DeepSeek在GitHub和Hugging Face平台上推出了其多模态大模型Janus-Pro,标志着其在文生图领域的进军。

据DeepSeek介绍,Janus-Pro是其2024年11月发布的JanusFlow大模型的升级版本,提供了7B(70亿)和1.5B(15亿)两种参数量的开源选择。

在AI社区的开发者反馈中,Janus-Pro模型显示出可以在消费级电脑上本地运行的潜力。

在多模态理解与文本转图像的指令追踪方面,Janus-Pro实现了显著的提升,其文本到图像生成的稳定性也有明显增强。

DeepSeek的测试结果表明,70亿参数的Janus-Pro在多个基准测试中超越了美国AI独角兽OpenAI的DALL-E3模型。

尽管Janus-Pro的参数规模有限,DeepSeek团队通过整合7200万张高质量的合成图像,使得模型在预训练阶段的真实数据与合成数据的比例达到了1:1,从而提升了图像生成的稳定性。

此外,Janus-Pro通过将视觉编码分为“理解”和“生成”两条路径,有效缓解了视觉编码器在两个角色间的冲突,同时增强了模型架构的灵活性。

在多模态理解的训练数据中,Janus-Pro还增加了大约9000万样本,从而不仅可以生成图像,还能够识别图像中的文字、知识等信息。

就在1月27日的晚上,由DeepSeek开发的应用程序在苹果应用商店的下载量上超越了OpenAI的ChatGPT,成为最受欢迎的免费应用。

几乎在同一天,华尔街的评估显示,包括英伟达、博通、超威半导体及微软等多家美国科技公司的股价大幅下跌,这被认为是受到DeepSeek技术突破的影响。

在DeepSeek发布多模态模型的前一晚,达闼机器人创始人黄晓庆接受了经济观察网的采访,他表示团队正在基于DeepSeek的V3和R1大模型,将对话功能应用于其机器人开发中,并计划对DeepSeek的多模态大模型进行二次训练。

黄晓庆指出:“DeepSeek的开源、开放模式为第三方的二次训练提供了便利,结合多模态与机器人控制模型。”DeepSeek的MoE专家模型融合架构不仅适用于下游厂商的分布式训练场景,还能支持像达闼机器人这样的公司在各种应用场景中进行机器人开发与DeepSeek的多模态大模型进行有效结合。

来源:今日头条
原文标题:DeepSeek文生图来了 部分性能测试不输OpenAI – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-25发表,共计1136字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!