共计 1136 个字符,预计需要花费 3 分钟才能阅读完成。

经济观察网 记者 钱玉娟 在北京时间1月28日的凌晨,农历新年的前夕,中国的人工智能初创企业DeepSeek在GitHub和Hugging Face平台上推出了其多模态大模型Janus-Pro,标志着其在文生图领域的进军。
据DeepSeek介绍,Janus-Pro是其2024年11月发布的JanusFlow大模型的升级版本,提供了7B(70亿)和1.5B(15亿)两种参数量的开源选择。
在AI社区的开发者反馈中,Janus-Pro模型显示出可以在消费级电脑上本地运行的潜力。
在多模态理解与文本转图像的指令追踪方面,Janus-Pro实现了显著的提升,其文本到图像生成的稳定性也有明显增强。
DeepSeek的测试结果表明,70亿参数的Janus-Pro在多个基准测试中超越了美国AI独角兽OpenAI的DALL-E3模型。
尽管Janus-Pro的参数规模有限,DeepSeek团队通过整合7200万张高质量的合成图像,使得模型在预训练阶段的真实数据与合成数据的比例达到了1:1,从而提升了图像生成的稳定性。
此外,Janus-Pro通过将视觉编码分为“理解”和“生成”两条路径,有效缓解了视觉编码器在两个角色间的冲突,同时增强了模型架构的灵活性。
在多模态理解的训练数据中,Janus-Pro还增加了大约9000万样本,从而不仅可以生成图像,还能够识别图像中的文字、知识等信息。
就在1月27日的晚上,由DeepSeek开发的应用程序在苹果应用商店的下载量上超越了OpenAI的ChatGPT,成为最受欢迎的免费应用。
几乎在同一天,华尔街的评估显示,包括英伟达、博通、超威半导体及微软等多家美国科技公司的股价大幅下跌,这被认为是受到DeepSeek技术突破的影响。
在DeepSeek发布多模态模型的前一晚,达闼机器人创始人黄晓庆接受了经济观察网的采访,他表示团队正在基于DeepSeek的V3和R1大模型,将对话功能应用于其机器人开发中,并计划对DeepSeek的多模态大模型进行二次训练。
黄晓庆指出:“DeepSeek的开源、开放模式为第三方的二次训练提供了便利,结合多模态与机器人控制模型。”DeepSeek的MoE专家模型融合架构不仅适用于下游厂商的分布式训练场景,还能支持像达闼机器人这样的公司在各种应用场景中进行机器人开发与DeepSeek的多模态大模型进行有效结合。
