智谱与寒武纪携手打造全新模型芯片一体化解决方案!

共计 1089 个字符,预计需要花费 3 分钟才能阅读完成。

在9月30日,智谱这家国产大模型初创企业正式推出了其最新的GLM-4.6模型。作为GLM系列的最新版本,GLM-4.6在多个重要领域如真实编程、长上下文处理、推理能力、信息搜索、写作能力和智能体应用等方面都有了显著的提升。

根据官方发布的信息,GLM-4.6在公开基准和实际编程任务中展现出与Claude Sonnet 4相当的代码能力;此外,其上下文窗口也从128K扩展至200K,以便处理更复杂的代码和智能体任务。该模型在推理方面的能力得到了增强,且允许在推理时调用工具;在搜索功能上,模型的工具调用和搜索智能体也得到了进一步提升。

值得注意的是,此次模型发布的一个重要亮点是“模芯联动”。GLM-4.6已经在寒武纪的国产芯片上实现了FP8与Int4的混合量化部署,这在行业中是首次将FP8与Int4模型结合在国产芯片上进行生产,提供了一种一体化解决方案,在保证精度的前提下有效降低推理成本,为国产芯片在大模型本地化的应用探索了新的可能性。

FP8代表8位浮点数,具有较大的动态范围和较小的精度损失;而Int4则指4位整数,具有极高的压缩比和最低的内存占用,虽然在适配低算力硬件时精度损失相对明显。此次的“FP8与Int4混合”模式,并非简单的叠加,而是依据大模型的不同模块功能进行针对性量化格式的分配,实现内存的极致压缩和精度的合理控制。

在模型适配的过程中,通过Int4量化,大模型核心参数能够压缩为FP16的四分之一,从而显著减轻了芯片显存的压力;而在推理过程中,积累的临时对话数据也可以通过Int4进行压缩,同时将精度损失控制在“轻微”的范围内。FP8则主要应用于模型中那些对数值敏感、影响推理准确性的模块,以便保留细致的语义信息并降低精度损失。

除了寒武纪,摩尔线程也已基于vLLM推理框架完成了对GLM-4.6的适配,使得新一代GPU能够在原生FP8精度的环境下稳定运行该模型,验证了MUSA架构以及全功能GPU在生态兼容性和快速适配能力上的优势。

寒武纪和摩尔线程此次对GLM-4.6的成功适配,标志着国产GPU已经具备了与前沿大模型协同迭代的实力,加速了自主可控的人工智能技术生态的构建。未来,GLM-4.6与国产芯片的组合将通过智谱MaaS平台优先向企业和公众提供服务。

(本文来自第一财经)

来源:今日头条
原文标题:智谱联手寒武纪,推出模型芯片一体解决方案 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-04发表,共计1089字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!