智谱与寒武纪携手打造全新模型芯片一体化解决方案！

共计 1089 个字符，预计需要花费 3 分钟才能阅读完成。

在9月30日，智谱这家国产大模型初创企业正式推出了其最新的GLM-4.6模型。作为GLM系列的最新版本，GLM-4.6在多个重要领域如真实编程、长上下文处理、推理能力、信息搜索、写作能力和智能体应用等方面都有了显著的提升。

根据官方发布的信息，GLM-4.6在公开基准和实际编程任务中展现出与Claude Sonnet 4相当的代码能力；此外，其上下文窗口也从128K扩展至200K，以便处理更复杂的代码和智能体任务。该模型在推理方面的能力得到了增强，且允许在推理时调用工具；在搜索功能上，模型的工具调用和搜索智能体也得到了进一步提升。

值得注意的是，此次模型发布的一个重要亮点是“模芯联动”。GLM-4.6已经在寒武纪的国产芯片上实现了FP8与Int4的混合量化部署，这在行业中是首次将FP8与Int4模型结合在国产芯片上进行生产，提供了一种一体化解决方案，在保证精度的前提下有效降低推理成本，为国产芯片在大模型本地化的应用探索了新的可能性。

FP8代表8位浮点数，具有较大的动态范围和较小的精度损失；而Int4则指4位整数，具有极高的压缩比和最低的内存占用，虽然在适配低算力硬件时精度损失相对明显。此次的“FP8与Int4混合”模式，并非简单的叠加，而是依据大模型的不同模块功能进行针对性量化格式的分配，实现内存的极致压缩和精度的合理控制。

在模型适配的过程中，通过Int4量化，大模型核心参数能够压缩为FP16的四分之一，从而显著减轻了芯片显存的压力；而在推理过程中，积累的临时对话数据也可以通过Int4进行压缩，同时将精度损失控制在“轻微”的范围内。FP8则主要应用于模型中那些对数值敏感、影响推理准确性的模块，以便保留细致的语义信息并降低精度损失。

除了寒武纪，摩尔线程也已基于vLLM推理框架完成了对GLM-4.6的适配，使得新一代GPU能够在原生FP8精度的环境下稳定运行该模型，验证了MUSA架构以及全功能GPU在生态兼容性和快速适配能力上的优势。

寒武纪和摩尔线程此次对GLM-4.6的成功适配，标志着国产GPU已经具备了与前沿大模型协同迭代的实力，加速了自主可控的人工智能技术生态的构建。未来，GLM-4.6与国产芯片的组合将通过智谱MaaS平台优先向企业和公众提供服务。

(本文来自第一财经)

来源：今日头条

原文标题：智谱联手寒武纪，推出模型芯片一体解决方案 – 今日头条

原文链接：https://toutiao.com/group/7555783362850374194/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

人工智能寒武纪智谱模型芯片解决方案

发表至： AI大模型

近一天内

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

揭晓2023年人工智能大模型排行榜：从阿里到小米，哪个最优？

上海AI大模型软件不只技术突破！2025年或颠覆千行百业，开发者紧急布局新赛道

告别论文烦恼！这9款AI论文助手，让你的写作轻松无忧！

2023年人工智能大模型现状与未来趋势分析：中美竞争与应用开发全景

掌握这几点，轻松驾驭StableLM大模型！

2024年国内人工智能大模型排行榜与应用前景全面分析总结

如何解决谷歌Gemini提示“出了点问题（1060）”的困扰？

探索 Google Nano Banana 的使用体验：你不可错过的科技新宠！

党务写作AI：如何借助智能工具洞悉新形势、优化决策文书？

聊聊如何高效利用聊天AI进行编程实践