共计 5739 个字符,预计需要花费 15 分钟才能阅读完成。
经过一番实际测试后,我得出的结论是——对于即将进行编程、搭建代理或制作原型的用户来说,GLM-4.5无疑是2025年最值得优先尝试的国产大模型。

近期,国产人工智能模型可谓热闹非凡,众多公司纷纷着眼于编程和代理场景,推出了各自的最新开源模型。
这是一个积极的现象,显著缩小了国内外模型在编程领域的差距。但对于用户而言,市场上如此多的选择,确实让人眼花缭乱,难以决定使用哪一个。
在周末,我提前体验了智谱最新推出的GLM-4.5,经过评估后,觉得有必要单独撰写一篇介绍文章。

文中所用的所有配图,均由GLM-4.5的前端代码生成,体现了其自我配图的能力。
为了评测GLM,我特别设计了一些基准测试。
例如,这是使用GLM-4.5生成的在线文档平台,能够创建、编辑和分享文档,并且还具备自动接入AI功能,提供AI摘要和内容续写的能力:

接下来,我将分享几个关键的进展:
1. 在国内模型中,GLM-4.5首次支持推理的智能代理模型,能够更好地理解需求指令。
2. 在较长的上下文中,其记忆保持能力表现良好。
3. 前端代码的审美水平与Claude 4、Gemini Pro相当,甚至在某些方面有所超越,后端构建同样表现出色。
4. 生成响应的速度极快,确实让人惊叹。这种高效性使得编程过程变得更加流畅。我愿意将GLM-4.5视为当前的主要编程模型。
简单来说:如果您有编程或代理的需求,尝试一下GLM-4.5绝对不会让您失望。
特别是z.ai还提供了一个非常实用的全栈模式,用户可以通过网页对话,轻松构建包含前后端及AI功能的多页面应用。
通过一图流了解GLM-4.5的参数与价格
智谱推出了三款模型:
GLM-4.5(大杯,355B-A32B)、GLM-4.5-Air(中杯,106B-A12B)以及完全免费的GLM-4.5-Flash。
我们将官方的介绍整理成一图流,方便大家查看:
💡 深入探讨 GLM-4.5:参数与价格一览有几个值得关注的要点:
- 大杯型号的参数仅为DeepSeekR1的一半,KimiK2的三分之一。
- 单轮最大输出可达9.8w token,生成速度极快,高速版本每秒可达100 tokens。
- 此模型完全开源,采用了最宽松的MIT许可协议,任何人只需在软件中保留原始版权声明便可自由商业使用。
关于定价,特别值得一提:
- 旗舰版在最大输入输出情况下,结合官方的五折促销,输入仅需2元/百万 tokens,输出8元。
- 此外,GLM-4.5-Flash对于中小型开发者来说是完全免费的。

因此,只要实际测试效果出色,GLM-4.5的综合优势将在当前国产Agentic模型中占据领先地位。
💻 GLM-4.5 性能评测:基础代码生成能力
有一句话需要强调:SOTA并非一目了然,实际体验与测试更能增强我们对切换主力模型的信心。
我将GLM-4.5与当红的Kimi K2、Qwen3-coder,以及老牌的Gemini 2.5 Pro和Claude Sonnet 4进行对比。
考虑到所有测试对象均为旗舰版本,GLM也默认使用旗舰版。每项测试的提示将在相关小节末尾附上。
1)长文本注意力与前端设计:一图流生成比较
这是我最喜欢的快速测试方法,让模型阅读一篇长文,自行提炼出关键信息,并生成便于阅读的一图流网页。
这个过程考验模型的逻辑分析能力、长上下文记忆保持、幻觉问题,以及前端编码的质量与设计美感。
我进行了几项案例测试,以下列举两个例子:
首先,总结我翻译的《Manus Context》工程经验,约5000字:GLM 4.5的表现非常出色,关键信息总结得相当精准,且配图趋势积极。

其次,我还测试了一篇更长的万字文档,内容关于2025年上半年AI产品推荐:在这个更为复杂的任务中,GLM 4.5在关键信息提炼和布局呈现方面表现优异,没有出现幻觉现象。

经过多次反复测试,我总结了以下的使用体验:
AI生成模型的比较与选择:谁更胜一筹?
- 在内容选择和排版方面,GLM-4.5和Gemini因其支持思维模式,相比于国产的无思维模型显得更具优势。
- 从前端展示的角度来看,经过多次测试,GLM-4.5和Gemini 2.5 Pro的设计标准普遍较高,其他平台表现也不差。
- 提到生成速度,GLM-4.5在这一方面无疑是最快的,这对编程的体验十分有利。众所周知,AI编程依赖于多轮的渐进式与递归提示,生成太慢容易令人感到挫败和烦躁。其速度大致等同于或超过Gemini 2.5 Pro和Qwen。
因此,在这个任务中,如果要优先推荐模型,综合体验的排名为:GLM-4.5 ≈ Gemini 2.5 Pro > Kimi K2 ≈ Qwen3-Coder > Claude Sonnet 4。
顺便提一句:如果您有兴趣进行测试或需要图形制作,可以参考以下的提示:
## 这是我的文章:
[粘贴文章内容]
## 任务
我的身份是[个人身份、作图用途]。请阅读我文章中的要点,帮我生成一个类似苹果发布会PPT的Bento Grid风格的中文动态网页,具体要求如下:
– 尽量在一页展示所有信息,背景为白色,文字和按钮为纯黑色,高亮色为#4D6BFE。
– 使用超大字体或数字突出核心内容,画面中包含显著的视觉元素以强调重点,并与小元素形成鲜明对比。
– 网页需支持响应式设计,兼容1920px及以上的大屏显示器。
– 中英文混用,中文使用大字体加粗,英文作为小字进行点缀。
– 使用简约的线条图形作为数据可视化或配图元素。
– 利用高亮色的透明度渐变来增强科技感,但不同高亮色之间不应互相渐变。
– 数据可引用在线图表组件,样式需与主题一致。
– 使用HTML5、TailwindCSS 3.0+(通过CDN引入)及必要的JavaScript。
– 使用专业图标库,如Font Awesome或Material Icons(通过CDN引入)。
– 避免使用emoji作为主要图标。
– 保证内容要点不被省略,禁止编造文章中未出现的数据。
2)复杂指令的执行:一次性生成交互式工具
在实际的AI编程任务中,通常需要给AI提供一段包含多个需求的文本,进而考察其处理复杂指令的能力。
例如,开发一个复杂的前端交互式编辑器,这是一个挑战。要求AI一次性生成一个具备增删、拖拽、字体、颜色及大小调整功能的内容编辑器。
同时,对于UI样式也有特定要求:“实用主义设计风格,配色以中性灰为主”。

该任务的复杂性主要在于需要一次性满足多项要求,确保实现复杂的UI交互、DOM操作,及对应用状态和UI样式的精确控制。
对人类开发者而言,从零开始开发这样的功能相对繁琐,通常会选择修改开源组件,而不是重新开发(以下是我资深前端开发朋友的看法)。

以下是五个AI的执行结果:
- 从要求完成情况来看,Claude Sonnet 4实现了所有的要求。GLM-4.5则有一项未完成,整体表现仍然较为突出。
- 在样式遵循上,各个模型对轻量设计的要求都表现得相当不错,能够覆盖常见的编码任务。
- 完成任务的速度方面,GLM-4.5依旧是最快的,而Kimi K2相对较慢(不过这也难以严谨判断,因为官方服务的负载情况也会影响速度)。

综合体验的排序为:Claude Sonnet 4 > GLM-4.5 > Kimi K2 > Qwen3-Coder = Gemini 2.5 Pro。
(由于Kimi当前的生成速度,评分不得不下调。)
测试提示(由于要求复杂多样,每次测试结果略有偏差,以上举例为均值表现):
请为我创建一个简单的拖拽式网页内容构建器。
功能要求:
1)界面分区:左侧设有“组件”面板,包含多个可拖拽元素,如“标题”、“段落”、“代码块”、“按钮”;右侧是“文章画布”区域。
💎 全栈模式:惊喜不断,超越模型的体验
在基础性能测试完成后,有一点非常值得强调:
除了可以通过聊天或API调用GLM-4.5,z.ai官网还提供了一种便于创作者使用的“全栈模式”。

可以将其视作类似于Lovable和Bolt.new的功能模式。
该模式允许用户在网页对话中,快速生成一个具备前后端功能的全栈、多页面应用,并能够轻松发布到互联网,无需配置开发环境或处理部署问题。
以下是测试结果:
1)创建一个可分享的在线文档应用
例如,文章开头提到的在线文档应用,正是借助全栈模式,在网页对话中仅用10分钟便生成了应用的演示版本。
任务记录:
https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
开发一个在线文档工具,支持创建多份文档,并可以一键分享文档链接。

在此过程中,GLM-4.5就像“云端”光标或Windsurf一样,能够自主规划任务步骤,读取应用内部的文件目录与内容。
同时,它也能创建和编辑不同类型的代码文件,完成整个应用的构建。

如果有新的迭代需求或对某个功能/缺陷不满,用户也可以通过自然对话方式提出要求,进行反复修改。
AI自动化测试与功能构建的新纪元在当前的技术环境中,人工智能不仅能快速展开流畅的测试流程,还可以在迭代中自主识别和修复潜在的缺陷。

这种方式使得整个调试过程无需人工干预,最终呈现出100%可用的预期应用效果。
2)更高的期望:让AI自主构建AI功能
顺应人工智能开发的趋势,我们可以利用GLM-4.5,让其在应用中自主集成AI API,根据口头需求生成Prompt,构建出所需的AI功能。
我进行了系列实验,例如在文档的详细页面中添加自动摘要功能:


最终生成的效果大致如下,AI能够根据文章内容和编辑更新情况,在发布后自动优化摘要:

经过测试,成功率达到了百分之百。
进一步提高难度,尝试AI段落自动补全:
在编辑文档的过程中,系统能够实时分析之前的内容,并提出段落补全的建议。

以下展示的是开发成果,经过两轮的自然交互,完美实现了预期效果:


3)一键将服务部署到公网
如果你对自己的编码结果感到满意,请记得在全栈模式的右上角点击“发布”,这样就能轻松把服务推向公网,分享给更广泛的用户使用:
🔍 GLM-4.5:探索新的AI编码体验特别提示:
自从GLM-4.5于昨天正式发布以来,受到了广泛关注,官方服务也因此出现了一些波动,可能会导致AI API出现错误。若遇到这种情况,您可以尝试刷新页面,并发送“继续”或点击“重试”按钮来继续任务。
在发布后的Coding成果中,用户可能会遇到多页面跳转的问题,官方团队正在积极修复此问题,而在预览模式下则一切正常。
需要强调的是,这些Coding效果并不仅限于全栈模式,GLM-4.5模型本身的能力也十分出色。
在下面,我将为大家整理并推荐一些使用GLM-4.5的途径,以便每个人都能找到适合自己的选择。
👉 GLM-4.5的使用推荐
对于非技术用户:优选z.ai
不知不觉间,z.ai的官方聊天平台已经做得相当出色。
尤其是在之前详细测试的全栈模式下,可能是目前国内最适合新手体验Vibe Coding的平台。

用户可以在不访问外网、不下载软件以及不配置服务器环境的情况下,享受到与Claude 3.7相当的Coding能力,完全免费地在网页上进行对话生成轻量级应用,并分享给朋友们。
这一切都非常简单,即使没有任何编码知识的用户也能轻松上手,非常适合初学者感受AI Coding的魅力。
体验地址在这里:https://chat.z.ai/,别忘了在左上角选择模型为GLM-4.5(GLM-4.5-Air也值得尝试,表现也不差)。
对于开发者:GLM版Claude Code
在7月份发布的国产模型中,基本都兼容了Anthropic API格式,GLM-4.5也不例外。
值得一提的是,我在实际使用中发现GLM版Claude Code非常稳定,从未出现过由于工具使用能力不足而导致的任务失败,生产效率和成功率均令人满意,强烈推荐试用。

体验步骤:
1. 在开放平台申请智谱API密钥:
https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys
2. 按照正常流程安装Claude Code,并运行以下命令:
export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic
export ANTHROPIC_AUTH_TOKEN=”your bigmodel API keys”
3. 输入Claude,启动GLM-Code即可。
此外,根据Cursor、Windsurf和Trae之前接入Kimi K2的速度,直接在这三者上使用GLM-4.5的时间应该也不会太久。(对于Cline,由于表现逊色于其他AI Coding产品,因此不再推荐。)
🎐 总结
这篇文章并不需要再多加阐述,因为GLM的进步已经显而易见。
在整个7月份,我们明显感受到国产模型在编码能力上大幅缩小了与Claude 4之间的差距。
而在最近几天的GLM-4.5测试中,我最频繁的反应是:
- 等等,这还是GLM模型吗?
- 这次测试下来,感觉GLM-4.5可能是国产Coding模型中的顶尖选择了?
- 究竟是我测试得不够全面,还是正好没发现其短板?
写到这里,我大胆地给出个人的测试结论:
- 根据我的感觉,在相对完整的中小型项目中,GLM-4.5的能力应介于Claude 3.7和4之间。
- 在成本、速度与质量的综合考量下,GLM-4.5或许成为当前国产Coding模型的翘楚。
GLM-4.5凭借其最低的API费用、极快的模型反应速度,以及接近国际顶尖水平的编码能力而问世。(来自社群好友的评论 ⬇️)

可以预见的是,未来几周,国内各类Agentic模型的进展将显著加快国内在AI代码生成方面应用的普及。(无论是开发者对AI编程的接受程度,还是相关产品的实际应用)
我再次强调,只要你有编码或Agent相关的需求,值得投入时间进行自我测试,我相信你不会失望。
同时,我也很期待你们的实际测试反馈与感受。
本文作者为人人都是产品经理的【一泽Eze】,微信公众号为:【一泽Eze】。原创/授权发布于人人都是产品经理,未经许可,严禁转载。
题图来源于Unsplash,采用CC0协议。
