谷歌AI自创代码震撼工程师，GPU算法超越人类21%！

共计 4584 个字符，预计需要花费 12 分钟才能阅读完成。

【导读】就在刚刚，AlphaEvolve再创辉煌！依托其开源实现OpenEvolve，该系统凭借自我学习和自主编程，竟在苹果芯片上开发出比人类快21%的GPU核心函数！这一时刻，标志着自动化编程史上的重要里程碑，真正开启了「AI为AI编程」的新纪元，自动化的奇点似乎真的要到来了。

谷歌的AlphaEvolve，持续不断地带来惊喜。

在5月中旬，谷歌发布的这一重磅消息（被誉为数学界AlphaGo的「第37步」时刻），持续冲击着人们的认知——AI已经具备了自我进化的能力！

紧接着，开发者们纷纷用代码验证了AlphaEvolve在矩阵乘法上的突破！一位开发者成功地证明，仅用48次乘法就完成了4×4矩阵的乘法运算。

而就在此刻，patched.codes的联合创始人兼首席技术官Asankhaya Sharma，基于AlphaEvolve的研究论文，运用开源实现OpenEvolve，成功自动发现了高效的GPU内核算法。

具体而言，凭借自我进化的代码，该系统自动发现了一组在Apple Silicon上性能远超人工优化的GPU Metal核心函数。

在实际的Transformer推理任务中，带来了平均12.5%的性能提升，峰值更是飙升106%。

这一成果，直接超越了人类工程师21%！

该系统无需依赖人类的GPU编程专业知识，便发现了以下优化方案——

· 完美的SIMD优化

· 两阶段在线Softmax

· 针对GQA的特定内存布局优化

这并非简单的性能提升，而是自动化编程发展史上的真正里程碑——一个系统无需人类干预，便能在复杂的硬件架构中，挖掘出连专家也难以觉察的优化路径。

机器自主优化代码的新时代：OpenEvolve的突破

更为关键的是，这一创新成果并非局限于学术界或实验室，而是实实在在地在苹果芯片上、在当下流行的人工智能模型任务中得到了验证。

这充分展示了自动化代码优化技术在实际系统中的有效性。

这一成就象征着一个全新时代的开启：机器不再依赖人类手动优化，而是开始自主生成更高效的代码。

随着硬件架构的快速演进，像OpenEvolve这样的工具将显得愈发重要——它们能够挖掘出那些人力难以识别的深层次优化机会。

那么，为什么OpenEvolve所面对的「GPU核函数优化」任务如此富有挑战性呢？

原因在于，现代Transformer模型高度依赖于精细调优的注意力核函数，而编写高效的GPU代码需要掌握以下几个专业领域的知识。

· 特定硬件架构的细节（如Apple Silicon的统一内存、SIMD单元）

· 底层编程语言（如Metal Shading Language）

· 数值算法设计（如注意力机制、数值稳定性）

· 内存访问模式的优化

那么，是否存在一种可能性，使得我们可以将代码的编写完全交给OpenEvolve，让其自动进化，以生成性能更优的GPU核函数呢？

因此，Sharma决定以Qwen3-0.6B模型的分组查询注意力（GQA）作为目标，来评估OpenEvolve的能力，看它是否能够自动生成超越MLX的生产级「
scaled_dot_product_attention」核函数的代码。

具体而言，项目的目标配置如下。

· 模型：Qwen3-0.6B（40个查询头 : 8个键值头）

· 硬件：配备统一内存的苹果M系列GPU

· 基线：MLX的高度优化的注意力实现方案

· 挑战：全自动发现Metal核函数的优化方法

Sharma将OpenEvolve配置为直接进化Metal核函数的源代码，同时保留其与MLX框架的集成方式。

整个系统始于一个基础的三阶段注意力实现方案，经过超过25代的进化。

谷歌 AI 自创代码震撼工程师，GPU 算法超越人类 21%！

每一个通过进化生成的核函数都经过了以下几个方面的全面测试：

正确性验证：与MLX基线进行数值精度对比，确保计算结果无误。
性能测试：在20个多样化的推理场景（包括短/长上下文、生成任务）中进行基准测试。
安全性检查：包含GPU错误检测和Metal内存访问验证。
鲁棒性分析：通过多次重复运行进行统计分析，以确保性能的稳定性。

出乎意料的是，OpenEvolve在进化过程中，自行发现了几项体现出算法创新的优化策略！

1. 针对Apple Silicon的SIMD优化

谷歌 AI 自创代码震撼工程师，GPU 算法超越人类 21%！

通过仔细观察，我们可以看到，OpenEvolve的一个显著亮点是自主识别出了一种非常巧妙的优化方案——

对于128维的注意力头，若将数据按8个一组处理，正好能够完美匹配Apple Silicon硬件的SIMD宽度。

这就如同自动找到了硬件的「最佳区域」，无需任何人工调整，性能即可达到最佳，让硬件的利用率得以最大化！

2. 两阶段在线Softmax（Two-Pass Online Softmax）

OpenEvolve的创新突破：性能提升与内存优化

在推进过程中，OpenEvolve展现出一种独到的创新思维：将原先分开的Softmax归一化和加权求和两个步骤，巧妙地合并为一个计算循环。

以往，传统算法需要经历三个阶段：首先计算注意力得分，然后进行归一化，最后再进行加权求和。

如今，这一过程简化为两步，显著提高了效率，同时也大幅度减少了内存带宽的消耗，因此在运行速度和资源利用方面都有了显著改善。

在这方面，OpenEvolve的创新体现在专门为Qwen3模型的独特结构进行的优化设计。

该模型的查询头与键值头的比例为40:8（即5:1），系统充分发挥这一特性，设计出一种独特的合并内存访问模式，称为Coalesced Memory Access。

这种模式特别契合Apple Silicon的统一内存架构，效率极高，性能表现可谓是量身定做。

最终生成的核函数在各项综合基准测试中，果然展现出显著的性能提升：

解码速度（Decode Speed）：平均提升12.5%（标准差σ = 38.3%）
预填充速度（Prefill Speed）：平均提升14.4%（标准差σ = 17.6%）
总吞吐量（Total Throughput）：平均提升10.4%（标准差σ = 30.7%）
内存使用量（Memory Usage）：平均降低0.99%（标准差σ = 1.7%）
正确性（Correctness）：保持100%的数值精度
可靠性（Reliability）：零GPU错误或核函数崩溃

在重复性模式生成任务的处理上，OpenEvolve进化生成的核函数更是将解码速度提升了惊人的106%！

这无疑证明了该核函数在应对特定工作负载时，性能表现出色。

综上所述，从统计数据来看，OpenEvolve在特定类型的工作负载上展现出了强大的优化能力，能够挖掘出原本手写代码无法触及的性能潜力。

在20个不同的测试任务中，有7个任务显示出明显的提升，性能增长超过25%，体现了质的飞跃。

显著增益（>25%）：7/20个基准

中等增益（5-25%）：3/20个基准

性能持平（±5%）：4/20个基准

性能回退（6/20个基准）：

值得注意的是，这一项目的成功离不开OpenEvolve背后的评估系统。

它并非普通的跑分工具，而是为GPU核函数这种高强度代码而特别设计，旨在应对GPU核函数开发过程中面临的各种挑战。

命令缓冲区保护：自动检测Metal命令缓冲区的错误并进行恢复。

内存访问违规处理：安全处理GPU内存访问违规。

重试逻辑：为瞬时GPU错误提供指数退避重试机制。

回退机制：当核函数彻底失败时，能够优雅地降级到备用方案。

正是由于这套评估体系的高度稳定与强大的鲁棒性，使得OpenEvolve能够大胆探索多种激进的优化方案，而无需担忧“越改越崩”的风险。

值得注意的是，GPU核函数作为一种实验性代码，极易出现错误，哪怕是微小的问题也可能导致整个程序崩溃。

因此，拥有这样一个高鲁棒性的保障机制，才能使系统在不断创新中，逐步提升性能，尝试新的可能性。

此外，该项目的成功离不开OpenEvolve中众多组件的协同作用：

智能代码标记：通过特定标记，确保进化过程仅针对Metal核函数源代码，同时完整保留与MLX框架的集成代码。

富含上下文信息的提示词：为进化过程提供的提示词包含了性能数据、硬件规格和优化方向指南。
多目标评分机制：在性能、正确性和安全性等多个目标之间进行权衡评分。
特定硬件验证：所有测试和优化都针对Apple Silicon硬件进行。

与此同时，提供给进化过程的提示词也为OpenEvolve提供了至关重要的上下文信息：

综上所述，这次对GPU核函数的成功优化，揭示了几个重要的原则：

1. 专业知识的自动化探索与发现

OpenEvolve所发现的优化策略，涵盖了多个需要扎实专业知识的领域：

Apple Silicon的架构细节
Metal编程语言的精妙之处
注意力算法的各种变体
内存访问模式的优化

这些专业知识并非由人类工程师直接提供，而是在进化探索的过程中自然涌现的。

2. 面向特定硬件的自适应优化

最终的优化方案是专为Apple Silicon硬件设计的，这表明OpenEvolve能够自动发掘并利用特定硬件的特征。

3. 算法层面的创新

进化过程中发现的“两阶段在线Softmax（two-pass online softmax）”算法，实际上是一项新颖的技术贡献，其应用潜力远远超出本次实验的特定场景。

4. 具备投产应用的价值

这些优化并非只停留在理论层面，而是在实际的Transformer推理负载中能够显著提升性能的实用技术，完全具备在生产环境中部署的价值。

自项目启动以来，Sharma对OpenEvolve的核心能力进行了显著的提升：

可复现性（Reproducibility）

通过完全确定性的进化过程，确保科研级别的可复现性。

可视化（Visualization）

提供交互式的进化树视图，支持实时性能监控。

岛屿进化（Island Evolution）

通过种群迁移实现并行进化，以增强解空间的探索能力。

强大的检查点机制

该机制能够自动保存进度，并从中断的地方恢复进化会话。

那么，你是否已准备好亲自体验，迎接GPU核函数优化等复杂挑战呢？

只需输入以下代码，便可迅速开始：

若想获取更详尽的内容，建议仔细阅读以下文档。

GPU内核优化手册：
https://github.com/codelion/openevolve/tree/main/examples/mlx_metal_kernel_opt

通用指南：
https://github.com/codelion/openevolve#getting-started

深度探索：如何优化你的机器学习内核

谷歌 AI 自创代码震撼工程师，GPU 算法超越人类 21%！

配置指南：
访问链接获取更多信息：配置参考

附加资料：
了解更多请参考：相关博客

本文由微信公众号“新智元”提供，编辑：Aeneas 好困，经过36氪授权发布。

来源：今日头条

原文标题：AI编程里程碑，谷歌AI自己写代码惊呆工程师，GPU内核算法反超人类21% – 今日头条

原文链接：https://www.toutiao.com/article/7521648194385461799/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

AlphaEvolve GPU算法工程师自创代码谷歌AI

发表至： ai编程

2025-11-09

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Trae与Cursor的对比：谁才是AI领域的佼佼者？大瑜为你揭秘！

你在AI编程的探索中走到了哪一步？ – 牛死了还牛的不行的精彩解读

深入剖析Trae 2.0的发布及全新SOLO模式的游戏体验！

你会选择使用GPT-5吗？揭秘AI信息差的真相！

独家揭秘前端cursor教程大曝光！让页面体验瞬间提升背后的秘密是什么？

cursor新手入门教程揭秘，让你轻松掌握核心技能与应用秘诀

深度解析：Anthropic新推出的Claude Code插件功能的影响与展望

AI编程：人工智能崛起的首个“颠覆性应用”即将问世

AI写作书籍2025年横空出世三大主题破解写作难题满足创作者需求

谷歌AI自创代码震撼工程师，GPU算法超越人类21%！

挑战：GPU核函数的优化难题

进化方法

进化设置

评估策略

关键优化

针对GQA的内存布局优化

评测成果

核心性能指标提升

详细基准测试结果

统计分析

成功背后的关键：高鲁棒性评估系统

GPU安全特性

全面的错误统计

技术深度解析

面向GPU核函数的进化架构

面向GPU优化的提示词工程

更深远的影响

核心技术架构升级

快速上手

九款必备AI工具，让你的编程体验更上一层楼

国产平替之最：无限畅用Claude，深入解析Trae！

# TRAE 国内版重磅推出 SOLO 模式，让你尽享独自游戏乐趣！

人工智能进步如何驱动编程学习的新潮流？

谁才是MCP领域的领头羊？深入解析Cline、Cursor、Trae与Coze四大平台的优势与特色

字节跳动发布年度Trae产品亮点报告

字节推出AI IDE工具Trae，能否超越Cursor？产品实力与用户体验深入分析！

轻松搭建 AI 助手：保姆级 OpenClaw（原 Clawdbot）飞书对接全攻略