谷歌AI自创代码震撼工程师,GPU算法超越人类21%!

共计 4584 个字符,预计需要花费 12 分钟才能阅读完成。

【导读】就在刚刚,AlphaEvolve再创辉煌!依托其开源实现OpenEvolve,该系统凭借自我学习和自主编程,竟在苹果芯片上开发出比人类快21%的GPU核心函数!这一时刻,标志着自动化编程史上的重要里程碑,真正开启了「AI为AI编程」的新纪元,自动化的奇点似乎真的要到来了。

谷歌的AlphaEvolve,持续不断地带来惊喜。

在5月中旬,谷歌发布的这一重磅消息(被誉为数学界AlphaGo的「第37步」时刻),持续冲击着人们的认知——AI已经具备了自我进化的能力!

紧接着,开发者们纷纷用代码验证了AlphaEvolve在矩阵乘法上的突破!一位开发者成功地证明,仅用48次乘法就完成了4×4矩阵的乘法运算。

而就在此刻,patched.codes的联合创始人兼首席技术官Asankhaya Sharma,基于AlphaEvolve的研究论文,运用开源实现OpenEvolve,成功自动发现了高效的GPU内核算法。

具体而言,凭借自我进化的代码,该系统自动发现了一组在Apple Silicon上性能远超人工优化的GPU Metal核心函数。

在实际的Transformer推理任务中,带来了平均12.5%的性能提升,峰值更是飙升106%

这一成果,直接超越了人类工程师21%!

该系统无需依赖人类的GPU编程专业知识,便发现了以下优化方案——

· 完美的SIMD优化

· 两阶段在线Softmax

· 针对GQA的特定内存布局优化

这并非简单的性能提升,而是自动化编程发展史上的真正里程碑——一个系统无需人类干预,便能在复杂的硬件架构中,挖掘出连专家也难以觉察的优化路径。

机器自主优化代码的新时代:OpenEvolve的突破

更为关键的是,这一创新成果并非局限于学术界或实验室,而是实实在在地在苹果芯片上、在当下流行的人工智能模型任务中得到了验证。

这充分展示了自动化代码优化技术在实际系统中的有效性。

这一成就象征着一个全新时代的开启:机器不再依赖人类手动优化,而是开始自主生成更高效的代码。

随着硬件架构的快速演进,像OpenEvolve这样的工具将显得愈发重要——它们能够挖掘出那些人力难以识别的深层次优化机会。

挑战:GPU核函数的优化难题

那么,为什么OpenEvolve所面对的「GPU核函数优化」任务如此富有挑战性呢?

原因在于,现代Transformer模型高度依赖于精细调优的注意力核函数,而编写高效的GPU代码需要掌握以下几个专业领域的知识。

· 特定硬件架构的细节(如Apple Silicon的统一内存、SIMD单元)

· 底层编程语言(如Metal Shading Language)

· 数值算法设计(如注意力机制、数值稳定性)

· 内存访问模式的优化

那么,是否存在一种可能性,使得我们可以将代码的编写完全交给OpenEvolve,让其自动进化,以生成性能更优的GPU核函数呢?

因此,Sharma决定以Qwen3-0.6B模型的分组查询注意力(GQA)作为目标,来评估OpenEvolve的能力,看它是否能够自动生成超越MLX的生产级「
scaled_dot_product_attention」核函数的代码。

具体而言,项目的目标配置如下。

· 模型:Qwen3-0.6B(40个查询头 : 8个键值头)

· 硬件:配备统一内存的苹果M系列GPU

· 基线:MLX的高度优化的注意力实现方案

· 挑战:全自动发现Metal核函数的优化方法

进化方法

Sharma将OpenEvolve配置为直接进化Metal核函数的源代码,同时保留其与MLX框架的集成方式。

整个系统始于一个基础的三阶段注意力实现方案,经过超过25代的进化。

进化设置

谷歌 AI 自创代码震撼工程师,GPU 算法超越人类 21%!

评估策略

每一个通过进化生成的核函数都经过了以下几个方面的全面测试:

  • 正确性验证:与MLX基线进行数值精度对比,确保计算结果无误。
  • 性能测试:在20个多样化的推理场景(包括短/长上下文、生成任务)中进行基准测试。
  • 安全性检查:包含GPU错误检测和Metal内存访问验证。
  • 鲁棒性分析:通过多次重复运行进行统计分析,以确保性能的稳定性。

关键优化

出乎意料的是,OpenEvolve在进化过程中,自行发现了几项体现出算法创新的优化策略!

1. 针对Apple Silicon的SIMD优化

谷歌 AI 自创代码震撼工程师,GPU 算法超越人类 21%!

通过仔细观察,我们可以看到,OpenEvolve的一个显著亮点是自主识别出了一种非常巧妙的优化方案——

对于128维的注意力头,若将数据按8个一组处理,正好能够完美匹配Apple Silicon硬件的SIMD宽度。

这就如同自动找到了硬件的「最佳区域」,无需任何人工调整,性能即可达到最佳,让硬件的利用率得以最大化!

2. 两阶段在线Softmax(Two-Pass Online Softmax)

OpenEvolve的创新突破:性能提升与内存优化

在推进过程中,OpenEvolve展现出一种独到的创新思维:将原先分开的Softmax归一化和加权求和两个步骤,巧妙地合并为一个计算循环。

以往,传统算法需要经历三个阶段:首先计算注意力得分,然后进行归一化,最后再进行加权求和。

如今,这一过程简化为两步,显著提高了效率,同时也大幅度减少了内存带宽的消耗,因此在运行速度和资源利用方面都有了显著改善。

针对GQA的内存布局优化

在这方面,OpenEvolve的创新体现在专门为Qwen3模型的独特结构进行的优化设计。

该模型的查询头与键值头的比例为40:8(即5:1),系统充分发挥这一特性,设计出一种独特的合并内存访问模式,称为Coalesced Memory Access。

这种模式特别契合Apple Silicon的统一内存架构,效率极高,性能表现可谓是量身定做。

评测成果

最终生成的核函数在各项综合基准测试中,果然展现出显著的性能提升:

核心性能指标提升

  • 解码速度(Decode Speed):平均提升12.5%(标准差σ = 38.3%)
  • 预填充速度(Prefill Speed):平均提升14.4%(标准差σ = 17.6%)
  • 总吞吐量(Total Throughput):平均提升10.4%(标准差σ = 30.7%)
  • 内存使用量(Memory Usage):平均降低0.99%(标准差σ = 1.7%)
  • 正确性(Correctness):保持100%的数值精度
  • 可靠性(Reliability):零GPU错误或核函数崩溃

详细基准测试结果

在重复性模式生成任务的处理上,OpenEvolve进化生成的核函数更是将解码速度提升了惊人的106%!

这无疑证明了该核函数在应对特定工作负载时,性能表现出色。

统计分析

综上所述,从统计数据来看,OpenEvolve在特定类型的工作负载上展现出了强大的优化能力,能够挖掘出原本手写代码无法触及的性能潜力。

在20个不同的测试任务中,有7个任务显示出明显的提升,性能增长超过25%,体现了质的飞跃。

显著增益(>25%):7/20个基准

中等增益(5-25%):3/20个基准

性能持平(±5%):4/20个基准

性能回退(6/20个基准):

成功背后的关键:高鲁棒性评估系统

值得注意的是,这一项目的成功离不开OpenEvolve背后的评估系统。

它并非普通的跑分工具,而是为GPU核函数这种高强度代码而特别设计,旨在应对GPU核函数开发过程中面临的各种挑战。

GPU安全特性

命令缓冲区保护:自动检测Metal命令缓冲区的错误并进行恢复。

内存访问违规处理:安全处理GPU内存访问违规。

重试逻辑:为瞬时GPU错误提供指数退避重试机制。

回退机制:当核函数彻底失败时,能够优雅地降级到备用方案。

全面的错误统计

正是由于这套评估体系的高度稳定与强大的鲁棒性,使得OpenEvolve能够大胆探索多种激进的优化方案,而无需担忧“越改越崩”的风险。

值得注意的是,GPU核函数作为一种实验性代码,极易出现错误,哪怕是微小的问题也可能导致整个程序崩溃。

因此,拥有这样一个高鲁棒性的保障机制,才能使系统在不断创新中,逐步提升性能,尝试新的可能性。

技术深度解析

面向GPU核函数的进化架构

此外,该项目的成功离不开OpenEvolve中众多组件的协同作用:

  • 智能代码标记:通过特定标记,确保进化过程仅针对Metal核函数源代码,同时完整保留与MLX框架的集成代码。

  • 富含上下文信息的提示词:为进化过程提供的提示词包含了性能数据、硬件规格和优化方向指南。
  • 多目标评分机制:在性能、正确性和安全性等多个目标之间进行权衡评分。
  • 特定硬件验证:所有测试和优化都针对Apple Silicon硬件进行。

面向GPU优化的提示词工程

与此同时,提供给进化过程的提示词也为OpenEvolve提供了至关重要的上下文信息:

更深远的影响

综上所述,这次对GPU核函数的成功优化,揭示了几个重要的原则:

1. 专业知识的自动化探索与发现

OpenEvolve所发现的优化策略,涵盖了多个需要扎实专业知识的领域:

  • Apple Silicon的架构细节
  • Metal编程语言的精妙之处
  • 注意力算法的各种变体
  • 内存访问模式的优化

这些专业知识并非由人类工程师直接提供,而是在进化探索的过程中自然涌现的。

2. 面向特定硬件的自适应优化

最终的优化方案是专为Apple Silicon硬件设计的,这表明OpenEvolve能够自动发掘并利用特定硬件的特征。

3. 算法层面的创新

进化过程中发现的“两阶段在线Softmax(two-pass online softmax)”算法,实际上是一项新颖的技术贡献,其应用潜力远远超出本次实验的特定场景。

4. 具备投产应用的价值

这些优化并非只停留在理论层面,而是在实际的Transformer推理负载中能够显著提升性能的实用技术,完全具备在生产环境中部署的价值。

核心技术架构升级

自项目启动以来,Sharma对OpenEvolve的核心能力进行了显著的提升:

可复现性(Reproducibility)

通过完全确定性的进化过程,确保科研级别的可复现性。

可视化(Visualization)

提供交互式的进化树视图,支持实时性能监控。

岛屿进化(Island Evolution)

通过种群迁移实现并行进化,以增强解空间的探索能力。

强大的检查点机制

该机制能够自动保存进度,并从中断的地方恢复进化会话。

快速上手

那么,你是否已准备好亲自体验,迎接GPU核函数优化等复杂挑战呢?

只需输入以下代码,便可迅速开始:

若想获取更详尽的内容,建议仔细阅读以下文档。

GPU内核优化手册:
https://github.com/codelion/openevolve/tree/main/examples/mlx_metal_kernel_opt

通用指南:
https://github.com/codelion/openevolve#getting-started

深度探索:如何优化你的机器学习内核

谷歌 AI 自创代码震撼工程师,GPU 算法超越人类 21%!

配置指南:
访问链接获取更多信息:配置参考

附加资料:
了解更多请参考:相关博客

本文由微信公众号“新智元”提供,编辑:Aeneas 好困,经过36氪授权发布。

来源:今日头条
原文标题:AI编程里程碑,谷歌AI自己写代码惊呆工程师,GPU内核算法反超人类21% – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-09发表,共计4584字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!