OpenAI发布首个SWE-1模型,软件开发速度或将提升99%!

共计 3355 个字符,预计需要花费 9 分钟才能阅读完成。

Windsurf推出了其首个先进模型SWE-1,旨在提升软件开发效率高达99%。SWE-1不仅具备编写代码的能力,还能够理解整个软件工程流程并提供协助。其核心创新是“流动感知”系统,这一系统使得AI与用户能够共享操作时间线,从而实现高效的协作。

Windsurf的首次亮相终于来了!

在Cursor迅速走红之后,OpenAI以30亿美元的巨资收购了Windsurf,后者也不甘落后,终于行动起来!

Windsurf首次发布的SWE-1,目标是将软件开发速度提升99%!

SWE-1不仅是一个能够编写代码的模型,它更像是一个理解和参与整个工程过程的协作伙伴。

目前该系列模型包含三个版本:

SWE-1:具备类似Claude 3.5 Sonnet的工具调用推理能力,且运行成本更为经济。推广期间,所有付费用户均可免费使用。

SWE-1-lite:这是一个更小但性能卓越的模型,全面取代Cascade Base,向所有用户(包括免费用户)开放。

SWE-1-mini:更小、更快,专为Windsurf Tab中的低延迟被动体验而设计,适合所有用户。

值得注意的是,SWE-1现在已经在Windsurf平台上推出,并处于免费使用阶段。

AI编程的迅速发展

近年来,“会写代码”的模型取得了显著进步,已经从简单的自动补全发展到能够一次性创建完整的小型应用程序。

然而,这种能力依然面临明显的局限性:

首先,软件开发远不止编写代码。

开发者的工作不仅包括编码,还涉及终端操作、知识获取、产品调试及用户反馈理解等。因此,亟需一种更全面的模型,能够涵盖整个开发流程。

其次,工程过程是跨阶段且持续变化的。

目前主流的基础模型主要基于“代码是否能编译”和“是否通过单元测试”进行训练,而实际上,这只是在更大工程任务中的一小部分。

真正所需的是能够处理“尚未完成的状态”,理解模糊目标的模型。

否则,即便模型能成功编写出可运行的功能,其后续的维护与扩展性也可能会极为糟糕。

因此,单纯提升“写代码”能力并不能真正提高整个工程效率。我们需要打造一个支持完整软件工程流程的模型——称之为SWE模型。

SWE-1的开发历程

SWE-1的构思源自广受欢迎的Windsurf编辑器,构建了全新的数据结构(共享时间线)和训练方法,能够理解未完成的状态、长期任务以及多种交互界面。

其初衷是在资源有限的情况下,通过这种方法开发出性能卓越的模型。

SWE-1是这一目标的首个成功验证成果。

在整体表现上,SWE-1接近行业最前沿的基础模型,在多个维度上超越了所有非前沿模型和开源竞争者。可通过离线评估与线上测试两种方式验证其性能。

离线评估

在评估过程中,将SWE-1与Anthropic系列(Cascade中使用频率最高的模型之一)以及Deepseek、Qwen等主流开源模型进行了对比,主要基于两个基准测试:

会话式SWE任务基准

从正在进行的Cascade会话中截取,任务尚未完成。评估模型如何响应用户的后续请求,评分标准综合考虑帮助程度、效率、准确性以及目标文件编辑的准确率。这项测试注重模型在“人机协作”环境中的表现。

端到端SWE任务基准

自会话开始即评估模型是否能独立解决问题,并通过一系列单元测试。得分依据测试通过率及专家评分。这一测试衡量模型自主完成任务的能力。

Windsurf的SWE-1模型表现优异,未来可期

评估结果显示,SWE-1在各种任务上与顶尖实验室的领先模型相当,明显超越了一些中型和开源的竞争者。尽管尚未达到绝对的领先地位,但其潜力不容小觑。

线上实测(生产实验)

由于Windsurf拥有大量用户,因此采取了盲测实验以评估实际使用中的表现。

在实验中,Windsurf将用户进行分组,使用不同的模型进行观察,且不透露所用模型的类型,以研究用户行为及效果。

Windsurf主要关注两个关键指标:

用户日均代码行数

这个指标反映了Cascade编写的代码行数,以及用户实际接受并保留的代码行数,能有效体现模型的实际帮助程度、响应质量和用户粘性。

OpenAI 发布首个 SWE- 1 模型,软件开发速度或将提升 99%!

Cascade代码贡献比例

该比例表示模型对被Cascade修改的文件所做的代码改动占比,反映了模型的主动性和用户的信任程度。

SWE-1经过专门设计和优化,以适应Cascade场景,因此在这些指标上几乎处于行业领先地位,效果超越了所有非前沿模型。

OpenAI 发布首个 SWE- 1 模型,软件开发速度或将提升 99%!

其他模型的表现分析

在上述图表中,可能引起你注意的是SWE-1-lite,这是一种中型版本,采用与SWE-1相同的训练方法,在非前沿模型中表现卓越,现已替代Cascade Base,向所有用户开放。

此外,Windsurf还推出了SWE-1-mini,它体积更小且运行速度更快,特别适合在像Windsurf Tab这样的高延迟要求的被动预测场景中使用。

需要强调的是,这只是Windsurf的起步阶段。

他们的目标不仅是追赶前沿实验室的水平,更希望超越它们

Windsurf坚信自己具备实现这一目标的动力,并将持续加大投入力度。

流动感知系统(Flow-Aware System)

Windsurf提到SWE-1的设计灵感源于Windsurf编辑器。

其核心在于Windsurf独特的设计理念——流动感知(Flow Awareness)

流动感知究竟是什么?

Windsurf编辑器实现了用户与AI之间的“共识时间线”:用户可以实时看到并干预AI的每一步,而AI也能够理解并跟随用户的操作。

这种“共享时间线”的感知能力,Windsurf称之为Flow Awareness(流动感知),因此也将这种人机协作的体验称为“AI flows”。

流动感知为何如此重要?

因为在短时间内,没有任何模型能够独立完成所有开发任务。

流动感知使得模型与人类之间能够实现自然交接:AI执行一部分,用户进行调整,AI再继续,形成流畅的衔接。

凭借共享时间线,Windsurf可以持续监测当前模型的能力边界,识别出哪些任务需要用户介入,哪些可以完全自动化完成。

这也是SWE-1能够迅速发展到当前水平的关键因素之一。

共享时间线在Windsurf中的演进

构建共享时间线是Windsurf众多功能背后的核心理念:

初代Cascade支持“当你在编辑器中完成内容后输入continue,AI能够继续理解你所做的修改”——这体现了对编辑器的感知。

随后,Windsurf增加了终端输出感知——AI能够理解在执行命令时出现的错误。

Wave 4中引入了“预览”功能——AI开始理解用户所见的前端组件和错误。

Wave 5和Wave 6则增强了对终端命令、剪贴板内容、IDE搜索结果等的感知能力。

这些并非随机的新功能,而是Windsurf构建“最全面软件工程时间线”的重要组成部分。

即使使用的是通用模型,只要Windsurf能够有效记录和利用这些上下文信息,AI的表现将显著提升。

如今,Windsurf推出了自有的SWE系列模型,这一正向反馈机制将真正加速发展:模型将更有效地理解时间线,并参与到更多的环节中。

未来将如何发展?

SWE-1仅仅是一个起点。它是由一支小而专注的团队开发的,并充分利用了Windsurf在产品与基础设施方面的优势,展示了其具备打造接近前沿模型的能力。

展望未来,Windsurf将不断优化SWE系列模型,确保在低成本的基础上提升其性能,使得开发者能够利用Windsurf构建更大、更强的软件项目。

随着SWE-1的发布以及OpenAI对Windsurf的收购,人工智能编程工具正进入一个崭新的时代。

从基础的代码补全到全面的工程协作,人工智能正在深刻地变革软件开发的模式。

对于开发者而言,当前正是一个充满机遇与挑战的时代,如何有效利用这些新工具提升开发效率,成为他们亟需思考的重要课题。

参考资料:

https://windsurf.com/blog/windsurf-wave-9-swe-1

本文摘自微信公众号“新智元”,作者:新智元,36氪经授权发布。

来源:今日头条
原文标题:OpenAI很看好,首个SWE-1模型发布,软件开发或将提速99% – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-12-20发表,共计3355字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!