共计 5851 个字符,预计需要花费 15 分钟才能阅读完成。
机器之心报道
作者:泽南、小舟
百度文心迎来了 Turbo 时代的快速发展。
近来,公众对大模型的“考试”热情高涨。
无论是在机器学习中使用的基准测试,还是人类的高考题,技术的进步都在不断被量化。在各类评测中表现出色的人工智能,迅速吸引了人们的关注与热捧。
然而,在实际应用的环境中,并不存在统一的标准答案,AI 往往会面临许多未曾预料的挑战。此外,大模型的实际应用效果也引发了关于其实用性的深思。对于这些技术不断进步的 AI 而言,真实的落地效果才是评估其能力的关键标准。
在云南澜沧县,基于文心智能体平台开发的“农民院士智能体”正在帮助当地农民在朱有勇院士的指导下,开展旱地农业。

此外,新的智能代码助手文心快码也在迅速普及,已有 80% 的百度工程师深度使用,代码采纳率高达 46%。

甚至古老的甲骨文也被 AI 赋予了新的生命,能够与我们进行对话,点击甲骨文还可以看到大模型生成的释义。

这些成果均是在百度 WAVE SUMMIT 深度学习开发者大会上展示的最新技术,百度正全力以赴在“实用性”这条道路上不断前进。
文心大模型迎来 Turbo 时代
两个月前,文心大模型 4.0 工具版刚发布,而现在又推出了 4.0 Turbo 版本。
昨天,文心大模型的最新 4.0 Turbo 版正式上线。基于今年 4 月推出的文心大模型 4.0,该版本实现了进一步提升。 新版本在速度与效果上都有显著提升,目前文心一言的网页版和 APP 也相继上线,供开发者使用的 API 同样已上线。

让我们来体验一下 4.0 Turbo 与 4.0 的速度对比:

虽然输出的内容质量相近,但在速度方面差异非常显著,Turbo 版本的反应极为迅速。
我们第一时间对网页上的 Turbo 版本进行了测试,发现其能够迅速捕捉到近期新闻,并生成回答的速度远超我们的阅读速度,整理出的答案逻辑也非常清晰,最后还附上了引用链接。

得益于新一代深度学习平台飞桨,4.0 Turbo 在技术底座上得到了强化,百度不仅扩展了大模型训练数据的体量,还不断优化数据的分布和质量,以便于持续迭代训练算法。在此基础上,有监督的精调、人类反馈的强化学习以及提示词工程等调优技术也不断进步;文心大模型独有的知识增强、检索增强和对话增强技术也得到了优化。
文心 4.0 Turbo 在智能体能力上也实现了提升。在强大的基础模型之上,进一步进行思考增强训练,提升了智能体的理解、规划、反思和进化能力。如今大模型的 Agent 能够进行可靠的执行、自我进化,并在一定程度上实现思考过程的透明化。借助智能体,AI 能够像人类一样思考与行动,独立调用工具完成复杂任务,还能在环境中持续学习和自主进化。
目前,文心大模型系列已经涵盖文心轻量级、文心 3.5、文心 4.0 及文心 4.0 Turbo 等多种不同性能的模型,以及大模型智能体技术,面向开发者,覆盖了大部分应用场景。
其中,文心轻量级模型适合解决一些特定场景的问题,具备优秀的性能与成本表现;文心 3.5 则兼具良好的通用性,适合日常信息处理和文本生成;文心 4.0 模型规模更大,能力更强,拥有更卓越的理解、逻辑推理能力和丰富的知识,能够提供专业且深入的支持;文心 4.0 工具版基于智能体技术,能够综合运用多种工具和数据,按需完成复杂任务。
新发布的文心大模型 4.0 Turbo 不仅实现了出色的效果,速度也更快。
大模型能力不再仅限于代码之上
应用落地是大模型发展的趋势,通过不断的实践,大模型能够找到技术进步的新方向。
在 WAVE SUMMIT 上,我们看到大模型的能力不再仅仅停留在代码层面,而是以“农民院士智能体”和“体育大模型”等接地气的方式,成为各行业的有用工具,在实际应用中创造出前所未有的价值。
在云南澜沧拉祜族自治县,由于土地贫瘠和自然灾害频繁,水稻种植曾是一项极具挑战的工作。2015 年,中国工程院的朱有勇院士及其团队走进山区开展科技扶贫,教授当地农民关于旱地优质稻等作物的种植知识。在朱院士的努力下,当地农民掌握了相关的种植技术,作物种植水平得到了显著提升。
然而,种植过程中可能会遇到许多具体的农业问题,如果能够随时向朱院士咨询种植方面的疑问,当地农民在处理旱地优质稻等作物的种植时将会更加得心应手。
在人工智能时代,这个问题由 AI 来解决。
在 WAVE SUMMIT 上,百度展示了与中国工程院朱有勇院士及其团队共同打造的首个农业智能体——“农民院士智能体”。该智能体基于文心智能体平台开发,学习了朱院士的研究成果及相关农业知识,农民可以随时向智能体提问农业生产问题,获得专业而详尽的解答。

这个智能体在网页端、App 及小度智能设备上均可使用。我们发现,在文心一言 APP 中,打开“农民院士智能体”功能后,可以就作物种植的具体问题进行咨询,并获得专业的回答:

当地村民评价道:“朱院士就像在我手机里,和他本人一模一样”,“我们问什么,他就答什么,就好像他坐在我旁边一样”。

“农民院士智能体”已经成为当地村民有力的知识助手。这让我们看到了大模型在专业领域的实际应用价值,赋能各行各业的愿景在此得到了具体体现。可以预见,掌握专业知识的智能体将成为合格的知识助手。
AI 同样可以帮助运动员提升成绩。百度与上海体育大学合作探索体育科技,基于先进的 AI 大模型,整合大量体育专业知识,构建了“上体体育大模型”,实现了在多个运动项目上的辅助训练、战术分析、实时反馈、数据采集、姿态分析以及媒体传播等多项功能。
这样的 AI 应用已经覆盖了游泳、田径、体操、蹦床、攀岩等多个国家队,支持了重大赛事的训练准备。一些参加巴黎奥运会的运动员便获得了 AI 的帮助。此外,体育大模型也已经在全民健身领域发挥了积极作用。
在许多企业仍在进行基准测试和性能排名时,百度却展示了更具说服力的成果: 文心一言的用户总数已突破 3 亿,日调用量也达到 5 亿,过去六个月内用户的日均提问数量增长了 78%,而提问的平均长度则提升了 89%。
随着文心一言的使用,公众对大模型产品的兴趣愈发浓厚:在某些场景的需求得到满足后,用户迅速寻找更多的应用场景;从最初的简单问答,逐渐演变为设定复杂规则、提供示例,进而要求大模型完成更具挑战性的任务。

在开发者方面,文心大模型的星河共创计划已经推出了 55 万个 AI 原生应用,超过 1000 种大模型工具,并整合了超过 1000B 的高质量稀疏数据。
当然,它所带来的价值也直接为工程师提供了支持,尤其是在编程方面。
开发速度在加快
百度的智能代码助手 Comate 现已更名为「文心快码」。作为一个智能集成开发环境插件,它支持 19 种主流 IDE 和 100 多种编程语言。

百度副总裁陈洋指出,得益于大模型的支持,文心快码能够续写已有代码,利用自然语言指令生成新代码,还能根据注释进行代码编写,并在代码的基础上生成相应注释,或者利用私有知识进行模型的增强和精细调整。
最新发布的文心快码 2.5 版本实现了对整个开发流程的全面覆盖,并在知识增强和企业级安全方面有了显著提升。

快码这个名字, 其「快」体现在三个方面:开发速度、业务迭代速度和企业落地速度。
那么,开发速度为何提升如此显著?这得益于 AI 对研发知识的深刻理解与应用。数百位技术专家的经验与十亿级的研发知识融合,最终形成了一个开发超级助手,其代码生成的准确率高达 80%。
据悉,百度内部使用文心快码后,工程师在单位时间内提交的代码数量提升了 35%。
更进一步,整个开发流程也得到了加速。文心快码不仅可以在需求提出时帮助思考,在研发时协助编码,测试与发布时进行修改,甚至还可以按照企业内部规范提示产品经理,并持续检测代码中的安全漏洞。在百度内部,文心快码落地后,业务迭代速度整体提升了 14%。
最后,这一整套工具能够广泛推广到更多企业中。文心代码能够提供一整套最佳业务实践和流程。百度的上万名工程师中,有 80% 在深入使用文心快码,成为国内使用智能代码助手规模最大的团队。此外,喜马拉雅在一个季度内实现了全面落地,代码采纳率高达 44%。
如此高的代码采纳率,甚至超过了一些人类程序员。据介绍,文心快码的客户还有三菱电梯、软通动力、吉利汽车等,覆盖了超过万家企业,涵盖了各行各业。
迎风而起的飞桨
人们普遍知道,文心大模型能够迅速进化,得益于百度在芯片到框架的全方位布局,支撑着模型与应用的整体架构。其中,飞桨深度学习平台的联合优化发挥了重要作用。
在 WAVE SUMMIT 上,百度发布了新一代 AI 框架——飞桨框架 3.0,目前已向开发者开放。
在新版设计中,百度充分考虑了大模型发展的趋势以及异构多芯片的硬件体系。新版本在使用时可以实现大模型训练与推理的一体化能力,强调大模型训练中的自动并行能力,并完成了编译器的自动优化,简化了开发调优的流程,并实现了多硬件适配。

为了实现上述技术优势,首先从训练与推理一体化的需求出发,底层设计了高扩展中间表示 PIR,并构建了高效灵活的 Pass 机制,使开发成本降低了 58%,同时飞桨模型库中 84% 的模型推理加速超过 10%。
众所周知,大模型混合并行开发十分复杂,涉及混合并行、通信与调度策略。为了简化这一过程,百度研发了自动并行能力,以更好地封装代码开发,进行全局的静态优化,进一步提升性能上限。借助飞桨的动静统一自动并行能力,不同参数模型的训练性能均可提高,提升幅度可达 20%。
对于 AI 框架而言,性能优化是其重要属性。结合编译器的设计,飞桨能够显著简化优化过程。在前端做好相应的编译器表示,后端把前端的表示转换为底层表示,以对接硬件,自动优化代码。通过编译器实现算子的自动融合,执行速度较算子调用提升 4 倍,较手动融合提升 14%。通过一系列编译性能的优化,在生成式模型的推理上,无论是语言模型还是扩散模型,推理性能都有明显提升,增幅可达 30%。
在大模型设计中,训练与推理的一体化极为重要。飞桨能够自动将动态图转化为静态图,实现训练与推理的无缝衔接。通过调用高性能算子,RLHF 的训练加速可达 2.1 倍。此外,量化过程也可复用分布式策略,使量化效率提升 3.8 倍。
通过 30 多个接口,飞桨全面支持大模型的训练和推理。硬件厂商仅需对基础算子进行适配即可接入,极大减少了工作量。此外,飞桨在软硬件协同优化方面也下了功夫,实现了更好的协同性能优化。

飞桨平台对大模型至关重要,很多文心大模型的能力都需与飞桨联合优化才能实现。这就好比船与桨的关系。
在基础计算优化方面,飞桨在模型训练中实现了块状稀疏掩码注意力计算、存算最优平衡的精细化重计算,在分布式扩展中实现了灵活批次虚拟流水并行与多模型结构混合并行。此外,还进行了硬件通信的联合优化。
在推理方面,通过高性能分段矩阵与多流加速计算,使得 LoRA 实现集约化部署,从而获得极致的推理效率。在相同精度下,LoRA 的推理性能提升了 33.3%。经过量化后,性能提升达 113.3%,同时支持的 LoRA 数量增至 6 倍。
飞桨也实现了异构多芯片的混合部署,能够进行动态调度,将不同请求分配到不同性能的芯片上,以最大化资源利用效率。
以下是一组数字:1465 万开发者、37 万家企事业单位、95 万个模型,这就是飞桨文心构建的生态的缩影。

从算力、框架、模型到实际应用,这一国内首个大模型全链路生态支持体系在全球大模型竞赛中不断发挥着重要作用。别人努力的终点,正是百度的起点。
通用人工智能的曙光已现
2024 年即将过半,「百模大战」已经持续了一年多,行业发展到何种境地?未来又将朝哪个方向发展?
在昨日的大会上, 百度的首席技术官、深度学习技术及应用国家工程研究中心主任王海峰从两个角度解析了通用人工智能(AGI)的发展:技术的通用性与能力的全面性。

首先,我们关注技术的通用性。人工智能技术经历了数十年的演变,进入大模型时代后,单一的架构和技术能够解决多种问题。除了算法,模型的通用性和统一性也得到了提升。不同的任务、语言、场景及各种模态均可通过相同的基础模型加以解决。
人工智能技术的演变与挑战:从通用性到应用落地
以自然语言处理为例,曾经的研究领域包括分词、句法分析、语义匹配、机器翻译、问答系统和对话等多个子方向,而如今,单一的庞大语言模型几乎能够应对绝大多数的任务。在语言处理方面,这些模型不仅解决了单一语言的问题,还具备跨语言的能力。它们不仅学习了人类的自然语言,还掌握了人工定义的形式语言,成功构建了从思考到执行的桥梁。此外,这些大模型还能够实现多模态的统一建模,为各行业的应用提供广泛支持。总体来看,人工智能技术的通用性正在不断增强。
接下来,我们关注能力的全面性。理解、生成、逻辑推理和记忆是人工智能的四大基本能力,而创作、解题、编程、规划和决策等典型能力,基本上都是这四项基础能力的综合运用。随着这四项能力的不断提升,人工智能越发接近通用智能的理想状态。
然而,想要充分利用这些通用技术,实现全面的能力,并非易事,并不是每个人都能驾驭。
由于大模型对人才、计算能力和数据的高要求,在激烈的竞争环境中,技术竞赛的格局日益清晰。从初创企业到各大科技公司,领先者已经在竞争中脱颖而出,取得了明显的优势。
更进一步,真正构建完善的人工智能技术体系的企业,必须直面实际应用场景,开发出能够有效提升生产力的应用程序。相比于技术的发展,技术的落地面临的挑战可能更加复杂。
两周前,微软宣布即将停用 Copilot GPTs 的消息引起了业内的广泛关注:这一拥有大量用户的技术应用仅仅开放三个月,就因“公司战略调整”而被迫退役。究其原因,场景应用不明确以及缺乏商业回报等因素都是可能的原因。
最近,有媒体报道称,OpenAI 通过销售 GPT- 4 等大模型的能力获得的收入,已经超越了其合作伙伴微软在同类业务中的收入表现。
无论大模型技术多么先进,每个 token 的成本再如何降低,即使是来自顶尖科技巨头的 AI 应用,如果无法有效融入应用场景,仍将面临快速被淘汰的风险。即便是像微软这样的公司,也在这一过程中遇到了挑战。
而拥抱应用场景,或许正是国内科技企业的强项。
通过观察文心一言的持续发展和实际落地,我们可以说,2019 年首届 Wave Summit 上提到的“人工智能进入工业化大生产阶段”正在逐步成为现实。随着大模型进入产业的爆发期,通用人工智能的到来正在加速进行。


文心大模型的速度提升太给力了,有效提高工作效率!