共计 7933 个字符,预计需要花费 20 分钟才能阅读完成。
文 | 参商,作者 | 西梅汁,编辑 | 星奈
国内大模型发展趋势分析|四月动态
MCP成为共识,AI智能体加速崛起
通用智能体正在由“工具”转变为“智能伙伴”,成为AI大模型实际应用的重要载体。在Manus AI以高融资与估值引发市场热潮后,百度、字节等大型企业迅速跟进:字节推出B端办公产品“扣子空间”,深度融入飞书生态;百度则面向C端用户推出“心响”,通过生活化模板降低用户的使用门槛。尽管两者路径有所不同,但目标一致——将AI智能体嵌入现有生态,提升用户粘性与商业增长。
在这一行业趋势的背景下,MCP作为“万能插座”的技术突破,正在重塑AI智能体产业。大量开发者和企业纷纷将目光聚焦于MCP,视其为推动智能体生态开放的重要力量。一方面,MCP特性使得开发者能够更加自由地构建和创新各类智能体应用,不再受到特定封闭生态的限制,激发整个行业的创造力与活力。另一方面,用户也能更加轻松地获取和使用来自不同开发者及平台的智能体服务,享受丰富多样的智能化体验,进一步促进AI智能体在各个领域的普及应用。
那么,随着MCP浪潮的兴起,AI智能体的发展必将迎来新的高潮。开发者们的创新热情被充分点燃,他们在MCP基础上不断优化和拓展智能体的功能与应用场景,以更好地满足市场与用户需求。同时,MCP的开放性也吸引了更多资源与资本流入,为AI智能体的研发与推广提供了强有力的支持。
在市场竞争的推动下,智能体的性能将不断提升,用户体验也将愈加出色,从而形成良性循环,加速整个AI智能体生态的爆发性增长。
AI暗战:大厂组织架构频繁调整
近期,国内各大企业在AI大模型领域的组织架构调整,反映出行业正从“算力堆砌”转向“效率优化与场景适配”的战略转型。
例如,腾讯将混元大模型研发体系重组为语言与多模态两个部门,强化垂直场景的协同;阿里则开源Qwen3系列模型,全面支持MCP协议,推动模型与支付宝、高德地图等生态工具的深度整合,突显低成本与开源策略的技术普惠性;字节跳动通过合并AI Lab与Seed部门,集中资源突破强化学习与稀疏模型架构,将推理成本降低83%。这些调整表明,企业正在通过技术路径的分化(例如模型轻量化、边缘部署)降低商业化门槛,同时加速AI在多维场景中的渗透。
此外,各大公司通过开源协议与跨行业合作重构生态话语权。例如,百度、阿里等推动的MCP协议标准化接口,打破数据孤岛,吸引开发者共建工具链;腾讯云与比亚迪合作开发企业级知识库,字节的“扣子空间”支持自定义插件接入,百度地图API兼容MCP后,日均处理千万级导航请求,均体现了生态协同的加深。同时,云服务商通过低价策略抢占市场,手机与汽车公司则借助Deepseek实现功能的差异化升级,形成了“技术-场景-商业”的闭环。这种开放的生态不仅降低了同质化风险,还推动了硬件的创新。
面对AI人才争夺的白热化,各大厂商也从规模扩张转向精准布局。字节跳动引入Google DeepMind前高管吴永辉,取消季度考核以支持长期研究;快手成立独立的可灵AI事业部,通过灵活的架构保持视觉模型的竞争力;阿里则将80%的校招岗位倾斜至AI领域,并启动“反选项目”机制打破层级限制。同时,复合型人才的需求激增,迫使企业内部重组,以提升研发与产品化的协同效率。这也在揭示,组织架构的敏捷性与人才质量正成为AI竞争中的核心变量。
一场马拉松,推动人形机器人产业加速发展
不久前,北京亦庄的2025年半程马拉松中人形机器人参赛的事件,虽然因机器人的“翻跟斗”和跑错方向引发网友调侃,但真实反映了行业在现实场景中的技术探索与挑战。这场活动不仅是对机器人续航、稳定性与耐力的测试,更成为具身智能技术落地的试金石。
随着国内大模型技术的迅速进步,多模态与预训练模型的突破为机器人提供了更强大的感知与交互能力,使其在复杂环境中的自主决策与适应性显著提升,而这场马拉松恰是技术迭代与场景验证的关键节点,推动行业从实验室走向真实世界。
目前,国内人形机器人产业正呈现出年轻化与创新驱动的趋势,以宇树科技、智元机器人为代表的初创企业迅速崛起,依托大模型技术优化动作流畅度与环境反馈能力。例如,宇树机器人通过春晚表演与商业落地展示了其技术成熟度,而智元机器人千台量产下线则标志着规模应用的初步尝试。这些进展的背后,是AI大模型与具身智能的深度融合——生成式AI赋予机器人更自然的人机交互能力,多模态模型则增强了其对物理世界的理解与响应,为制造业、服务业等场景的实用化奠定了基础。
尽管人形机器人仍面临技术瓶颈与公众认知偏差的双重挑战,但其发展前景与战略价值不容忽视。当前展示的“马拉松”“跳舞”等场景仅是技术验证的起点,未来需要依靠大模型驱动的持续创新,攻克动作稳定性、能源效率等核心难题。国内政策支持与资本投入加速了产学研的协同,而真实场景的反复测试将推动技术迭代。随着AI技术与机器人硬件的深度融合,人形机器人有望从“科技秀场”走向工业生产线、家庭服务等广泛领域,成为新一轮科技革命的重要载体。
国内主要大模型进展
百度
4月25日,Create2025百度AI开发者大会在武汉召开,大会主题为“模型的世界,应用的天下”,关注大模型技术突破与产业应用落地。百度创始人李彦宏出席并发表题为《模型的世界应用的天下》的演讲,发布了两大模型和多款热门AI应用,强调了应用在AI发展中的核心地位。
具体而言,百度发布了文心大模型4.5 Turbo和深度思考模型X1 Turbo。文心4.5 Turbo在效果和成本上均优于文心4.5,基于此,文心X1升级至X1 Turbo,其性能提升并具备更先进的思维链,问答、创作、逻辑推理、工具调用及多模态能力进一步增强。
据称,这两款新模型的价格仅为DeepSeek的25%。这一价格优势将帮助百度在大模型市场中获得更大的市场份额,尤其是在企业级应用领域。
上线的通用超级智能体产品“心响”APP,核心为“AI任务完成引擎”,已覆盖知识解析、旅游规划、学习办公等十个场景超200个任务类型,未来计划将任务类型扩展至10万种以上。
在数字人领域,百度推出高说服力的数字人,能实时调整表情与动作,应用于电商直播、游戏等领域。同时发布的沧舟OS是全球首个内容领域操作系统,包括Chatfile plus和三大库三器。
从宣布文心一言全面免费和文心大模型4.5开源,到举办Create2025百度AI开发者大会发布文心大模型4.5 Turbo和X1 Turbo两款新模型,以及多款AI应用和扶持计划,百度正在努力找回自己的主场。
阿里
4月29日凌晨,阿里Qwen3发布,引发海外市场热潮,并一举登顶全球最强开源模型。
此次Qwen3开源模型包含8款不同尺寸,包括两款MoE模型:Qwen3-235B-A22B(2350多亿总参数、220多亿激活参数)和Qwen3-30B-A3B(300亿总参数、30亿激活参数);以及六个Dense模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。
Qwen3支持思考模式与非思考模式,能够根据不同任务控制模型的“思考”程度,成为国内首家实现“混合推理”的模型。
4月27日,夸克AI超级框发布全新AI相机,推出“拍照问夸克”功能。基于视觉理解与思考推理的强大模型能力,夸克AI超级框在视觉上创新下一代搜索体验,进一步理解与回答物理世界中的各类问题。作为阿里巴巴AI旗舰应用,夸克AI超级框持续快速迭代,提升超级智能体的多模态能力,打造用户生活、工作、学习的AI超级入口。
4月17日,阿里通义万相“首尾帧生视频模型”开源,该模型参数量为14B,是业界首个百亿参数规模的开源首尾帧视频模型。它能够根据用户指定的开始与结束图片生成一段720p高清视频,此次升级将满足用户更可控、更定制化的视频生成需求。
用户可直接在通义万相官网体验该模型,或在Github、Hugging Face、魔搭社区下载模型进行本地部署和二次开发。
4月14日,阿里云百炼上线业界首个全生命周期MCP(模型连接协议)服务,这是阿里云在AI基础设施领域的重要布局。该服务无需用户管理资源、开发部署和工程运维工作,仅需5分钟即可快速搭建专属MCP Agent,大幅降低AI Agent的开发门槛。
百炼平台预置了MCP广场、MCP管理、MCP调用三大能力,大幅降低Agent开发的门槛和成本,企业级MCP Agent也能在5分钟内搭建完成。
自今年全面押注AI技术以来,阿里巴巴以极快的节奏推出AI产品。从计划发布通义千问3.0,到召开AI势能大会展示AI基础设施与应用成果,再到正式发布并开源新一代通义千问模型Qwen3,阿里巴巴展示了其在AI领域的领导力与开放合作的态度。
DeepSeek
4月30日,DeepSeek在Hugging Face平台发布其最新超大规模数学定理证明模型DeepSeek-Prover-V2-671B,参数量高达6710亿,是前代版本V1.5的近百倍,刷新了开源数学推理模型的体量上限。该模型专注于形式化数学证明任务,适用于自动定理验证、逻辑推理训练、Lean4教学等场景,基于DeepSeek-V3架构,采用混合专家设计,支持超长163K tokens上下文处理。
字节跳动
4月份,字节跳动围绕大模型技术、AI智能设备、组织架构调整以及AI智能体应用等方面展开了一系列举措。
4月18日,字节跳动测试Agent产品“扣子空间”。该产品被定位为“AI实习生”和“领域专家”,用户可调用不同领域的专家Agent协同完成任务。
扣子空间的核心功能是让用户选择擅长各种技能的通用实习生,或行业的领域专家,通过与AI的互动完成工作。用户可以要求扣子为三天的人文旅游行程进行规划,并整理成文档输出,还可设置任务完成后2小时内的限时规则。这一“AI实习生”的定位,为扣子空间在办公自动化领域开辟了广阔的应用前景。
4月17日,字节跳动旗下云和AI服务平台“火山引擎”面向企业市场发布了更强的模型——豆包1.5·深度思考模型,这也是字节跳动旗下AI应用豆包App背后的推理模型首次亮相。同时推出的还有豆包·文生图模型3.0及升级版视觉理解模型。
火山引擎总裁谭待认为,此次发布的深度思考模型是构建智能体的基础,模型必须具备良好的思考、规划与反思能力,并支持多模态,就像人类具备视觉与听觉一样,智能体才能更好地处理复杂任务。
4月16日,字节跳动宣布将AI Lab团队整体并入Seed部门,聚焦文生图模型(如Seedream 3.0)和语言大模型的研发。此次调整旨在优化资源配置,加速AGI(人工通用智能)技术的落地。
这一组织架构调整反映了字节跳动对AI业务的战略重新定位。将AI Lab团队合并入Seed部门,旨在整合技术资源,形成更集中的研发力量,加速关键领域的技术突破。同时,这一调整也表明字节跳动更加注重AI技术的商业化落地,希望通过Seed部门的统筹,推动AI技术在实际业务中的应用与价值实现。
4月12日,《The Information》援引知情人士报道,字节跳动正计划推出自研的AI智能眼镜,并已开始与供应链进行沟通,商讨功能、技术方案、成本控制与上市节奏。这一消息标志着字节跳动正式进军AI智能眼镜市场,将智能眼镜作为其AI生态的重要组成部分。
从AI智能眼镜的研发,到大模型技术的持续迭代,再到AI智能体产品的推出,字节跳动正在构建一个全面的AI技术与应用生态。
腾讯
腾讯在4月份的AI布局展现了其在算力基础设施、模型能力提升、人才战略及组织架构方面的全面投入。
4月29日,腾讯对其混元大模型研发体系进行了全面重组,重点围绕算力、算法和数据三大领域展开,通过优化团队部署与加大研发投入,推动混元大模型的持续发展。调整后,腾讯成立了两个新的部门:大语言模型部和多模态模型部,分别负责探索大语言模型和多模态大模型的前沿技术,持续迭代基础模型,提升模型能力。同时,腾讯将进一步加强大模型数据能力和平台基础设施的建设。
4月23日,腾讯宣布混元3D生成模型全新升级,v2.5版本在建模精细度上大幅提升,总参数量从1B提升至10B,有效面片数增加超10倍,实现超高清的几何细节建模,表面更加平整、边缘更锐利、细节更丰富,有效几何分辨率达到1024,宛如从标清升级至超清画质。
混元3D AI创作引擎全面更新至v2.5模型基础,同时免费生成额度翻倍,提升至每天20次。混元3D生成API也已正式上线腾讯云,面向企业和开发者开放。腾讯混元积极参与开源生态,混元3D 1.0、2.0基础模型及基于2.0模型的加速、多视图和轻量级模型均已开源,Github总star数超1.2万。
4月17日,腾讯宣布启动史上最大就业计划,三年内将新增28000个实习岗位并加大转化录用,2025年将迎来10000名校招实习生,其中六成岗位面向技术人才开放。
腾讯透露,今年开放的校招实习岗位涵盖技术、产品、设计、市场、职能等五大类70余种岗位,包括大模型、研发、算法、市场、策划、运营、销售、美术等多个岗位职能,并加大对人工智能、大数据、云计算、游戏引擎、数字内容等技术类岗位的招聘力度,技术类岗位占比超60%。
腾讯通过“技术架构重组+产品能力升级+人才梯队建设”三维发力,持续巩固AI大模型领域的竞争力。
科大讯飞
4月20日,科大讯飞宣布星火X1在数学、代码、逻辑推理、文本生成等多项通用能力上取得显著提升。其模型参数量虽然比业界同类模型小一个数量级,但性能却更为优越。
星火X1作为业界首个基于全国产算力训练的深度推理大模型,此次升级在数学、代码、逻辑推理、文本生成等通用任务上效果显著提升,尤其在模型参数比业界同类模型小一个数量级的情况下,依然保持了卓越的性能。
据悉,星火X1 API已同步上线讯飞开放平台,面向广大开发者和企业开放服务。
360
4月23日,360旗下纳米AI正式发布“MCP万能工具箱”,该工具箱基于MCP而生,接入超过110款工具,覆盖办公协作、学术、生活服务、搜索引擎、金融、媒体娱乐、数据抓取等多种场景,且工具免费、可一键安装、安全可信。目前,用户可在纳米AI客户端直接调用各类工具,还能用工具创建属于自己的智能体,提升工作效率,便捷生活。
据官方称,纳米AI此次上线的MCP万能工具箱,旨在打造“AI应用基础设施”,在面对频繁出现的AI安全问题时,纳米AI在开发过程中为所有工具进行了安全检测,解决行业普遍面临的MCP服务安全和信任等问题,确保用户能够在安心、安全的环境下使用。
智谱
4月15日,智谱正式向中国证监会北京证监局提交上市辅导备案,辅导机构为中国国际金融股份有限公司(中金公司)。这一举动标志着智谱AI正式启动A股IPO上市进程,成为“大模型六小虎”中首家冲刺上市的企业。
智谱上市辅导工作计划从2025年4月到10月大致持续半年,分为摸底调查、集中整改与申报准备三个阶段。根据安排,智谱计划在今年8月-10月完成IPO辅导,若一切顺利,智谱年内有望迈出IPO申报的第一步。这意味着智谱AI有望成为A股“大模型第一股”。
同日,智谱还发布了新一代开源模型GLM-4-32B-0414系列,包含基座(Chat)、推理、沉思模型权重,分为9B与32B两个尺寸,并遵循宽松的MIT License,完全开源,不限制商用,无需申请。其中,GLM-Z1-32B-0414推理模型在部分任务的表现上,可与参数高达6710亿的DeepSeek-V3/R1相媲美。
4月14日,智谱宣布AutoGLM沉思核心链路的模型和技术正式开源。AutoGLM沉思是一个能够探究开放式问题并根据结果执行操作的自主智能体(AI Agent),其于3月31日在中关村论坛上发布。
AutoGLM沉思的技术演进路径包括:GLM-4基座模型→GLM-Z1推理模型→GLM-Z1-Rumination沉思模型→AutoGLM模型。该模型能够模拟人类的思维过程,完成从数据检索、分析到生成报告,真正推动AI智能体进入“边想边干”的阶段。
商汤
4月10日,在2025商汤技术交流日活动中,商汤重磅推出全新升级的“日日新SenseNova V6”大模型体系,通过多模态长思维链训练、全局记忆与强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。
除了发布日日新V6大模型体系外,商汤科技还推出了商汤大装置SenseCore 2.0全新升级版本。作为最懂大模型的AI基础设施,SenseCore 2.0旨在为企业提供敏捷、灵活、可靠的全栈AI基础设施支持。
为促进大模型技术的落地应用,商汤科技还宣布发放“1亿元代金券”,旨在全栈赋能场景落地,加速AI技术在实际业务中的应用和推广。这一举措将为合作伙伴和开发者提供更实质性的支持,共同构建繁荣的AI生态系统。
月之暗面
4月16日,月之暗面Kimi社区功能开始内测,预计本月底正式上线。该社区功能由AI抓取热点新闻生成内容,正在邀请频道号入住。这一举措旨在打造一个AI加持的资讯聚合体,而非简单模仿小红书等现有平台。
Kimi社区功能的推出是月之暗面在用户体验上的最新尝试,旨在提供更丰富、更互动的内容体验。通过AI技术赋能内容创作与分发,月之暗面希望打造一个具有差异化竞争优势的内容平台。
值得注意的是,Kimi社区功能与之前报道的内容社区产品可能存在关联,或者是同一产品的不同阶段。无论是社区功能还是内容社区产品,都反映了月之暗面在产品创新方面的积极探索,以及对用户需求的深刻理解。
4月26日,Kimi发布了新的开源项目——一个全新的通用音频基础模型Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的(SOTA)性能。
Kimi-Audio模型的发布是月之暗面开源战略的重要组成部分。此前,月之暗面已经开源了视觉语言模型Kimi-VL与Kimi-VL-Thinking,这两款模型在保持参数规模轻量的同时,展现出极强的性能。开源策略不仅提升了月之暗面的技术影响力,也为AI行业的发展做出了贡献。
阶跃星辰
4月27日,阶跃星辰正式发布并开源图像编辑大模型Step1X-Edit,性能达到开源SOTA。该模型总参数量为19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持和高精度区域控制三项关键能力;支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
一句话总结:Step1X-Edit不仅能“改图”,更能“听得懂、改得准、保得住”。
目前该功能已上线阶跃AI官网和阶跃AI App。
生数科技
4月22日,生数科技最新上线的全新Vidu Q1视频大模型,已在多个权威文生视频、图生视频基准测试榜单中位列第一。该模型支持生成1080p分辨率5秒视频,生成效果清晰稳定,现已在网页端(Vidu.cn)和手机端上线。相比2.0版本,Vidu Q1进一步提升了语义理解、画质、动作、美学、逼真和丝滑程度,首尾帧衔接更加流畅,用户上传两张图便可生成自然运镜。
4月27日,清华系的智谱AI与生数科技宣布达成重大战略合作,共同推进国产大模型的技术创新与产业落地。作为两家清华系明星AI企业,智谱AI和生数科技将基于各自在大语言模型和多模态生成模型的技术积累和优势,在联合研发、产品联动、解决方案整合及行业协同等多个领域强强联合。