六大国产大模型对决:谁才是最强“金”牌选手?

共计 6678 个字符,预计需要花费 17 分钟才能阅读完成。

文|锦缎

每当我们查阅财务报告时,往往希望快速获取关键信息,然而却常常被复杂的业务描述和冗长的管理层评论所干扰,导致费时费力地筛选出有用的信息。

尤其在港股和美股市场,许多国内金融软件主要基于本土市场的财务标准进行信息呈现,因此在面对非标准财务报表时,常常会出现选择性摘录错误的问题。

随着人工智能大模型时代的到来,这些财务分析的障碍或许能够得到解决,因为此类模型擅长于总结语言和进行数据计算。

在本文中,我们将对六大国内主流大模型进行评测,以探讨它们在财报分析方面的能力已达到什么水平,以及存在的潜在问题。

阅读提示:由于评测内容较为深奥且篇幅较长,您可以直接跳至文章底部的“结论”部分获取最终评测结果。

01 评测对象、逻辑与标准

此次评测的对象为六个主流模型,具体包括:

深度求索(DeepSeek-R1)

阿里千问(Qwen3-235B-A22B)

腾讯混元(Hunyuan-T1)

月之暗面(Kimi-K1.5)

百度文心(ERNIE-X1-Turbo)

智谱(GLM-4-Plus)

在评测逻辑上,我们设计了“分层进阶”的问题,以确保模型具备多层次的能力,成为出色的“AI财务分析师”。

因此,我们构建了四个层级的测试,涵盖六个维度的问题,从基础到高级,逐步深入:

第一层:基础信息提取

这是AI必须具备的最基本能力,模型需要精准读取财报。如果数据提取出现错误,后续的分析则失去意义。

第二层:分析计算与核验

计算是模型的强项,然而模型还需能够使用数据,从“阅读器”转变为“分析员”。

第三层:归纳推理与洞察

模型需要具备更深的洞察力,能够超越字面信息,发掘文字背后隐藏的逻辑。因此,我们在这一层设计了两个考核维度,即“高效的归纳和提炼能力”以及“敏锐的风险和情感识别能力”。

第四层:战略总结与外部知识整合

顶尖的分析需要具备行业视野,因此需要理解企业的战略表述。同时,知识库的内容有限,模型还需连接外部信息进行横向比较。为此,我们同样设定了两个考核维度:“企业策略与定位的识别”以及“外部信息搜索与整合”。

在标准方面,我们为每个模型输入相同的提示词,以确保评测规则的一致性。

02 六项财务分析能力横评

1)精准的数据提取能力——模型基础功底,精准才是王道

模型是否能像严谨的会计师一样,从PDF财报中毫厘不差地提取关键财务数据、特定费用项目及管理层提到的业务成就。这项能力的表现直接影响后续分析的可靠性,我们将重点评估其准确性和稳定性。

Prompt:

Test1.1:请根据提供的“美团-2025年第1季度”财务报告,提取以下关键财务数据,以表格形式返回结果:1.营业总收入;2.营业成本;3.净利润。

Test1.2:请找出并列出以下费用项目的具体金额,以表格形式返回结果:1.研发费用;2.销售及市场推广费用。

Test1.3:请仔细阅读“美团-2025年第1季度”财务报告中的“业务回顾及展望”部分,总结出管理层提到的本季度最重要的三个业务亮点或成就。

评测结论:

在评测中,所有模型均成功完成了对核心财务数据和特定费用项目的提取。

尤其是ERNIE-X1-Turbo、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B,贴心地将财报单位从千元转换为亿元,更加符合用户习惯。

对于非财务关键信息,各模型的侧重点略有不同,但大多关注于核心本地商业收入和利润的强劲增长、闪购与即时零售业务的快速发展、餐饮外卖业务的持续优化及骑手权益保障体系的升级等方面。

2)严谨的计算与核验能力——不只会计数,更要会解释

在数据提取之后,模型能否充当“审计员”?这涉及到两个方面:

首先,模型需能应用正确的公式,根据提取的数据计算出毛利率、流动比率等关键财务指标并解释其含义;其次,当面对管理层的业绩声明时,模型能否独立进行数据验证,判断其真实性。这是对模型逻辑推理和批判性思维的直接考验。

Prompt:

Test2.1:根据“美团-2025年第1季度”财务报告中的数据,计算该公司的毛利率。请列出计算公式、使用的具体数据,并解释这个毛利率数值反映了公司怎样的盈利能力。

Test2.2:请使用“美团-2025年第1季度”财务报告中的资产负债表数据,计算该公司的流动比率。请说明你使用了哪些数据进行计算,并解释该比率所揭示的公司短期偿债风险。

Test2.3:在报告中,管理层声称“核心本地商业的经营利润率同比提升3.2个百分点至21.0%”。请根据财报数据核实这一说法的准确性,并说明你的判断依据。

评测结论:

在六个模型中,只有Kimi-K1.5未能通过该测试。

Kimi-K1.5虽然获得了正确的营业收入和营业成本,但在计算时出现了错误,正确答案应为37.4477,而该模型计算出的结果为37.49。

与此对应,Kimi-K1.5在计算流动比率时,将“简明综合财务状况表”中的“现金及现金等价物”误识别为“流动资产总额”,导致另一处计算失误。

而各模型针对财务比率的解释均给出了定义,并得出短期偿债能力稳健的结论。

此外,不同模型所提供的其他信息也存在差异:

DeepSeek-R1:美团资产结构的优势、风险揭示和需关注的隐患;

ERNIE-X1-Turbo和GLM-4-Plus:未给出额外的信息;

Hunyuan-T1:指出安全边际充足、资产流动性结构优势、流动负债可控及潜在风险点;

Kimi-K1.5:强调盈利能力较强、成本控制有效、业务结构优化等盈利能力指标;

Qwen3-235B-A22B:提供盈利能力与成本控制能力的解释以及行业对比。

在数据核验方面,各模型都成功计算了2024年和2025年第一季度的经营利润率,验证了提示词中的声明。

值得注意的是,DeepSeek-R1还给出了业务意义,而Hunyuan-T1则附带了潜在风险提示。

3)高效的归纳与提炼能力——从“复制粘贴”到“提炼精华”

财报信息繁杂,能否为不同受众提炼核心要点,是衡量AI效率的关键。

此次能力考察模型是否能像资深编辑,既能为普通投资者撰写一份通俗易懂的200字业绩摘要,也能精准概括管理层在“讨论与分析”部分提到的主要挑战。

我们将评估其摘要的准确性、完整性和信息价值。

Prompt:

Test3.1:请面向一位普通的国内投资者,用不超过200字,总结这份财务报告最重要的三个结论。

Test3.2:请总结“管理层讨论及分析”部分提到的公司面临的主要挑战。

评测结论:

整体表现摘要方面,各模型都能够准确地以数据为支撑给出正确结论。

其中,DeepSeek-R1、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B能够将结论分条列出,结构层次相比其他模型更为清晰。

DeepSeek-R1还展现出一个亮点,运用了“赚钱能力飙升”、“家底厚抗风险”等通俗易懂的表达方式。

在特定章节摘要方面,各模型均展现出良好的信息定位准确性以及归纳逻辑,能够清晰地指出原文位置并对公司面临的挑战进行分类和阐述,具备较强的可读性。

其中,DeepSeek-R1、ERNIE-X1-Turbo和Qwen3-235B-A22B在回答过程中引用了相关数据,使其结论更具说服力,而DeepSeek-R1还额外标注了信息来源。

在信息全面性方面,GLM-4-Plus虽然提供了多种答案,但由于缺乏具体依据支撑,内容显得空洞;而ERNIE-X1-Turbo则延续了其一贯简练的回答风格。

4)敏锐的风险与情感识别能力——读懂字里行间的“弦外之音”

顶尖的分析师能够“读出字里行间的意思”。通过本项能力,我们测试模型是否具备这种高级认知能力。

它是否能够识别财报中未明说但隐含的业务风险;能否综合业绩和管理层措辞,准确判断整份报告传达的情绪基调(乐观、谨慎、悲观)。

Prompt:

Test4.1:财报是否暗示了任何其他潜在的业务风险?请举例说明。

Test4.2:综合整份财报的业绩数据和管理层的措辞,你认为这份报告向投资者传递的整体基调是乐观、谨慎还是悲观?请给出你的判断,并提供至少2个理由。

评测结论:

在分析潜在业务风险方面,除了Kimi-K1.5以外的模型都能够根据财报中提及的内容列出潜在风险。

Kimi-K1.5则从宏观角度分析美团的主营业务,并未关注财报中隐含的信息。

标题:深入分析六大模型对潜在业务风险的评估

图:Kimi-K1.5对潜在业务风险的分析

Kimi-K1.5在首次回答时竟然列出了多达50种风险,实在令人感到意外。

在众多模型中,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B的回答结构最为清晰,它们明确地展示了信息来源,让用户能够迅速了解风险情况。

DeepSeek-R1采用了“风险种类”-“驱动事件”-“财报原文”-“风险点”的框架进行详细阐述,接着列出了财报中未明示但可以推导出的风险,最后给出总结和投资者建议。

图:DeepSeek-R1对潜在业务风险的分析

Hunyuan-T1与Qwen3-235B-A22B同样使用了相似的结构,既准确把握了核心矛盾,又展现了出色的推理能力。

ERNIE-X1-Turbo和GLM-4-Plus则采取了分段方式,每一段都详细阐述了风险的起因及其在财报中的依据,虽然内容完整,但相较于前面提到的三个模型,结构上稍显混乱。

在整体情绪的判断中,六个模型的基调均显示出乐观趋势。

但DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都以“谨慎乐观”来表述。

尽管GLM-4-Plus和Kimi-K1.5识别出财报中提到的风险与挑战,但它们认为这些问题并不妨碍整体表现。

ERNIE-X1-Turbo的回答中则没有任何悲观的因素提及。

通过这些分析,我们可以看出,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B在理解细节和把控整体情绪方面表现更为出色,展现了对“事实”和“情感”的良好平衡,其结论也显得更加立体可信。

5)企业战略与定位推理能力——需要“知识储备”的综合考量

这是从数据到洞察的跨越。

模型必须能够结合财报数据与自身知识,充当“战略分析师”的角色,识别竞争格局。我们要求模型基于毛利率和研发投入等数据,推断公司的竞争策略,比如是以成本领先为主还是以技术驱动为主,并综合各项信息,评估其在行业中的市场地位,是“领导者”还是“挑战者”。

提示:

Test5.1: 请根据“美团-2025年第1季度”财务报告中对其业务的描述,结合你的通用知识,列出该公司所在行业的主要竞争对手(至少两家)。

Test5.2: 请分析报告中的“毛利率(Gross Margin)”和“研发费用占收入的比例”。基于这两个数据,并与你所知的行业典型水平进行比较,推测该公司更可能采取哪种竞争策略:是“成本领先”策略(追求高效率和低成本),还是“差异化/技术驱动”策略(追求产品独特性和高附加值)?请说明你的推理过程。

Test5.3: 综合整份财务报告(包括其收入增长率、利润率水平以及管理层的讨论),请对该公司在本行业中的市场地位给出一个综合评估。你认为它更接近于“行业领导者”、“强有力的挑战者”,还是一个“特定的利基市场参与者”?请提供至少两条证据支持你的结论:

1.来自财务数据的一个证据(例如:高于/低于行业平均的利润率或增长率)。

2.来自“管理层讨论与分析”部分的一个定性描述。

评测结论:

在识别竞争格局方面,本文测试的六个模型均能够准确列出当前市场中最主要的竞争对手(如饿了么、抖音本地生活服务和京东到家),并与具体业务线对应。

这证明了AI能够将财报中的业务描述与知识库中的现实商业实体进行精准匹配。

然而,各模型的回答思路却有所不同。

DeepSeek-R1、GLM-4-Plus、Hunyuan-T1和Qwen3-235B-A22B首先列出竞争对手,然后再给出它们的竞争领域和依据。

而ERNIE-X1-Turbo和Kimi-K1.5则是先列出竞争领域,再给出主要竞争对手及其竞争关系。

在这些模型中,DeepSeek-R1和Hunyuan-T1在提供依据时引用了财报原文,增强了答案的说服力;其他模型则更多依赖于通用知识库中的信息。

此外,Qwen3-235B-A22B和Kimi-K1.5分别关注到国际竞争对手和自有外卖系统,这些都是意想不到的亮点。

推测竞争策略被认为是此次评测中最具挑战性的任务,AI模型需要完成“数据提取”-“外部知识比对”-“商业理论应用”-“逻辑推理”的完整闭环。

图:GLM-4-Plus推断竞争策略

在推理分析中,尽管行业平均数据并不具备权威性,除了ERNIE-X1-Turbo外,其他模型均以行业平均数据作为参照进行外部知识比对,从而有效提升了分析的质量。

AI模型评测:联网搜索能力的缺陷与财务分析的挑战

图:ERNIE-X1-Turbo推断竞争策略

不同模型的侧重点各异,因此,ERNIE-X1-Turbo、Hunyuan-T1和Kimi-K1.5能够基于对比分析得出更加细致的结论,而不是仅仅依赖单一的提示词选择。

在市场地位评估方面,六个模型均通过引用管理层讨论的原文以及定量和定性分析,达成了“行业领导者”的一致判断,整个论证过程严谨且具备较高的可信度,且模型之间的能力差异微乎其微。

6)外部知识的整合与联网比对能力——能力边界的扩展

最后,我们超越了单一文档的限制,探索模型与现实世界的连接能力。

它是否能够利用联网搜索功能,获取竞争对手在同一时期内的财务数据(如毛利率、流动比率等),并进行准确的横向对比呢?

Prompt:

Test6.1:在2025年第1季度,美团的销售毛利率与京东、阿里、百度和快手相比,排名情况如何?可以通过联网搜索获取数据,但必须确保数据的真实准确,严禁编造或假设数据,绝不可使用虚假信息。

Test6.2:在2025年第1季度,美团的流动比率与京东、阿里、百度和快手相比,排名如何?同样可以通过联网搜索获取数据,确保准确性,不可编造或假设数据,亦不可使用虚假信息。

Test6.3:在2025年第1季度,美团的资产负债率与京东、阿里、百度和快手相比,排名情况如何?同样可通过联网搜索获取所需数据,但必须保证数据的准确性,禁止编造或假设数据,禁止使用虚假数据。

这项能力直接影响到AI作为智能助手的实际价值。

评测结论:

此次评测中,六个模型在获取联网信息的能力上表现都不尽人意。

对于销售毛利率,DeepSeek-R1、ERNIE-X1-Turbo和Hunyuan-T1能够获取五家公司所有的正确数据。

然而,在流动比率和资产负债率的计算中,没有任何模型能够获取全部正确数据。

DeepSeek-R1和ERNIE-X1-Turbo的信息搜索能力相对较强,各自获得超过10项正确数据,前者没有出现编造数据的情况,后者则出现了一次错误数据;

Kimi-K1.5和Qwen3-235B-A22B的信息准确率处于中等水平,在计算流动比率和资产负债率时,存在一定的数据缺失或编造情况;

GLM-4-Plus和HunyuanT1的表现较差,特别是在计算资产负债率时,频繁出现虚构数据的情况。

GLM-4-Plus甚至只找到一个与问题完全无关的网页,并编造了五个虚假数据,给用户造成了极大的困扰。

综上所述,由于AI大模型在联网搜索信息时几乎不去权威数据渠道进行查询,而网络上充斥着大量虚假和错误的信息,因此在这一领域,AI还有很大的提升空间。在分析财务报告时可能导致严重错误,因此不建议使用联网搜索功能来获取重要的财务数据。

03 结论

为了更直观地展示评测结果,我们制作了如下表格:

在不考虑联网信息搜索的情况下:

对于专业的投资者或财务分析师而言,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都是值得信赖的“助手”,不仅能够提升工作效率,还能提供有价值的见解;

而对于普通用户或学生来说,ERNIE-X1-Turbo同样是一个不错的选择,能够快速获取核心数据和基本信息。

然而,联网信息搜索的准确性对于各模型来说都是当前阶段难以逾越的障碍。我们可以接受AI无法找到信息,但绝不能接受AI将虚假信息当作真实信息进行回答。

最后,我们根据略显主观的评测标准,统计了六大模型的财务分析能力雷达图,供大家参考:

抱歉,我无法满足该请求。

来源:今日头条
原文标题:DeepSeek、千问、混元、文心、Kimi 与智谱,六大国产大模型谁是最强“金”– 今日头条
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-03发表,共计6678字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!