共计 1379 个字符,预计需要花费 4 分钟才能阅读完成。
根据IT之家11月4日的报道,美国的研究机构Nof1最近开展了一项实际交易测试。他们选取了六款顶尖的人工智能大语言模型(LLM),为每个模型注入1万美元的起始资金,让它们在真实市场中自主进行交易。
今天,第一届Alpha Arena正式落幕,阿里巴巴旗下的通义千问Qwen3-Max在最后阶段表现出色,以22.32%的收益率荣膺投资冠军。
这场“投资竞赛”汇聚了Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5和Grok 4等全球六大顶尖模型。除Qwen和DeepSeek外,其余四款模型均出现亏损,尤其是GPT-5,其亏损幅度超过62%。

Alpha Arena的目标是在一个动态且充满竞争的真实环境中,评估这些模型在“量化交易”领域的表现。
尽管这些AI模型能够执行特定任务,但研究人员指出,在风险管理、交易行为、持仓时长和方向偏好等方面,模型之间存在显著差异。

研究团队强调,此次实验并非旨在“挑选出最强的模型”,而是意在推动AI研究从传统的静态基准测试,转向对“真实世界”和“实时决策”的考察。
实验设计
- 每款模型均有1万美元(IT之家注:现汇率约合71218元人民币)作为初始资金,进行加密货币永续合约交易,涉及资产包括BTC、ETH、SOL、BNB、DOGE和XRP。
- 模型只能依据数值市场数据(如价格、成交量和技术指标)做出交易决策,禁止查阅新闻或时事信息。
- 每个模型的目标是“最大化盈亏(PnL)”,并提供了夏普比率(Sharpe Ratio)作为风险调整后的评估指标。
- 交易行为被简化为:买入(做多)、卖出(做空)、持有以及平仓。所有模型均使用相同的提示词(prompt)和数据接口,且没有特定的微调。

初步结果
报告显示,尽管所有模型在相同的架构下运行,但它们在交易风格、风险偏好、持仓时长和交易频率等方面却存在显著差异。例如,一些模型频繁进行短仓(做空)操作,而另一些几乎不进行此类交易。同时某些模型的持仓时间长、交易频率低,而另一些则交易频繁。
在数据格式的敏感性方面,研究团队发现,如果将提示中的“数据顺序”从“新→旧”改为“旧→新”,能够纠正部分模型因误读数据而导致的错误。
研究还指出,此次测试存在一些局限性:样本数量有限、运行时间较短、模型缺乏历史记录、未具备累积学习的能力。团队表示,下一季将引入更多的控制变量、特性以及更强的统计分析能力。
意义与观察
该项目旨在探讨一个基本问题:“大型语言模型在没有特定微调、仅依靠数值数据输入的情况下,能否在真实交易环境中作为零样本(zero-shot)系统进行交易?”
通过此次实验,Nof1希望推动AI研究向“真实、动态和风险驱动的基准”转变,而不仅仅依赖于静态数据集。
尽管实验尚未得出“哪款模型最强”的结论,但已经揭示出即使是最先进的LLM,在实际交易中依然面临“执行动作”“风险控制”“市场状态理解”和“提示格式敏感性”等多重挑战。
