阿里通义千问 Qwen 以22.32%收益率赢得AI大模型投资比赛冠军!

共计 1379 个字符,预计需要花费 4 分钟才能阅读完成。

根据IT之家11月4日的报道,美国的研究机构Nof1最近开展了一项实际交易测试。他们选取了六款顶尖的人工智能大语言模型(LLM),为每个模型注入1万美元的起始资金,让它们在真实市场中自主进行交易。

今天,第一届Alpha Arena正式落幕,阿里巴巴旗下的通义千问Qwen3-Max在最后阶段表现出色,以22.32%的收益率荣膺投资冠军。

这场“投资竞赛”汇聚了Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5和Grok 4等全球六大顶尖模型。除Qwen和DeepSeek外,其余四款模型均出现亏损,尤其是GPT-5,其亏损幅度超过62%。

Alpha Arena的目标是在一个动态且充满竞争的真实环境中,评估这些模型在“量化交易”领域的表现。

尽管这些AI模型能够执行特定任务,但研究人员指出,在风险管理、交易行为、持仓时长和方向偏好等方面,模型之间存在显著差异。

研究团队强调,此次实验并非旨在“挑选出最强的模型”,而是意在推动AI研究从传统的静态基准测试,转向对“真实世界”和“实时决策”的考察。

实验设计

  • 每款模型均有1万美元(IT之家注:现汇率约合71218元人民币)作为初始资金,进行加密货币永续合约交易,涉及资产包括BTC、ETH、SOL、BNB、DOGE和XRP。
  • 模型只能依据数值市场数据(如价格、成交量和技术指标)做出交易决策,禁止查阅新闻或时事信息。
  • 每个模型的目标是“最大化盈亏(PnL)”,并提供了夏普比率(Sharpe Ratio)作为风险调整后的评估指标。
  • 交易行为被简化为:买入(做多)、卖出(做空)、持有以及平仓。所有模型均使用相同的提示词(prompt)和数据接口,且没有特定的微调。

初步结果

报告显示,尽管所有模型在相同的架构下运行,但它们在交易风格、风险偏好、持仓时长和交易频率等方面却存在显著差异。例如,一些模型频繁进行短仓(做空)操作,而另一些几乎不进行此类交易。同时某些模型的持仓时间长、交易频率低,而另一些则交易频繁。

在数据格式的敏感性方面,研究团队发现,如果将提示中的“数据顺序”从“新→旧”改为“旧→新”,能够纠正部分模型因误读数据而导致的错误。

研究还指出,此次测试存在一些局限性:样本数量有限、运行时间较短、模型缺乏历史记录、未具备累积学习的能力。团队表示,下一季将引入更多的控制变量、特性以及更强的统计分析能力。

意义与观察

该项目旨在探讨一个基本问题:“大型语言模型在没有特定微调、仅依靠数值数据输入的情况下,能否在真实交易环境中作为零样本(zero-shot)系统进行交易?”

通过此次实验,Nof1希望推动AI研究向“真实、动态和风险驱动的基准”转变,而不仅仅依赖于静态数据集。

尽管实验尚未得出“哪款模型最强”的结论,但已经揭示出即使是最先进的LLM,在实际交易中依然面临“执行动作”“风险控制”“市场状态理解”和“提示格式敏感性”等多重挑战。

来源:今日头条
原文标题:AI大模型投资比赛落幕,阿里通义千问 Qwen 以 22.32% 收益率夺冠 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-12发表,共计1379字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!