共计 443 个字符,预计需要花费 2 分钟才能阅读完成。
实验对比:Qwen3-Next 与 Qwen3 模型吞吐量分析
我进行了一个实验系列,使用了四张 A800 显卡,版本为 vllm 0.10.2,并且所有测试均采用默认的模型上下文长度设置。
实验分为两组:第一组中,输入长度保持固定为 128,而输出长度则依次变化为 1k、2k、4k、8k 和 16k;第二组则是将输出长度固定为 128,输入长度从 1k 逐渐增加到 16k。
在比较 Qwen3-Next-80B-A3B 与 Qwen3-30B-A3B 模型的吞吐量时,发现这两个模型的性能表现相似。然而,这一结果与 Qwen3-Next 的官方报告所述存在差异。对此,有没有专家能够帮忙解析一下原因呢?
来源:知乎
原文标题:Qwen3-Next-80B-A3B 与 Qwen3-30B-A3B 对比,结果不符预期?– 知乎
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完