共计 397 个字符,预计需要花费 1 分钟才能阅读完成。
企业级需求测试结果分析
在使用 trae 及其国际版本进行复杂的企业需求实验时,我采用了相同的提示词。
成功且没有出现任何 bug 的模型包括:grok4、cluade-4-sonnet、豆包 1.6 以及 GPT4.1。
然而,完成任务时存在一定问题的模型有:deepSeek-r1-0528 和 cluade3.7,均需进行多次修复。
至于那些任务完全失败的模型,如 k2、gemini2.5-pro 和 GPT4o,实在让人失望。
在这种情况下,我感到困惑,难道是请了水军在外面宣传吗?使用后发现根本无法满足需求。我只愿意承认它们比 qwen3 这种劣质模型要强一些。
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完

