共计 608 个字符,预计需要花费 2 分钟才能阅读完成。
IT 之家于 9 月 18 日报道,程序员 ionutvi 最近推出了一款名为 AI Benchmark Tool 的人工智能评测工具,该工具旨在评估各类 AI 模型的“智力水平”,以协助开发者挑选出准确性更高且性价比更优的 AI 工具。
ionutvi 提到,在使用 ChatGPT、Grok、Claude 等 AI 大型模型时,他经常遇到有趣的现象:这些模型在第一天表现正常,到了第二天却可能出现“智力下降”的情况,面对同样的任务时给出混乱的回答,有时甚至拒绝回答,许多人误以为这是自身的问题 ,然而 实际上,这种现象是由于官方故意降低了模型的表现,毕竟,Anthropic 公司已对此进行了确认。
因此,他开发了这款 AI 评分工具,能够自动对多种大模型执行 140 项编程、调试和优化任务,从准确性、拒绝回答率、响应时间和稳定性等维度来评估 AI 模型的“智力水平”,并根据得分进行自动排序。
此外,这位开发者还综合考虑了各 AI 模型的定价,使得用户能够了解每种模型的使用成本。有些 AI 模型看似价格便宜,但可能需要多达 10 次的迭代才能得到可用的答案;而某些价格较高的模型,经过两三次迭代就能产生有效版本,在这种情况下,价格稍贵的模型实际上性价比更高。
IT 之家在此分享该工具的开源链接如下:
正文完