程序员打造开源AI评分工具，精准评估大模型“智商”新标准！

共计 608 个字符，预计需要花费 2 分钟才能阅读完成。

IT 之家于 9 月 18 日报道，程序员 ionutvi 最近推出了一款名为 AI Benchmark Tool 的人工智能评测工具，该工具旨在评估各类 AI 模型的“智力水平”，以协助开发者挑选出准确性更高且性价比更优的 AI 工具。

ionutvi 提到，在使用 ChatGPT、Grok、Claude 等 AI 大型模型时，他经常遇到有趣的现象：这些模型在第一天表现正常，到了第二天却可能出现“智力下降”的情况，面对同样的任务时给出混乱的回答，有时甚至拒绝回答，许多人误以为这是自身的问题 ，然而 实际上，这种现象是由于官方故意降低了模型的表现，毕竟，Anthropic 公司已对此进行了确认。

因此，他开发了这款 AI 评分工具，能够自动对多种大模型执行 140 项编程、调试和优化任务，从准确性、拒绝回答率、响应时间和稳定性等维度来评估 AI 模型的“智力水平”，并根据得分进行自动排序。

此外，这位开发者还综合考虑了各 AI 模型的定价，使得用户能够了解每种模型的使用成本。有些 AI 模型看似价格便宜，但可能需要多达 10 次的迭代才能得到可用的答案；而某些价格较高的模型，经过两三次迭代就能产生有效版本，在这种情况下，价格稍贵的模型实际上性价比更高。

IT 之家在此分享该工具的开源链接如下：

来源：今日头条

原文标题：程序员自制开源 AI 评分工具，衡量大模型“愚蠢程度”– 今日头条

原文链接：https://toutiao.com/group/7551276757312094729/

正文完