GPT-4o, Kimi-Chat, DeepSeek, Qwen2-72b, LLama3.1
谁才是真实推理游戏中的王者 , ?
海龟汤
人生中第一次接触海龟汤游戏是我的初中英语课上
一个男人走进一家餐厅
游戏规则是
他和妻子度蜜月时遭遇海难
在海龟汤中
我想能否做一个 AI 海龟汤游戏
今年 6 月
我基于最佳平替的代码很快完成了开发
不过
大模型比人类笨多了
我发现有很多用户吐槽AI 作为裁判的实力堪忧
起初
{
"故事": "小红裙",
"汤面": "姐姐为我选了一件小红裙, 我穿着去上学了, 晚上回家发现了一具尸体",
"汤底": "我的母亲和老师有染, 他们总趁着父亲不在时温存. 而为老师提供信息的
就是我的小红裙, 每当我穿着小红裙去上学就说明那晚父亲准不在. 这天妈妈忙,
姐姐为我选了一件小红裙, 老师看见以为父亲不在家, 便来我家找母亲, 正好被父亲
撞上, 然后父亲杀了他."
},
用户提问: "我如果不穿小红裙是不是不会有人死", 几乎所有模型都回答"不是/不相关"
再比如
{
"故事": "山顶",
"汤面": "一个人住在山顶的小屋里, 半夜听见有敲门声音, 但是他打开门却
没有人,于是去睡了. 第二天, 有人在山脚下发现死尸一具, 请问发生了什么?",
"汤底": "山顶的小屋的门前是悬崖, 悬崖下的人好不容易才爬上来,
想要敲门求救. 一开门, 就又被推了下去, 最后从山顶上掉下去摔死了"
},
用户提问: "门是朝外开的", 几乎所有模型都回答"不是/不相关"
我意识到
真实环境下的 LLM 推理能力
现在
- 用户的提问千奇百怪
无法预估、 但 AI 需要给出合乎逻辑的应答, 。 - 在给定上下文对情况下
AI 需要回答用户一些明确的对或错, 例如已知一件商品的生产日期和保质期。 用户在 2024 年 8 月 9 日提问, 202 几年过期, ? - 有些游戏需要在用户进入某些关卡
或发现关键线索时触发下一步剧情、 那么, 判定用户是否真的发现真相, 就显得尤为重要, 。
与学术界现有的评估指标相比
现有评估指标出了什么问题
如果你经常关注大模型评测榜单(如LMSYS)
MMLU
MMLU 是广为人知的大模型评估指标
以下哪一个是远程木马?
A:内存泄漏 B:缓冲区溢出 C:处理能力较低 D:编程效率低下
这些基础常识当然很重要
MT-Bench
MT-Bench 是一个多轮问题数据集
因此
Chatbot Arena
正是以上评测指标存在的种种问题
真人用户发起聊天
系统会随机挑选 2 个模型给出回答 , 真人通过投票的方式选出更满意的模型 , 最终 。 会形成一个所有模型的综合评分 , 。
这是目前可信度最高的方法
海龟 Benchmark
因此
收集用户在玩 AI 海龟汤游戏中输入的猜测
逐一进行人工标注(对 , 错 、 不相关) 、 然后用这个数据集 , 测试大模型的评判结果相较于真实结果的准确率 , 。
我发现
- 不需要额外背景知识
。
不同的大模型训练所使用的知识库不同 导致一些测评很难公正, 但海龟汤游戏里几乎包含了推理所需的全部信息。 一旦得知汤面和汤底, 大模型就能作出判断, 这使得评估被限定在了模型的推理能力, 。 - 结果是客观的
不以人类偏好为转移, 。
例如 在上述故事: 山顶《 里》 小屋在悬崖边, 主人半夜开门将登山者推下山导致后者被摔死, 因此。 门是朝外开的这个猜测就是正确的, 这种正确性是客观的, 和人的感受无关、 。 - 结果明确
很容易量化, 。
许多评估指标里 模型的输出结果是一段文本回答, 这导致难以量化模型效果, 但海龟汤的猜测结果只有三个。 对: 错、 不相关、 只要 准确标注了测试集。 任何人就可以用它来测试任何自己想测试的模型, 并获得量化的数值结果, 。 - 正常人类获知汤底的情况下
可以 100%答对, 。
这使得人工标注不会太过复杂 这条也说明。 现阶段的大模型智商相比人类还有很大差距, 。 - 数据永远更新
无法作弊、 。
有部分厂商会直接将现有的 benchmark 数据集加入训练来刷分 但在海龟 Benchmark 这种模式下则行不通, 模型评估的是用户的猜测: 而不是故事本身, 每隔一段时间。 就会有玩家产生新的猜测, 而人类的脑洞之大, 导致猜测几乎无法被穷尽, 。
例如
用户猜测 判定
红裙子跟诅咒有关 ❌
红裙子是姐姐的阴谋 ❌
我并没有去上学 ❌
有其他的人来我们家 ✅
红裙是求救信号 ❌
死的是穿小红裙的人 ❌
红裙的颜色是被血染红了 ❌
尸体是我的爸爸 ❌
上学不允许穿小红裙 ❌
我是凶手 ❌
我父亲杀人了 ✅
穿了小红裙导致别人认为我是其他人 ❌
死者认识我妈 ✅
死者与我家里人有仇 ❌
因此
这有点像弱智吧
海龟数据集
AI 海龟汤游戏有 32 个故事
- 去除重复提问
例如海龟汤有毒吗, 和 他喝的汤是否有毒本质是同一个问题? 。 - 去除无法用 是/不是/不相关 回答的提问
例如 男人今年几岁, ? - 去除含糊不清的提问
例如他对闺蜜做了什么吗, ? 在, 闺蜜《 这个汤里》 是丈夫与闺蜜出轨, 但丈夫并没有对闺蜜做任何实际的动作, 所以这个回答很难给出准确回答, 。
随后
* 合并这两类会让任务变得简单
标注完
- Qwen2 70B (通义千问)
- Kimi-Chat (月之暗面)
- Deepseek
- 豆包
- Claude 3.5 Sonnet
- Minimax abab6.5s
- LLama3.1 405B
- LLam3.1 70B
- GPT-3.5
- GPT-4o-mini
- GPT-4o
我在 4448 条数据上测试了所有结果
我分别用不带示例(zero-shot)和带有 2 个示例(2-shot)的 prompt
评测结果
最终各模型准确率排名如下
可以看到
我担心
将 2-shot 结果
* 为了更直观地比较其他模型差异
从上图也可以直观感受各类模型的表现和差距
- Claude 3.5 Sonnet 是当之无愧的第一梯队
并且远远领先其他模型, 。 - GPT-4o
通义千问、 Kimi-Chat、 LLama3.1 405B 和 Minimax 是第二梯队、 我尽量避免更细的划分。 但这些模型能力按排序依次下降, 降幅肉眼可见, 。 - 豆包
DeepSeek 和 LLama3.1 70B 是第三梯队、 。 - GPT-4o-mini 是第四梯队
。 - GPT-3.5 早就应该被淘汰了
。
以上评测仅针对模型的中文理解和推理能力
测试你关心的模型
上述模型可能不包含你关心的模型
https://github.com/mazzzystar/TurtleBench
你可以对任何你感兴趣的模型进行测试
感谢
五源资本的 Steven 个人赞助了此项测评
如果你对 model evaluation 感兴趣