几年前我一直被谷歌的bert带沟里,一直在潜水研究bert.....直到chatgpt打了全体地球人的脸,我才开始研究gpt...
2023年,我手头有不少逻辑题,能一定程度上测试出模型的推理能力。
2024年,测的新模型 我都加入本科高数题的测试,因为模型普遍都很强了要有种选优。。
25年的模型可能要用到考研高数题了哈哈。。
我认为有了推理能力,模型才能比较正确的根据自己知识回答用户的各种问题。推理能力差,大部分回答会比较梦幻。。。所以我很看重推理能力。
2023年测的只测试简单和中等难。
2024年测试难度增加。加入本科高数题。
2024年末 继续增加难度。加入考研数一的题。160分以上的模型开始测试考研。
下边是我测试了一些模型的推理能力(2023年4月-5月测试),基准得分用的是chatgpt网页版。测试环境在各自的母语下。比如llama系列是英文的测试。
不写多少b的 比如没有写30b 60b ,都是闭源模型,写了多少b的 比如30b 60b ,都是开源模型。
后缀说明:
gptq 一种模型量化 常用4bit 8bit量化
awq 一种模型量化 常用4bit量化 精度比同级gptq高一些
gguf 一种量化模型,4bit精度不怎么样所以我就没测。
本次测试仅仅对于逻辑题的逻辑能力测试,一百分以上的模型还进行数学能力测试。
测试都是zero shot,单轮对话,没有任何prompt参与,直接问他考题。如果启用高级框架,比如prompt优化,cot,autocot,autogpt,tot这些新一代框架,得分高的模型会更更更好。
打分的数值会由于我的主观估算有一些误差,但是由于每次测试是同一道题横向对比,所以模型的差距清晰可见,所以几乎不存在排名的先后错误,排名次序已经明确说明了模型推理能力的差距。
近期(20223.9-2024年) 我对一些34b 及更大的模型测了一些大学的考试题 比如历史,c语言,离散数学。对于这种中高难度的题,我加入了prompt,因为难度增加了。测试下来对prompt有了更深的理解。
资源:
目前所有的默认测试题
https://zhuanlan.zhihu.com/p/640443198对于95分以上的模型,我做了更多的测试,主要是离散数学本科,高等数学本科。(考研数学题测试了几次,实在是搞不定,没有一个模型能够拿捏,于是放弃。。) claude3 opus 碾压gpt4 Qwen 1.5 32b后来居上(2024.4)
想看自己用的其他模型能力的也可以测一下发我结果,我估算一个排名哈哈。。
关于赛季的说明:也就是大版本。比如claude3和3.5 gpt3.5和4 就是跨越赛季。
正文:
测试结果(结合测试结果大致打分):
deepseek r1 671b (2025.1) 260
deepseek r1 70b (2025.1) 195
QWQ 32b preview fp16 (2024年12月) 180
deepseek r1 lite官方网页版(2024年12月) 180
qwen 2.5 72b fp16 (2024年10月) 170
gpt4o (2024.07) 170
mistral large 202407-123b awq 4bit(202407版) 167
claude3 opus (2024.3.20) 165
llama3.1 405b fp16 160
gpt4普通版(2023.6) 160
deepseek coder v2 (202407版) 155
deepseek v2 (2024.5) 140
deepseek math 7b (2024.4) 155 (数学专用模型,的分只是数学题的分 。编程也有100分)
llama3-chinese-70b 4bit awq(2024.5) 135
qwen 1.5 110b 4bit awq (2024.5) 135
mistral large (2024.2) 135
qwen 1.5 32b awq 4bit (2024.4) 120
智普清言glm4(2024.2) 130
deepseek coder 33b awq 4bit (2024.2) (这个是写代码专用模型,得分仅限于编程领域) 115
claude(2023.4) 108
kimichat (2024.2) 101
双核yi34b (总参数量60b)awq 4bit (2024.1) 99
智谱清言(2023.9) 102
chatgpt官方网页版(2023.4 有一部分参考2023.1-3月) 100
deepseek coder 6.7b 100 (编程专用,得分只局限于编程领域 2023.11)
天工(2023.9) 94
讯飞星火(2023.4) 93
qwen1.5-14b awq 4bit 92 (2024.2)
yi34b gptq 4bit 128g (2023.12) 92
openassistant llama 30b gptq4bit 128g(2023.4) 90
qwen14b fp16 89 (2023.11)
starling7b (2023.12) 88 (2023.12)
chatglm3-6b f16 32k 84 (2023.11)
vicuna 13b 官方8bit(2023.4) 81
glm2 6b 官方版 (2023.7) 78
alpaca 30b gptq4bit 128g (2023.4) 82
bard (2023.4) 75
vicuna 13b gptq4bit 128g(202314) 65
alpaca 7b (2023.4) 50
chinese alpaca plus 7b (2023.4) 58
glm 6b (2023.4) 50
文心一言(2023.4) 35
细分排行榜(全部都是自己使用过的模型)
代码能力
claude3.5 sunnet (202407) 100 (以他作为基准)
deepseek coder V2.5 (202410) 55
chatgpt初版(202212) 25
deepseek coder 一代 7b (2023) 22
文新一言 (2023.4) 5
chatglm一代 6b (2023.4) 5
=,。==。。。。。。。。。。。。。。。。。。
结论
科研,高数,写代码,教育,完成生产级设计和任务:
以下推荐不同尺寸的模型,每一类型只做头部模型首推,按照时间流水整理。
个位只需要使用每一类排名第一的模型就行,细分类别中,第一名下方的模型只是历史记录,已经没有使用价值了。
2025年首选模型
deepseek r1 王炸, 傲视群雄,独一档存在。
2024年首选模型
qwen 2.5 72b (2024.10)
mistral large 202407 123b (202407)
2023年首选模型
个人电脑中离线版开源模型首选:yi34b gptq 4bit 128g(2023.11)
英文模型首选openassistant llama 30b gptq4 128g (2023.4)
30-50gb内存首选模型
当前:qwen 1.5 32b awq 4bit
历史:双核yi34b(60b参数量)awq 4bit (2024.1)
个人电脑首选在线翻译模型API:
deepseek v2 (2024.05) gpt4级别的智力,一块钱翻译一百万字的价格,高爆发的并发吞吐量能力还有谁。。
本地部署开源批处理翻译,批处理阅读理解
当前赛季:glm4-9b(2024.06)
比三代全方位提升,上下文1000k token 9b惊喜的是,依然可以单卡部署,性价比爽爆了。
历史赛季:glm3 -6b-fp16(2023.11)官方原版:兼顾速度与实用性,而且母语是中文,配合中科院这个神级ui实现了批量翻译英文书籍,论文,latex。批量解读python项目,其他语言项目的所有源代码。每天都在用。
联网模型首选
当前赛季:deepseek coder v2 2407版 (2024.7)
24年第三赛季王中王模型。 7月升级后超数学等领域能力越gpt4。
历史赛季:deepseek v2 (2024.5) 推理, 翻译,总结,数学能力,编程 样样领先。还免费。且国内网络可用。 去年的claude1弃用之 今年初的glm4拜拜。。
超大杯首选
当前赛季:claude3opus (2024.3) 人类最强大语言模型,遥遥领先。尤其是数学能力突出。(2024第二第三赛季)
400b-800b 模型首选
llama3.1-405b (2024.07) 土豪用
100-150b 首选
mistral large 202407 awq 4bit 高数水平惊艳到了我,2024第三赛季当之无愧最强的数学模型。
60b级别首推
当前赛季:qwen2-72b(2024.6) awq 4bit
当前赛季:llama3-70b-chinese awq 4bit (2024.5)
历史赛季:双核yi34b (总参数60b) awq 4bit (2024.2)
30b级别首推:
当前赛季:qwen 1.5 32b awq 4bit (2024.4)一张3090就能丝滑运行 通用智能全方位吊打gpt3.5,(编程除外)。 数学能力更是几乎持平gpt4. 通用综合能力也能和glm4掰掰手腕! 强烈推荐!!
历史赛季:yi34b awq 4bit 128g (2023.11) 能部署在自家电脑上 智能很接近gpt3.5 比gptq版效果好不少。
2024年中期,moe技术竟然催生了新一代卷王deepseekv2,(2023年年底moe是yi60b实现了接近达到gpt3.5)deepseekv2真正实现了大部分接近或者达到,个别的局部超越gpt4的模型。
编程模型国产平替也来了 deepseek coder 6.7b fp16 (2023)代码能力和gpt3.5一模一样 模型还能部署在自家电脑上!!! 强烈推荐!!!
这样,开源模型2023年底完全碾达到巅峰时期gpt3.5能力的国产平替方案也就出来了:
yi60b awq 4bit + codefuse deepseek coder 33b awq 4bit
文心一言(2023.4)拉胯的要死。。。实测推理能力太差
2023.11 目前文心4 能正常使用了,大约gpt3.5的水平吧。
2023.6月,看到有人回答文新得分比gpt4还要高,我吐了一地。。。。什么鬼?
个人测试,仅供参考。 |
|