LenML LLM Leaderboard

一个专注于评测实用性开源模型的排行榜。我们只测试：

可本地部署运行的模型
量化后的模型
20GB显存以内可运行的模型

🔗 在线榜单：https://lenml.github.io/lenml-llm-leaderboard/

Change Log

- 241215: 支持自定义扩展分数，可以使用公式、权重分配。增加 score@1 和 score@2分数。

为什么需要这个榜单？

现有的开源模型评测存在以下问题：

大多数榜单仅关注英语能力或标准化测试分数
主要评测大型模型(100B 参数)，实用性不高
测评方式过于学术化，难以反映实际使用体验
较少覆盖社区模型，特别是各类 ERP 模型

评测指标

我们设计了一系列更贴近实际使用场景的评测指标：

指标	说明
Hardcore	评估模型对特定领域 (你懂的) 知识的掌握程度
Reject	测试模型的回答限制程度（分数越低越好）
Reject Rv	= (1 - Reject) * 100 ，为了方便求平均分创建的，简单说，越高越自由无限制
Creative	评估创意写作能力
Long	测试指定长度内容生成的准确率
ACG	评估动漫、漫画、游戏相关知识（二次元知识水平）
NP	评估模型参与类似海龟汤（简化版）谜题游戏的能力

*所有测评均为 zero-shot ，因为测评方式特殊，增加 context 无法保证不泄露元知识给模型。 *底色为黑色的数据是空，也就是未测试，部分模型测试时还没有完整的测评，比如acg或者np，后续可能会补测，目前计算分数时暂时当作0分

Ranking

现在支持自定义权重计分，方便排序。以替代之前的简易平均分。

默认数据增加了两种默认ranking分，分别是

score@1: 约等于 average，侧重通用性。
score@2: 侧重于写作的排序，并忽略 reject_rv 评分，因为这个分数和模型能力无关。

评测指标附录

Hardcore:
- 此指标几乎与训练数据高度相关，一定程度上代表训练数据丰富程度
Reject:
- 这是一个和模型质量几乎无关的指标，但是拒绝率越高可能意味着需要你花费更多的token听模型怎么教育你🙂，当然，拒绝率低也并不代表更低的"说教"内容。
- 总之拒绝率越低，模型越灵活易用。
Reject Rv:
- 为了方便计算的重新映射的数据，就是 Reject 的反转缩放值。
Creative:
- 创造性，关于创意写作的创造性指标，指标是稳定的，但是会带有很强的 llm 评测主观性，相差5分，实际使用可能感觉不出来，但是相差10分的模型，写作能力差距非常非常大。
- 这个评分可以理解为"写作感"，比如 如果你知道A小说比B小说好看，但是你**不一定**可以参考B小说写得出来A小说，中间的这个 "不一定" 就是我们的测评方向，100分就是知道怎么写就会写，而分数越低就代表能分辨但是不会写。
- 因此，此指标可能只对"机智的"模型有用，因为太笨的模型属于 "即不会写也看不懂"
Long:
- 这个指标是创意写作测评的副产品。如果要求模型写 100 字文本，但是输出 99 字，那么准确率大概 90。简而言之，分数越高，代表模型对于 token 到 word 的映射关系越清晰。
ACG:
- 一些 ACG 相关的题目，标准的单选测评题，分数越高代表越 "二次元"。
- 也能代表一定程度的世界知识。
NP:
- 一个类似海龟汤的逻辑推理测评。使用极简的海龟汤，评测分数并非通过率，而是推理流程的波动性退火因子轮次因子的多方面的综合得分。
- 代表上下文理解能力和应对噪声的主动退火冷却的能力。
- 分数越高越像人。比如据我测试，只有 40 分以上的模型，会在对话中说出 "我的天哪，这根本不可能" 这样的话。而 40 分以下的模型则明显在 假装推理 。

Human Baseline

关于 Human baseline，此为参考值，展示本测评人类基准

其中 reject 和 long 由于测评形式特殊，均为估算值，其余 hardcore / creative / acg / np 为实际真人测评平均分

开发路线

增加海龟汤推理测试
支持自定义评测公式
支持加载外部评测数据

参与贡献

欢迎提交 Issue 和 Pull Request 来帮助改进这个项目！

License

GPL-3.0 License

Name		Name	Last commit message	Last commit date
Latest commit History 45 Commits
.github/workflows		.github/workflows
public		public
scripts		scripts
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.en.md		README.en.md
README.md		README.md
eslint.config.js		eslint.config.js
index.html		index.html
package.json		package.json
pnpm-lock.yaml		pnpm-lock.yaml
postcss.config.js		postcss.config.js
tailwind.config.js		tailwind.config.js
tsconfig.app.json		tsconfig.app.json
tsconfig.json		tsconfig.json
tsconfig.node.json		tsconfig.node.json
vite.config.ts		vite.config.ts

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LenML LLM Leaderboard

Change Log

为什么需要这个榜单？

评测指标

Ranking

评测指标附录

Human Baseline

开发路线

参与贡献

License

About

Languages

License

lenML/lenml-llm-leaderboard

Folders and files

Latest commit

History

Repository files navigation

LenML LLM Leaderboard

Change Log

为什么需要这个榜单？

评测指标

Ranking

评测指标附录

Human Baseline

开发路线

参与贡献

License

About

Resources

License

Stars

Watchers

Forks

Languages