谁是最强大模型--权威大模型榜单整理

大模型的发展日新月异,那到底哪个模型更强呢,不同模型又有哪些各自擅长的领域呢?这里整理几个比较权威的LLM评测榜单和数据集供诸君参考.

LMSYS Chatbot Arena

LMSYS Chatbot Arena 是一个众包的开放平台，用于大语言模型（LLM）的评估。收集了超过 1,000,000 次人类成对比较，使用 Bradley-Terry 模型对 LLM 进行排名，并以 Elo 评分展示模型的评级。

https://chat.lmsys.org/?leaderboard

OpenCompass

OpenCompass是一个开源项目,提供丰富的算法和功能支持，能够帮助社区更便捷地对NLP模型的性能进行公平全面的评估。

司南评测：国产版LMSYS Chatbot Arena

CompassArena 司南大模型竞技场 · 创空间 (modelscope.cn)

OpenCompass司南 - 评测榜单

OC是国产的，榜单上经常有不知是真是假的”惊喜“。

Open LLM Leaderboard是最大的大模型和数据集社区HuggingFace推出的开源大模型排行榜单，基于Eleuther Al Language Model Evaluation Harness EleutherAl语言模型评估框架）封装。由于社区在发布了大量的大型语言模型（LLM）和聊天机器人之后，往往伴随着对其性能的夸大宣传，很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此，HuggingFace使用EleutherAl语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。

MMLU

MMLU ：全称Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

C-Eval

C-Eval ： C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和匹兹堡大学研究人员在2023年5月份联合推出，它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。

https://cevalbenchmark.com/static/leaderboard.html

GSM8K

GSM8K ： OpenAI发布的大模型数学推理能力评测基准，涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大，语言更具多样性，题目也更具挑战性。该项测试在2021年10月份发布，至今仍然是非常困难的一种测试基准.

https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

AGI Eval

AGI Eval ：微软发布的大模型基础能力评测基准，在2023年4月推出，主要评测大模型在人类认知和解决问题的一般能力，涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试，包含中英文数据。因此，该测试更加倾向于人类考试结果，涵盖了中英文，论文地址： https://arxiv.org/abs/2304.06364

LMSYS榜单

🤖 Model	⭐ Arena Elo	📈 MT-bench	📚 MMLU	Organization	License
GPT-4o-2024-05-13	1287		88.7	OpenAI	Proprietary
GPT-4-Turbo-2024-04-09	1252			OpenAI	Proprietary
GPT-4-1106-preview	1250	9.32		OpenAI	Proprietary
Gemini 1.5 Pro API-0409-Preview	1248		81.9	Google	Proprietary
Claude 3 Opus	1246		86.8	Anthropic	Proprietary
GPT-4-0125-preview	1244			OpenAI	Proprietary
Yi-Large-preview	1236			01 AI	Proprietary
Bard (Gemini Pro)	1208			Google	Proprietary

大模型

#大模型 #排行榜

谁是最强大模型--权威大模型榜单整理

https://linxkon.github.io/大模型排行榜.html

作者

linxkon

发布于

2024年6月25日

许可协议

LLaMA 3.1 模型架构技术解析及代码实现上一篇

RAG加分神器:embedding与rerank 下一篇

谁是最强大模型--权威大模型榜单整理

LMSYS Chatbot Arena

OpenCompass

OpenLLMLeaderboard

MMLU

C-Eval

GSM8K

AGI Eval

LMSYS榜单