谁是最强大模型--权威大模型榜单整理

大模型的发展日新月异,那到底哪个模型更强呢,不同模型又有哪些各自擅长的领域呢?这里整理几个比较权威的LLM评测榜单和数据集供诸君参考.

LMSYS Chatbot Arena

  • LMSYS Chatbot Arena 是一个众包的开放平台,用于大语言模型(LLM)的评估。收集了超过 1,000,000 次人类成对比较,使用 Bradley-Terry 模型对 LLM 进行排名,并以 Elo 评分展示模型的评级。

https://chat.lmsys.org/?leaderboard

OpenCompass

  • OpenCompass是一个开源项目,提供丰富的算法和功能支持,能够帮助社区更便捷地对NLP模型的性能进行公平全面的评估。

司南评测:国产版LMSYS Chatbot Arena

CompassArena 司南大模型竞技场 · 创空间 (modelscope.cn)

OpenCompass司南 - 评测榜单

OC是国产的,榜单上经常有不知是真是假的”惊喜“。

OpenLLMLeaderboard

Open LLM Leaderboard是最大的大模型和数据集社区HuggingFace推出的开源大模型排行榜单,基于Eleuther Al Language Model Evaluation Harness EleutherAl语言模型评估框架)封装。 由于社区在发布了大量的大型语言模型(LLM)和聊天机器人之后,往往伴随着对其性能的夸大宣传,很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此,HuggingFace使用EleutherAl语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型。

MMLU

  • MMLU : 全称Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

C-Eval

  • C-Eval : C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和匹兹堡大学研究人员在2023年5月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力

https://cevalbenchmark.com/static/leaderboard.html

GSM8K

  • GSM8K : OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。该项测试在2021年10月份发布,至今仍然是非常困难的一种测试基准.

https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

AGI Eval

  • AGI Eval : 微软发布的大模型基础能力评测基准,在2023年4月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。因此,该测试更加倾向于人类考试结果,涵盖了中英文,论文地址: https://arxiv.org/abs/2304.06364

LMSYS榜单

🤖 Model ⭐ Arena Elo 📈 MT-bench 📚 MMLU Organization License
GPT-4o-2024-05-13 1287 88.7 OpenAI Proprietary
GPT-4-Turbo-2024-04-09 1252 OpenAI Proprietary
GPT-4-1106-preview 1250 9.32 OpenAI Proprietary
Gemini 1.5 Pro API-0409-Preview 1248 81.9 Google Proprietary
Claude 3 Opus 1246 86.8 Anthropic Proprietary
GPT-4-0125-preview 1244 OpenAI Proprietary
Yi-Large-preview 1236 01 AI Proprietary
Bard (Gemini Pro) 1208 Google Proprietary

谁是最强大模型--权威大模型榜单整理
https://linxkon.github.io/大模型排行榜.html
作者
linxkon
发布于
2024年6月25日
许可协议