谁是最强大模型--权威大模型榜单整理
大模型的发展日新月异,那到底哪个模型更强呢,不同模型又有哪些各自擅长的领域呢?这里整理几个比较权威的LLM评测榜单和数据集供诸君参考.
LMSYS Chatbot Arena
- LMSYS Chatbot Arena 是一个众包的开放平台,用于大语言模型(LLM)的评估。收集了超过 1,000,000 次人类成对比较,使用 Bradley-Terry 模型对 LLM 进行排名,并以 Elo 评分展示模型的评级。
https://chat.lmsys.org/?leaderboard
OpenCompass
- OpenCompass是一个开源项目,提供丰富的算法和功能支持,能够帮助社区更便捷地对NLP模型的性能进行公平全面的评估。
司南评测:国产版LMSYS Chatbot Arena
CompassArena 司南大模型竞技场 · 创空间 (modelscope.cn)
OC是国产的,榜单上经常有不知是真是假的”惊喜“。
OpenLLMLeaderboard
Open LLM Leaderboard是最大的大模型和数据集社区HuggingFace推出的开源大模型排行榜单,基于Eleuther Al Language Model Evaluation Harness EleutherAl语言模型评估框架)封装。 由于社区在发布了大量的大型语言模型(LLM)和聊天机器人之后,往往伴随着对其性能的夸大宣传,很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此,HuggingFace使用EleutherAl语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型。
MMLU
- MMLU : 全称Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
C-Eval
- C-Eval : C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和匹兹堡大学研究人员在2023年5月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
https://cevalbenchmark.com/static/leaderboard.html
GSM8K
- GSM8K : OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。该项测试在2021年10月份发布,至今仍然是非常困难的一种测试基准.
https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k
AGI Eval
- AGI Eval : 微软发布的大模型基础能力评测基准,在2023年4月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。因此,该测试更加倾向于人类考试结果,涵盖了中英文,论文地址: https://arxiv.org/abs/2304.06364
LMSYS榜单
🤖 Model | ⭐ Arena Elo | 📈 MT-bench | 📚 MMLU | Organization | License |
---|---|---|---|---|---|
GPT-4o-2024-05-13 | 1287 | 88.7 | OpenAI | Proprietary | |
GPT-4-Turbo-2024-04-09 | 1252 | OpenAI | Proprietary | ||
GPT-4-1106-preview | 1250 | 9.32 | OpenAI | Proprietary | |
Gemini 1.5 Pro API-0409-Preview | 1248 | 81.9 | Proprietary | ||
Claude 3 Opus | 1246 | 86.8 | Anthropic | Proprietary | |
GPT-4-0125-preview | 1244 | OpenAI | Proprietary | ||
Yi-Large-preview | 1236 | 01 AI | Proprietary | ||
Bard (Gemini Pro) | 1208 | Proprietary |
谁是最强大模型--权威大模型榜单整理
https://linxkon.github.io/大模型排行榜.html