> 自媒体 > (AI)人工智能 > 大模型battle?LLM排行榜出炉,清华竟位列第五!
大模型battle?LLM排行榜出炉,清华竟位列第五!
来源:CSDN
2023-07-17 16:08:32
765
管理

【CSDN 编者按】自GPT爆火之后,当下流行的开源大型语言模型越来越多,LMSYS 组织(UC伯克利博士Lianmin Zheng牵头举办)建立了 Chatbot Arena 基准平台通过匿名随机竞争来评估他们,随后发布

Elo 等级排行榜,排行榜至现在仍在定期更新,期待更多的用户贡献模型,进行投票,开发者们也可以参与进来!

作者 |LMSYS 组织

译者|陈静琳 责编 | 屠敏

出品 | CSDN(ID:CSDNnews)

开源大模型太多?

LMSYS Org 直接建立了一个竞技场,以众包方式让他们匿名、随机的进行对抗,形成排行榜。并邀请整个社区加入这项工作,贡献新模型,所有人都可以参与提问和投票来评估它们,到底谁是你心目中的 NO.1 !

大模型们直接进行比拼(图1),就像下图中,模型 B 完美说出正确答案,而模型 A 牛头不对马嘴,遗憾出局。

图 1. 并排聊天和投票界面

根据大数据分享的4.7K投票数据计算 Elo 评分,得出表 1 排行榜。vicuna 以 1169 分稳居榜首,遥遥领先第二名 koala,他们都是 130 亿参数,而来自清华大学的 chatglm 只有 60 亿参数还仍在前五的序列,相比而言,有强大基础的 llama 就落后许多,已经排到第八位了,stablem 的大模型排名最后,与前一名相差近百分。

表 1. 开源大型语言模型排行榜

序号

模型

Elo等级

描述

1

vicuna-13b

1169

LLaMA 对 LMSYS 的用户共享对话进行微调的聊天助手

2

koala-13b

1082

BAIR 的学术研究对话模型

3

oast-pythia-12b

1065

LAION 人人可用的开放助手

4

alpaca-13b

1008

LLaMA 在斯坦福的指令遵循演示中微调的模型

5

chatglm-6b

985

清华大学开放式双语对话语言模型

6

fastchat-t5-3b

951

LMSYS 从 FLAN-T5 微调的聊天助手

7

dolly-v2-12

944

Databricks 的指令调优开放大型语言模型

8

llama-13b

932

Meta 开放高效的基础语言模型

9

stablem-tuned-alpha-7b

858

稳定性 AI 语言模型

怎样评估大模型们?

https://arena.lmsys.org 这里就是大模型们的竞技场啦!

LMSYS 组织在这里进行数据收集。

当用户进入竞技场时,他们可以与两个并排的匿名模型聊天,如图1所示。

在得到两个模型的回应后,用户可以继续聊天或为他们认为更好的模型投票。

一旦提交投票,模特的名字就会被披露。用户可以继续聊天或与两个新的随机选择的匿名模特重新开始新的战斗。

在他们的分析中,只使用模型名称被隐藏时的投票,这个竞技场记录了所有用户的互动。

竞技场大约在一周前就推出了,现已经收集了4.7万张有效的匿名投票,LMSYS 组织分享了一些探索性的分析,并在此提出一个简短的总结。

双赢率

作为校准的基础,LMSYS 组织还展示了锦标赛中每个模型的成对获胜率(图 4)以及使用 Elo 评级估算的预测成对获胜率(图 5)。通过比较数据,发现 Elo 评级可以相对较好地预测胜率。

未来的计划

LMSYS 组织计划在以下项目上开展工作:

添加更多闭源模型(ChatGPT-3.5 现已在匿名竞技场可用)

添加更多开源模型

发布定期更新的排行榜(例如,每月)

实施更好的采样算法、锦标赛机制和服务系统以支持更多模型

提供不同任务类型的细粒度排名。

希望所有用户能进行反馈,以使竞技场变得更好。

LMSYS 组织邀请整个社区通过贡献各自的模型并为能提供更好答案的匿名模型投票来加入这项基准测试工作。参与者可以访问 https://arena.lmsys.org 为更好的模型投票。如果想在竞技场中查看特定模型,可以按照指南(https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model)添加它。

演示:https: //arena.lmsys.org

排行榜:https: //leaderboard.lmsys.org

GitHub: https://github.com/lm-sys/FastChat

Colab 笔记本:https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
将来的国产车都是这种命运?思聪表示清流派才是老公~..
本文为汽车之家原创文章,作者任思聪,转载请注明,欢迎大家转发至朋友圈..
买车就要买省心的 这些国产车就很好
买车主要是为了方便,但假如买了一辆天天有故障的车,那可是折腾人啊!也..
20万的“国产车”,就问你买不买!
本文为汽车之家原创文章,作者黄琦宁,转载请注明,欢迎大家转发至朋友圈..
国产车也能卖上百万,这4款称得上真正的“国产之光”!..
随着时代的变化,中国品牌车型的出口量迅猛增长,仅2022年的出口量就达到..
一周图说:上海车展前,关于国产车你要知道这些
上海车展即将在下周(4月20-29日)开幕。中国作为全球最大和发展最快的汽..
试完2026款卡罗拉\u0026锐放,我直接退了国产车的订单
说实话,我一开始是冲着国产车去的。15万预算,配置表翻烂了,什么大屏、..
别乱选!质量可靠的十大国产车:红旗奇瑞被认可,吉利哈弗入围!..
近两年,国产车品牌通过加速布局新能源汽车市场,实现了销量方面的“弯道..
盘点国产质量巅峰的6款车,过年回家在这里选,省心10年开不坏..
之前人们对于国产车没有太高的认可度,认为国产车质量并不出色,可是如今..
2023上半年销量最好的50款SUV揭晓,国产车几乎霸...
2023年1-6月SUV全国合计445.4万辆。数据来源:乘联会。·丰田卡罗拉锐放-..
关于作者
酷匠(普通会员)
文章
2015
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110863

1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索