Llama 2第一、GPT-4第三！斯坦福大模型最新测评出炉-工信会

> 自媒体 > （AI）人工智能 > Llama 2第一、GPT-4第三！斯坦福大模型最新测评出炉

Llama 2第一、GPT-4第三！斯坦福大模型最新测评出炉

来源：智东西

2023-11-17 12:55:39

514

管理

开源模型在评级中处于领先地位（图源：CRFM）

团队称，尽管闭源基础模型更容易满足该评级的许多指标，但开源基础模型在许多透明度方面获得了更高的评分。

例如，一些指标评估了下游使用的政策。由于闭源模型通常只通过API提供访问，因此他们可以更容易地分享与下游使用相关的信息，而开源模型的开发商则需要与下游部署者合作才能获得此类信息。

从理论上讲，这意味着闭源模型在这些指标上的得分要高得多，但团队称并没有发现实质性的差别。不过，一些闭源模型开发商在这些指标上的表现确实更好，其中以OpenAI为首。

开源和闭源模型在13个子域评级中的平均透明度评分（图源：CRFM）

总分方面，开源基础模型开发商遥遥领先。

团队认为，开源模型与闭源模型之间的差距是由上游指标造成的，例如开发模型所使用的数据、人力和计算细节。近年来，许多闭源模型开发商对其模型训练方法越来越保密。

三、诉讼、竞争、安全，大模型开发商对于开源的忧虑

《纽约时报》的记者Kevin Roose谈道，当他询问AI公司的高管，为什么不公开分享更多关于他们模型的信息时，通常会得到三种答案。

其一是诉讼。

目前，包括OpenAI在内，已经有多家AI公司被作家、艺术家或媒体公司起诉，指控他们非法使用受版权保护的作品来训练AI模型。

大多数诉讼针对开源AI项目，或是披露了其模型详细信息的项目。AI公司的律师们担心，他们对模型的构建过程说得越多，就越会让自己面临昂贵、恼人的诉讼。

其二是竞争。

大多数AI公司认为，他们的模型之所以有效，是因为他们拥有某种秘诀——其他公司没有的高质量数据集、能产生更好结果的微调技术、能让他们获得优势的某种优化。

他们认为，如果强迫AI公司公开这些“秘方”，就会把他们来之不易的智慧拱手让给竞争对手，让对手轻而易举地复制这些智慧。

其三是安全问题。

一些AI专家认为，AI公司公开其模型的信息越多，AI的进步就会越快，因为每家公司都会看到竞争对手在做什么，并立即尝试通过建立更好、更大、更快的模型来超越他们。

他们认为，如果AI的能力发展得太快，所有人都会处于危险之中，因为社会没有那么多时间来监管和减缓AI的发展。

对此，斯坦福大学的研究人员并不相信这些回答。

他们认为，应该向AI公司施压，让它们尽可能多地发布有关基础模型的信息，因为用户、研究人员和监管机构需要了解这些模型是如何工作的，它们有哪些局限性、危险性。

结语：基础模型社会影响力不断攀升，透明度问题不可忽视

随着基础模型变得越来越强大，AI工具在人们日常生活扮演者愈发重要的角色，模型透明度问题不可忽视。

更多地了解这些基础模型的训练、部署方式，系统的工作原理，构建模型的数据集和数据来源等，将使监管机构、研究人员和用户更好地了解AI系统，对于保持开发商的责任感和了解基础模型的社会影响尤为重要。

AI革命不能在黑暗中进行。如果想让AI改变我们的生活，我们就必须了解它的“黑匣子”。

来源：CRFM、《纽约时报》

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发

2023-11-17 12:58

2023 AI现状报告：GPT-4仍最强，监管方向缺乏全球共识

2023-11-17 12:54

相关文章

豆包使用手册（2026完整版）

很多人只拿豆包聊聊天，其实它早成了2026年超实用的全能助手，不管是办..

收藏级！豆包超全使用教程，从新手到大神一篇吃透！..

如今AI已经全面融入日常生活，不管是办公学习、生活规划还是文案创作，大..

2026年豆包技术深度评测：谁将引领行业新标准？

在生成式AI技术日新月异的今天，以“豆包”为代表的主流AI应用平台，其技..

我真的悔哭了！用了半年豆包，才发现这10个隐藏玩法，太香了..

好多人用豆包，就只会问问题、聊聊天，压根不知道它藏着这么多好用的功..

豆包有实用价值也有相当离谱的情况发生

使用豆包给股票投支出谋划策搞出了笑话！[笑哭][捂脸][泣不成声][赞][不..

宁波高二女生把豆包当“灵魂伴侣”，经常聊到后半夜！白天打瞌睡，甚至选择..

随着AI助手的普及，越来越多的人习惯在工作生活中向它们求助。但对一小部..

2026年豆包品牌深度评测：究竟哪家更正规、更值得信赖？..

你是否发现，在豆包、文心一言等AI对话中搜索你的行业或产品时，自家公司..

实测豆包询问“未来配偶”：提供的电话能打通，陌生机主被骚扰！律师：AI不..

红星资本局4月24日消息，近日，一种新的AI玩法正在社交平台上流行起来。..

2026 AI大模型战国时代DeepSeek V4 · GPT-5.5 · Claude Opus 4.7 全面横..

三大巨头4月密集发布，谁才是最强？成本差距6倍意味着什么？一文看懂AI格..

关于作者

般若鱼(普通会员)

文章

1883

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106501

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索