> 自媒体 > (AI)人工智能 > Llama 2第一、GPT-4第三!斯坦福大模型最新测评出炉
Llama 2第一、GPT-4第三!斯坦福大模型最新测评出炉
来源:智东西
2023-11-17 12:55:39
514
管理

开源模型在评级中处于领先地位(图源:CRFM)

团队称,尽管闭源基础模型更容易满足该评级的许多指标,但开源基础模型在许多透明度方面获得了更高的评分。

例如,一些指标评估了下游使用的政策。由于闭源模型通常只通过API提供访问,因此他们可以更容易地分享与下游使用相关的信息,而开源模型的开发商则需要与下游部署者合作才能获得此类信息。

从理论上讲,这意味着闭源模型在这些指标上的得分要高得多,但团队称并没有发现实质性的差别。不过,一些闭源模型开发商在这些指标上的表现确实更好,其中以OpenAI为首。

开源和闭源模型在13个子域评级中的平均透明度评分(图源:CRFM)

总分方面,开源基础模型开发商遥遥领先。

团队认为,开源模型与闭源模型之间的差距是由上游指标造成的,例如开发模型所使用的数据、人力和计算细节。近年来,许多闭源模型开发商对其模型训练方法越来越保密。

三、诉讼、竞争、安全,大模型开发商对于开源的忧虑

《纽约时报》的记者Kevin Roose谈道,当他询问AI公司的高管,为什么不公开分享更多关于他们模型的信息时,通常会得到三种答案。

其一是诉讼。

目前,包括OpenAI在内,已经有多家AI公司被作家、艺术家或媒体公司起诉,指控他们非法使用受版权保护的作品来训练AI模型。

大多数诉讼针对开源AI项目,或是披露了其模型详细信息的项目。AI公司的律师们担心,他们对模型的构建过程说得越多,就越会让自己面临昂贵、恼人的诉讼。

其二是竞争。

大多数AI公司认为,他们的模型之所以有效,是因为他们拥有某种秘诀——其他公司没有的高质量数据集、能产生更好结果的微调技术、能让他们获得优势的某种优化。

他们认为,如果强迫AI公司公开这些“秘方”,就会把他们来之不易的智慧拱手让给竞争对手,让对手轻而易举地复制这些智慧。

其三是安全问题。

一些AI专家认为,AI公司公开其模型的信息越多,AI的进步就会越快,因为每家公司都会看到竞争对手在做什么,并立即尝试通过建立更好、更大、更快的模型来超越他们。

他们认为,如果AI的能力发展得太快,所有人都会处于危险之中,因为社会没有那么多时间来监管和减缓AI的发展。

对此,斯坦福大学的研究人员并不相信这些回答。

他们认为,应该向AI公司施压,让它们尽可能多地发布有关基础模型的信息,因为用户、研究人员和监管机构需要了解这些模型是如何工作的,它们有哪些局限性、危险性。

结语:基础模型社会影响力不断攀升,透明度问题不可忽视

随着基础模型变得越来越强大,AI工具在人们日常生活扮演者愈发重要的角色,模型透明度问题不可忽视。

更多地了解这些基础模型的训练、部署方式,系统的工作原理,构建模型的数据集和数据来源等,将使监管机构、研究人员和用户更好地了解AI系统,对于保持开发商的责任感和了解基础模型的社会影响尤为重要。

AI革命不能在黑暗中进行。如果想让AI改变我们的生活,我们就必须了解它的“黑匣子”。

来源:CRFM、《纽约时报》

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
豆包使用手册(2026完整版)
很多人只拿豆包聊聊天,其实它早成了2026年超实用的全能助手,不管是办..
收藏级!豆包超全使用教程,从新手到大神一篇吃透!..
如今AI已经全面融入日常生活,不管是办公学习、生活规划还是文案创作,大..
2026年豆包技术深度评测:谁将引领行业新标准?
在生成式AI技术日新月异的今天,以“豆包”为代表的主流AI应用平台,其技..
我真的悔哭了!用了半年豆包,才发现这10个隐藏玩法,太香了..
好多人用豆包,就只会问问题、聊聊天,压根不知道它藏着这么多好用的功..
豆包有实用价值也有相当离谱的情况发生
使用豆包给股票投支出谋划策搞出了笑话![笑哭][捂脸][泣不成声][赞][不..
宁波高二女生把豆包当“灵魂伴侣”,经常聊到后半夜!白天打瞌睡,甚至选择..
随着AI助手的普及,越来越多的人习惯在工作生活中向它们求助。但对一小部..
2026年豆包品牌深度评测:究竟哪家更正规、更值得信赖?..
你是否发现,在豆包、文心一言等AI对话中搜索你的行业或产品时,自家公司..
实测豆包询问“未来配偶”:提供的电话能打通,陌生机主被骚扰!律师:AI不..
红星资本局4月24日消息,近日,一种新的AI玩法正在社交平台上流行起来。..
2026 AI大模型战国时代DeepSeek V4 · GPT-5.5 · Claude Opus 4.7 全面横..
三大巨头4月密集发布,谁才是最强?成本差距6倍意味着什么?一文看懂AI格..
关于作者
般若鱼(普通会员)
文章
1883
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106501

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索