> 自媒体 > (AI)人工智能 > GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI会让模型崩溃!
GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI会让模型崩溃!
来源:新智元
2023-07-11 11:34:25
752
管理

编辑:编辑部

【新智元导读】最差的人类语料,也要胜过AI生成的文本。

随着GPT-4、Stable Diffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术。

甚至,有人已经开始尝试用AI生成的数据来训练AI了。难道,这就是传说中的「数据永动机」?

然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。

论文地址:https://arxiv.org/abs/2305.17493v2

但现在的问题在于——你以为的「人类数据」,可能并不是「人类」写的。

洛桑联邦理工学院(EPFL)的最新研究称,预估33%-46%的人类数据都是由AI生成的。

2. 函数近似误差(Functional approximation error)

该误差主要源于模型中的函数近似器表达能力不足,或者有时在原始分布支持之外的表达能力太强。

众所周知,神经网络在极限情况下是通用的函数近似器,但实际上这种假设并不总是成立的,特别是神经网络可以在原始分布的支持范围之外引入非零似然。

举个简单例子,如果我们试图用一个高斯分布来拟合两个高斯的混合分布,即使模型具有关于数据分布的完美信息,模型误差也是不可避免的。

需要注意的是,在没有统计误差的情况下,函数近似误差只会发生在第一代,一旦新的分布能被函数近似器描述出来,就会在各代模型中保持完全相同的分布。

可以说,模型强大的近似能力是一把双刃剑:其表达能力可能会抵消统计噪声,从而更好地拟合真实分布,但同样也会使噪声复杂化。

对此,论文共同一作Ilia Shumailov表示:「生成数据中的错误会累积,最终迫使从生成数据中学习的模型进一步错误地理解现实。而且模型崩溃发生得非常快,模型会迅速忘记最初学习的大部分原始数据。」

然而,在一些特殊的文本中,这些方法并不能有效执行。比如,在EPFL研究中有ChatGPT合成的10个总结,而GPTZero只检测到6个是合成的。

对此,研究人员通过微调自己的模型来检测AI的使用,发现ChatGPT在编写本文时是最常用的LLM。

对于构建的检测AI数据的方法,研究人员利用原始研究中的答案和用ChatGPT合成的数据,训练了一个定制的「合成-真实分类器」。

然后用这个分类器来估计重新进行的任务中合成答案的普遍性。

具体来讲,研究人员首先使用真正由人类撰写的MTurk回应,和合成LLM生成的回应,来训练特定任务的「合成-真实分类器」。

其次,将这个分类器用于MTurk的真实回应(其中众包人可能使用,也可能没有依赖LLM),以估计LLM使用的普遍性。

最后,研究者确认了结果的有效性,在事后比较分析击键数据与MTurk的回应。

实验结果显示,这个模型在正确识别人工智能文本方面高达99%的准确率。

此外,研究人员用击键数据验证了结果,发现:

- 完全在MTurk文本框中写的总结(不太可能是合成的)都被归类为真实的;

- 在粘贴的总结中,提取式总结和LLM的使用有明显区别。

具体来讲,人工智能生成的文本通常与原始总结几乎没有相似之处。这表明AI模型正在生成新文本,而不是复制和粘贴原始内容的一部分。

「人类数据」很重要

现在,人们普遍担心LLM将塑造人类的「信息生态系统」,也就是说,在线可获得的大部分信息都是由LLM生成的。

使用综合生成数据训练的LLM的性能明显降低,就像Ilia Shumailov所称会让模型患上「痴呆症」。

而这个问题将会变得更加严重,因为随着LLM的普及,众包工作者们已经广泛使用ChatGPT等各种LLM。

但对于人类内容创作者来说,这是一个好消息,提高工作效率的同时,还赚到了钱。

但是,若想挽救LLM不陷于崩溃的边缘,还是需要真实的「人类数据」。

1. 人类数据在科学中仍然是至关重要的

2. 在合成数据上训练模型可能会带来偏见和意识形态永久化

3. 随着模型变得流行和更好/多模态,采用率只会增加

总的来说,由人类生成的原始数据可以更好地表示世界,虽然也可能包含某些劣质、概率较低的数据;而生成式模型往往只会过度拟合流行数据,并对概率更低的数据产生误解。

那么,在充斥着生成式AI工具和相关内容的未来,人类制作的内容或许会比今天更有价值,尤其是作为AI原始训练数据的来源。

参考资料:

https://arxiv.org/abs/2306.07899v1

https://arxiv.org/abs/2305.17493v2

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
究竟是谁在模仿谁?这些国产车居然跟豪车同名
算命先生说,要想卖得好,名字就得取得巧。可是这名字怎么取呢?这还不简..
7-8万太划算了 这些国产车的配置都非常高
7-8万能买到的车型非常多,不仅仅是中国品牌,就连合资品牌也有不少选择..
七大国产品牌7月销量榜:比亚迪、长安领衔,长城再破10万大关!..
随着国内汽车市场成交热度有所回升,车市整体企稳。乘联会数据显示,7月..
国产车崛起 盘点10款销量最强的国产SUV
不仅在中国,目前各个国家SUV市场增速迅猛,大空间以及实用性等优势都让..
买车只买新款 9万实力派国产车推荐
预算在9万左右,很多人就会选择合资品牌了,这个售价区间,合资车型一般..
进步很大 这些国产车真的给我们长脸了
由于本次车展的原因,这两天教授文章更新时间稍微有点晚,望大家谅解。这..
中国车“高攀不起”了!盘点车展上那些价格贵技术强的国产新车..
刚盘点了本届上海国际车展上5款合资新车,有蜗友就说了:我想看国产汽车..
将来的国产车都是这种命运?思聪表示清流派才是老公~..
本文为汽车之家原创文章,作者任思聪,转载请注明,欢迎大家转发至朋友圈..
买车就要买省心的 这些国产车就很好
买车主要是为了方便,但假如买了一辆天天有故障的车,那可是折腾人啊!也..
关于作者
赶海的老阿姨..(普通会员)
文章
2004
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105342

1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索