> 自媒体 > (AI)人工智能 > 吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界
吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界
来源:量子位
2023-06-23 14:41:29
686
管理

明敏 杨净 发自 凹非寺

量子位 | 公众号 QbitAI

没想到时至今日,ChatGPT竟还会犯低级错误?

吴恩达大神最新开课就指出来了:

ChatGPT不会反转单词!

比如让它反转下lollipop这个词,输出是pilollol,完全混乱。

△实测Bard

△实测文心一言

还有人紧跟着吐槽, ChatGPT在处理这些简单的单词任务就是很糟糕。

比如玩此前曾爆火的文字游戏Wordle简直就是一场灾难,从来没有做对过。

诶?这到底是为啥?

关键在于token

之所以有这样的现象,关键在于token。token是文本中最常见的字符序列,而大模型都是用token来处理文本。

它可以是整个单词,也可以是单词一个片段。大模型了解这些token之间的统计关系,并且擅长生成下一个token。

因此在处理单词反转这个小任务时,它可能只是将每个token翻转过来,而不是字母。

这点放在中文语境下体现就更为明显:一个词是一个token,也可能是一个字是一个token。

针对开头的例子,有人尝试理解了下ChatGPT的推理过程。

为了更直观的了解,OpenAI甚至还出了个GPT-3的Tokenizer。

token-to-char(token到单词)比例越高,处理成本也就越高。因此处理中文tokenize要比英文更贵。

可以这样理解,token是大模型认识理解人类现实世界的方式。它非常简单,还能大大降低内存和时间复杂度。

但将单词token化存在一个问题,就会使模型很难学习到有意义的输入表示,最直观的表示就是不能理解单词的含义。

当时Transformers有做过相应优化,比如一个复杂、不常见的单词分为一个有意义的token和一个独立token。

就像annoyingly就被分成“annoying”和“ly”,前者保留了其语义,后者则是频繁出现。

这也成就了如今ChatGPT及其他大模型产品的惊艳效果,能很好地理解人类的语言。

至于无法处理单词反转这样一个小任务,自然也有解决之道。

最简单直接的,就是你先自己把单词给分开喽~

或者也可以让ChatGPT一步一步来,先tokenize每个字母。

又或者让它写一个反转字母的程序,然后程序的结果对了。(狗头)

不过也可以使用GPT-4,实测没有这样的问题。

△实测GPT-4

总之,token就是AI理解自然语言的基石。

而作为AI理解人类自然语言的桥梁,token的重要性也越来越明显。

它已经成为AI模型性能优劣的关键决定因素,还是大模型的计费标准。

甚至有了token文学

正如前文所言,token能方便模型捕捉到更细粒度的语义信息,如词义、词序、语法结构等。其顺序、位置在序列建模任务(如语言建模、机器翻译、文本生成等)中至关重要。

模型只有在准确了解每个token在序列中的位置和上下文情况,才能更好正确预测内容,给出合理输出。

因此,token的质量、数量对模型效果有直接影响。

今年开始,越来越多大模型发布时,都会着重强调token数量,比如谷歌PaLM 2曝光细节中提到,它训练用到了3.6万亿个token。

以及很多行业内大佬也纷纷表示,token真的很关键!

今年从特斯拉跳槽到OpenAI的AI科学家安德烈·卡帕斯(Andrej Karpathy)就曾在演讲中表示:

更多token能让模型更好思考。

而凭借着对模型性能的直接影响,token还是AI模型的计费标准。

以OpenAI的定价标准为例,他们以1K个token为单位进行计费,不同模型、不同类型的token价格不同。

不过值得一提的是,token在中文世界里到底该翻译成啥,现在还没有完全定下来。

直译“令牌”总是有点怪怪的。

GPT-4觉得叫“词元”或“标记”比较好,你觉得呢?

参考链接:[1]https://www.reddit.com/r/ChatGPT/comments/13xxehx/chatgpt_is_unable_to_reverse_words/[2]https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them[3]https://openai.com/pricing

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
国产车也能卖上百万,这4款称得上真正的“国产之光”!..
随着时代的变化,中国品牌车型的出口量迅猛增长,仅2022年的出口量就达到..
一周图说:上海车展前,关于国产车你要知道这些
上海车展即将在下周(4月20-29日)开幕。中国作为全球最大和发展最快的汽..
试完2026款卡罗拉\u0026锐放,我直接退了国产车的订单
说实话,我一开始是冲着国产车去的。15万预算,配置表翻烂了,什么大屏、..
别乱选!质量可靠的十大国产车:红旗奇瑞被认可,吉利哈弗入围!..
近两年,国产车品牌通过加速布局新能源汽车市场,实现了销量方面的“弯道..
盘点国产质量巅峰的6款车,过年回家在这里选,省心10年开不坏..
之前人们对于国产车没有太高的认可度,认为国产车质量并不出色,可是如今..
2023上半年销量最好的50款SUV揭晓,国产车几乎霸...
2023年1-6月SUV全国合计445.4万辆。数据来源:乘联会。·丰田卡罗拉锐放-..
1月豪车排名:商务人士依旧不认可国产车
1月这张中大型轿车榜单,看着像“油车反扑”,其实更像一面照妖镜:谁在..
油耗低,空间大,续航长,家用一流,盘点5款20w级高品质国产车..
纵观2024年国内车市,“内卷”一词能贯穿全年。各家车企之间的价格战也是..
国产车尴尬了?国外机构评测:没有实体按键的汽车,安全性差一些..
如果大家有关注现在的汽车风向标,特别是新能源汽车,就会发现一个很明显..
关于作者
御赐铲屎官..(普通会员)
文章
1870
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体104736

1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索