GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会-工信会

> 自媒体 > （AI）人工智能 > GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会

GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会

来源：机器之心Pro

2023-08-11 15:56:41

589

管理

机器之心报道

编辑：蛋酱、杜伟、泽南

大语言模型（Large Language Models）的发展势头愈发猛烈，各大公司国际角逐的背后，也需要一同应对公平、安全以及隐私等方面的问题。

这个星期，数据挖掘顶会 ACM KDD 2023 在美国长滩开幕，在五天的主会议期间，大会专门给大模型准备了一整天。来自 Open AI、Meta、智谱 AI、Google DeepMind、Microsoft、Intel 等大语言模型领域走在前沿的公司及研究学者进行了精彩的思想碰撞。

这也是为数不多的一次，是中国的大语言模型专家与国际巨头们同台竞技，深度交流。

第二个想法是「自我一致性」（Self-Consistency）：对多次生成进行采样调查，然后选择最常见的答案。「自我一致性」改善了语言模型中的思维链推理。

第三个想法是「从最少到最多的提示」（Least-to-Most Prompting），这要求 LLM 将问题分解成不同的任务，并从易到难进行排序。

智谱 AI 张鹏

从 GLM-130B 到 ChatGLM

作为智谱 AI（Zhipu AI）的 CEO，张鹏带领团队成功开发了 1300 亿参数的双语（中英文）大语言模型 GLM-130B。自 2022 年 8 月起，该模型已开源，在准确性和鲁棒性方面可媲美 GPT-3 davinci。

2023 年 3 月 14 日，基于 GLM-130B，智谱 AI 正式发布了 ChatGLM，一款类 ChatGPT 的对话机器人产品。此外，其开源、紧凑的版本 ChatGLM-6B 与 ChatGLM2-6B 全球下载量超过 5,000,000 次，连续 28 天位居 Hugging Face Trending 榜首，并在 GitHub 上获得超过 4.4 万颗星标。

最近，智谱 AI 还把 ChatGLM 升级到 ChatGLM2，推出了多个参数尺寸，大幅提升了能力，基于 ChatGLM2-6B 的代码生成模型，智谱 AI 还更新了代码生成工具 CodeGeeX2。

张鹏的分享主题是《从 GLM-130B 到 ChatGLM》。张鹏介绍了智谱 AI 自研的 GLM 框架，GLM 的预训练框架是一种自回归填空的方法，集成了 GPT 和 BERT 这两种预训练框架的优势，既能够实现单项注意力的计算，做序列的生成，也可以做到双向注意力的计算，做回归的模型。

在 GLM 基础上，2022 年 8 月，智谱推出拥有 1300 亿参数的中英双语稠密模型 GLM-130B。得益于新的模型架构，GLM 在许多具有百万参数甚至更少训练步骤的基准测试中，能够在自然语言理解方面实现比 BERT 和 T5 更好的性能。训练一个 1000 亿规模的大型语言模型并非易事，智谱团队解决了许多工程问题和算法上的挑战，包括频繁且随机的硬件故障、训练稳定性等问题，相关细节都发表在 ICLR 2023 的论文中。

微软 Jaime Teevan

从文档到对话：LLM 如何塑造未来的工作

Jaime 是微软首席科学家和技术院士，负责公司核心产品中的驱动技术创新。她提倡人们应找到更聪明的方式来充分利用好时间，领导微软的未来工作倡议，探索 AI 和混合办公等如何改变人们完成事情的方式。此前她曾担任微软 CEO 萨提亚・纳德拉的技术顾问，并领导了微软研究院的生产力团队。

此外，Jaime 是 ACM Fellow 以及 ACM SIGIR and SIGCHI Academies 的会员。她还曾荣获 TR35、BECA 和 Karen Sparck Jones 奖。她本科毕业于耶鲁大学，并获得了 MIT 人工智能博士学位。她也是华盛顿大学的客座教授。

在训练硬件方面，Meta 在其研究超级集群（Research Super Cluster, RSC）以及内部生产集群上对模型进行了预训练。两个集群均使用了 NVIDIA A100。在 Meta 的评估中，多项测评结果显示，Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。

当然，对于今天的大模型来说，「安全」是一个重要性不亚于「性能」的指标。在 Llama 2 的研发过程中，Meta 使用了三个常用基准评估其安全性：

真实性，指语言模型是否会产生错误信息，采用 TruthfulQA 基准；

毒性，指语言模型是否会产生「有毒」、粗鲁、有害的内容，采用 ToxiGen 基准；

偏见，指语言模型是否会产生存在偏见的内容，采用 BOLD 基准。

如今，大模型技术以「天」为单位飞速发展。一觉醒来，人们可能就会看到最新技术成果带来的巨变。

面对这样的时代，学术界、工业界和社会各自面临着怎样的机遇？另一方面，大模型在生产、生活层面的深入，又带给这个时代哪些挑战？这些都是值得深思的问题。

在活动最后的圆桌讨论中，来自 Google DeepMind、微软、英特尔、密歇根大学的多位研究者共同探讨了大模型时代面临的范式转变。

在各家厂商激烈角逐大模型的半年多时间里，我们很少有机会看到 GPT-4、Llama2、ChatGLM、PaLM2 这些模型的幕后团队能够聚在一起进行讨论。特别是在这次大模型开放日中，ChatGLM 成为唯一来自国内的代表，向世界展现了中国的大模型技术实力。推出 ChatGLM 的智谱 AI，还是本次 KDD 最高级别的钻石赞助商，可以看到国内厂商在学术生态领域的活跃与贡献。

今天，我们对大模型的能力还在不断探索过程中，学术界也需要有更多的「大模型开放日」，共同推动各界力量的交流与合作，以突破人工智能的边界。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4正式公布！可在60秒内写出一款游戏

2023-08-11 15:57

GPT-4内幕！1.8万亿巨量参数，13万亿token训练，斥资6300万美元

2023-08-11 15:54