> 自媒体 > (AI)人工智能 > 100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火
100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火
来源:机器之心Pro
2025-10-16 08:25:07
165
管理

机器之心报道

机器之心编辑部

「这是我写过最疯狂的代码之一。」

本周一,AI 领域大神 Andrej Karpathy 发布了自己的最新开源项目,瞬间引来了整个社区的关注。

这个名为 nanochat 的项目据说可以教你从零开始,以 100 美元的成本自建 ChatGPT。它覆盖 LLM 的训练和推理,只要跟着学就可以了解构建大模型的所有步骤了。

总共是 8000 行代码,在 GitHub 上放出不到 12 个小时,star 量就已经超过 4500:

GitHub 链接:https://github.com/karpathy/nanochat

与 Karpathy 之前发布的 nanoGPT 仓库(只覆盖了预训练阶段)不同,nanochat 是一个从零开始实现的、极简但完整的 ChatGPT 克隆版训练 / 推理全流程项目,所有内容都集中在一个依赖极少、结构干净的代码库中。

你只需要启动一台云 GPU 机器,运行一个脚本,大约 4 小时后就可以在 ChatGPT 风格的 Web 界面里和你自己的 LLM 聊天。

仓库大约 8,000 行代码,但已经实现了以下全部功能:

使用全新的 Rust 实现训练分词器。在 FineWeb 数据集上预训练 Transformer LLM,并在多个指标上评估 CORE 分数。Mid-train 阶段训练 SmolTalk 的用户 - 助手对话、多选问答、工具使用等数据。SFT 微调,并评估模型在世界知识类多选题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)上的表现。可选:使用 GRPO 在 GSM8K 上进行 RL 强化训练。高效推理引擎,支持 KV Cache、prefill/decode 推理、工具调用(轻量沙箱中的 Python 解释器),可通过 CLI 或 ChatGPT 风格 WebUI 交互。自动生成 Markdown 评分报告卡,总结与游戏化展示整个训练过程。

Karpathy 表示,只花约 100 美元成本(8×H100 上 4 小时训练),你就能训练一个「能聊的」迷你 ChatGPT,可以写故事 / 诗歌、回答简单问题。大约 12 小时训练即可超过 GPT-2 的 CORE 指标。

如果进一步扩展到 1000 美元预算(训练 41.6 小时),模型连贯性会快速提升,能解决基础数学 / 代码任务,并通过一些多选测试。例如,一个 30 层深度、训练 24 小时的模型(相当于 GPT-3 Small 125M 的 FLOPs,约为 GPT-3 的 1/1000 规模)即可在 MMLU 拿到 40 分、ARC-Easy 70 分、GSM8K 20 分 等。

Karpathy 的目标是把一整套「强势基线」能力完整地打包进一个结构统一、可读性强、易于 hack、方便 fork 的仓库中。nanochat 将会是 LLM101n 课程的压轴项目(课程仍在开发中)。

Karpathy 认为 nanochat 也有潜力像 nanoGPT 一样,逐渐成长为一个 研究平台或标准基准。它现在还远未算完美,也没有特别调优或性能优化(他认为很接近了)。不过,整体框架已经成型,因而适合放到 GitHub 上,让社区协同迭代改进每个模块。

使用 WebUI 与价值 100 美元、耗时 4 小时的 nanochat 进行的示例对话。

下图是 Karpathy 这次 100 美元快速训练(speedrun)示例在报告中产出的一些指标摘要。

这样看来,构建一个具备聊天功能的大模型是如此的简单且低成本,并且有了 Karpathy 成熟的开源代码支持,那我们创建一个属于自己的个人化的模型来辅助工作可行吗?

有网友提出了大家都会关心的问题:

但 Karpathy 却对这类应用破了一盆冷水,他认为这不是一个适合个性化目的的代码。

Karpathy 认为,应该把这个微型模型更多地看作是非常年幼的孩子,并没有那么强大的原始智能。如果你在自己的数据上微调 / 训练它,你可能会得到一些有趣的鹦鹉学舌效果,感觉像是你在风格上写作,但它会一团糟。

要实现个性化模型的效果,大致需要这样几个步骤:

准备原始数据在此基础上进行大量的合成数据生成和重写(复杂、不明显、需要研究)用这些数据去微调一个当前较强的开源大模型(比如 tinker )微调时还可能需要混入大量预训练数据,以避免模型丢失太多通用智能能力

可以说,要真正把这个方案跑得效果好,现在还是偏科研的事情。

更多详细技术介绍与分步构建示例请参阅以下链接:

https://github.com/karpathy/nanochat/discussions/1

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
国产车也能卖上百万,这4款称得上真正的“国产之光”!..
随着时代的变化,中国品牌车型的出口量迅猛增长,仅2022年的出口量就达到..
一周图说:上海车展前,关于国产车你要知道这些
上海车展即将在下周(4月20-29日)开幕。中国作为全球最大和发展最快的汽..
试完2026款卡罗拉\u0026锐放,我直接退了国产车的订单
说实话,我一开始是冲着国产车去的。15万预算,配置表翻烂了,什么大屏、..
别乱选!质量可靠的十大国产车:红旗奇瑞被认可,吉利哈弗入围!..
近两年,国产车品牌通过加速布局新能源汽车市场,实现了销量方面的“弯道..
盘点国产质量巅峰的6款车,过年回家在这里选,省心10年开不坏..
之前人们对于国产车没有太高的认可度,认为国产车质量并不出色,可是如今..
2023上半年销量最好的50款SUV揭晓,国产车几乎霸...
2023年1-6月SUV全国合计445.4万辆。数据来源:乘联会。·丰田卡罗拉锐放-..
1月豪车排名:商务人士依旧不认可国产车
1月这张中大型轿车榜单,看着像“油车反扑”,其实更像一面照妖镜:谁在..
油耗低,空间大,续航长,家用一流,盘点5款20w级高品质国产车..
纵观2024年国内车市,“内卷”一词能贯穿全年。各家车企之间的价格战也是..
国产车尴尬了?国外机构评测:没有实体按键的汽车,安全性差一些..
如果大家有关注现在的汽车风向标,特别是新能源汽车,就会发现一个很明显..
关于作者
仓莫以北(普通会员)
文章
2004
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体104736

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索