2025年,一份来自国际能源署的数据让整个AI行业沉默了几秒:全球用于人工智能基础设施的电力需求,已占全球总需求的3.2% 。更刺眼的数字在后面——GPT-4仅一次训练就消耗了2.4亿度电,这大致相当于美国2.2万户家庭一整年的用电量。
这已经不是一个技术问题了,直接逼近了物理世界的电网承载极限。于是,一个尖锐的问题被摆上台面:如果真正的通用智能必须靠这种“吞电怪兽”来实现,那这条路从一开始就走错了。为什么人脑只靠20瓦功耗就能完成的事,机器非要吃掉一座核电站?
大模型的“跑腿式”能耗,究竟浪费在了哪里要理解AGI的省电秘诀,你得先搞清楚大模型在干什么。大模型可以比喻成一个“巨型图书馆管理员”,每次回答你的问题时,它都不会直接去找答案,而是要先和图书馆里的每一本书都打一遍招呼,然后再决定用哪几本。
这在技术上叫Transformer架构的自注意力机制,计算量随信息量呈O(n²)指数级增长。你问得越多,它要寒暄的书就越多。
这只是推理阶段。训练阶段更夸张:训练GPT-3的碳排放约等于3000辆特斯拉跑完它们整个生命周期的里程。更关键的是,这笔巨大的电费开销,大部分根本不是花在“思考”上。
红杉资本的演讲一针见血:GPU超过90%的能耗不是用来计算,而是耗在内存和处理器之间反复“搬运数据”的路上。就像一个厨师,95%的体力都用来在仓库和灶台间来回跑,真正翻勺炒菜的力气只花了一点点。
“按需供电”的大脑,为何能吊打超级计算机反观人工科学家级AGI的核心思路,直接推翻了这个低效逻辑。它学的是人脑的“按需计算”:不需要点亮整个芯片,而是局部神经网络各自为政,只有接收到新刺激,相关神经元才被激活发放脉冲信号。
这种机制带来的降耗效果是结构性的。上海脑智算芯用这种稀疏激活、脉冲驱动的类脑芯片验证过,可直接将计算量压缩至传统GPU方案的一半以下。这就像传统芯片是一个巨大的水龙头,一打开就往所有管道猛灌;人脑则是精确滴灌,哪株植物缺水才往哪浇,一滴都不浪费。
“探索房间”的科学家 vs “翻书”的复读机当然,只靠硬件省电还远远不够。宏观上的战略分歧,才是AGI能真正实现小肚量、大能耐的根本:大模型是被动学习,AGI是主动实验。
澳大利亚国立大学的Bennett给出了一个极精准的定义——AGI应当是一个“人工科学家”。想象一个科学家被关在一个陌生的密室里,他的第一反应不是被动等待指令,而是去主动推门、拉把手、检查窗户,通过主动交互来寻找规律。这就是因果推理能力。
再看当前的大模型,本质上是被投喂了人类所有书本的考生。它能凭记忆力答对许多题,但一旦遇到没刷过的题——比如问它“9.11和9.9哪个大”,它可能信誓旦旦地告诉你9.11更大。因为它脑子里只有文本搭对的概率,没有建立起数字比较的因果模型。
而AGI的“因果理解”,就像厨师明白了“火候”的原理,他被扔到一个只有陌生食材的海岛上,也能做出一顿饭。南加州大学提出的“吸引子模型”,就是让模型不瞎转圈,直接找到迭代收敛的稳态,用比同类模型小近一半的参数量,实现了更优性能,训练计算量减少了25%到31%。

这就是“智能密度”的提升。
一百万个问号背后,这是唯一可行的活路所以,回到最初那个问题:为什么人工科学家级AGI能实现低资源高效运行?它其实绕过了三个天堑。
第一,它不搞“一脚油门踩到底”。 大模型模仿的是数据和规模,每处理一个新请求,都近乎暴力计算;而AGI模仿的是适应和效率,通过动态记忆和增量学习,只调用相关记忆模块,不用每次都从头读取完整历史记录。第二,它不搞“读死书”。 大模型遭遇分布外的任务立即露怯,而AGI在资源受限的约束下,动态平衡“探索与利用”,能憋出解决新问题的招。有数据显示,单是采用约束弱化最大化策略,泛化率就直接提升了110%-500%。第三,它没落入“冯·诺依曼陷阱”。 GPU的高能耗罪魁祸首是80年前的冯·诺依曼架构,迫使数据往返于内存和处理器。类脑AGI采用存算一体,就地处理信息,直接压住了那最大的90%无意义能耗。这也就是为什么,当前刷爆所有考试的大模型,本质上只是一个“昂贵的计算器”。而人工科学家级AGI的根本命题是:真正的智能不在于拥有无限资源时的挥霍,而在于有限资源之下还能优雅地解题。
这是唯一的技术活路。对我们普通人而言,需要记住的区别很简单:大模型是一台把所有已知菜单都背熟了的点菜机,而AGI,是一个能在饥荒年代就地取材、给你烧出饭的开荒者。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112596