> 自媒体 > (AI)人工智能 > 挑战英伟达算力霸权?多伦多一家创企将大模型“刻进”芯片
挑战英伟达算力霸权?多伦多一家创企将大模型“刻进”芯片
来源:蓝鲸新闻
2026-06-11 10:01:54
71
管理

文|翼言商业观察

在硅谷当下的宏大叙事中,算力即权力。

英伟达的 GPU 似乎成了通往AGI唯一且昂贵的门票。当整个行业都在狂热地堆叠“更大、更贵、更耗电”的 GPU 集群时,一种极具颠覆性的底层技术叛逆却在暗处悄然发生。

传统的GPU数据中心是名副其实的“电老虎”,动辄需要液冷伺候。而Taalas的HC1芯片,单颗功耗仅约250W。即使部署10颗芯片,总功耗不过2.5千瓦,仅靠常规的空气冷却就能稳定运行。根据Taalas官方及业界测算,其百万Token的推理成本仅为0.0075美元左右,是传统GPU方案的二十分之一甚至更低。在“唯快不破”和“降本增效”成为行业铁律的今天,这组数据的冲击力毋庸多言。

从工程学的角度来看,这显然是一次惊人的效率跃升;而在模型快速迭代的今天,一个不能更新、不能运行其他模型的芯片,听起来显然又像个笑话。但是,如果我们跳出“打造全知全能AGI”的宏大叙事,将目光投向海量的商业垂直场景,也许会发现,这种“固化”非但不是缺陷,反而可能是某些场景下的最优解。

在真实的商业世界里,并非所有场景都需要一个通晓量子力学、能写莎士比亚十四行诗的GPT5甚至更新的模型。大部分场景需要的,是一个极其稳定、便宜、速度极快且不需要休息的“电子牛马”。

想象一下工业流水线上的毫秒级残次品视觉识别、智能汽车里需要绝对零延迟响应的端侧语音中枢、数以亿计的家用陪伴机器人或儿童玩偶……在这些场景中,企业根本不在乎你能否兼容最新的大模型框架,他们在乎的是:能不能用几美分的成本,把手头这件特定的任务做到光速?

Taalas的HC1,正好可以解决这种“规模化单一任务”。当17,000 tokens/秒的速度应用在语音助手上,AI的回答将比人类的神经反射还要快,“等待LLM思考”的转圈动画将彻底成为历史。一个原本需要几百瓦功率、必须插在液冷服务器上的大模型,未来也许只需几瓦的电量,就能被轻易塞进一台扫地机器人、一部智能手机,甚至是一副轻薄的AI眼镜中。真正的“万物皆 AI”,也只有在算力和功耗被极度压缩后才可能实现。

三、刻舟求剑的隐忧:被“冻结”在芯片里的智慧

尽管如此,鉴于当前 AI 算法一日千里的演进速度,Taalas 的路线极具风险的另一面也是不容忽视的。将流动的软件代码固化为冰冷的物理电路,意味着牺牲了灵活性。这里有两个极其尖锐的现实错位。

首先是迭代周期的错位。如今,开源大模型的进化是以“月”甚至“周”为单位的。但一颗先进制程的芯片,从架构设计、流片到最终量产,通常需要 18 到 24 个月。而当它走下产线时,它所“冻结”的 Llama 模型,在日新月异的算法世界里,是否已经沦为一个落后的“古董”?

再者是容错率的错位。大模型如果出现严重的幻觉或安全漏洞,可以通过微调或推送 OTA 补丁来迅速修复。但是,一块已经刻好物理电路的芯片该怎么打补丁呢?一旦芯片内固化的模型存在致命缺陷,整批昂贵的芯片大概率只能沦为硅垃圾。

对于这些致命的商业风险,Taalas也给出了他们的防守策略。首先是微调的保留, HC1虽然锁死了基础权重,但依然保留了对低秩自适应(LoRA)微调的支持。这意味着企业可以在物理大模型的外部,外挂小型的“知识补丁”来调整特定任务的表现。其次是极速的物理迭代,Taalas CEO 透露,改变模型并不需要重新设计整个底层硅片,而只需更改芯片最上层的两层金属层。这种制造工艺的创新,将新模型的硬件化周期压缩到了惊人的两个月,从而帮助模型实现小幅迭代。

纵然如此,这依然是一场与时间赛跑的豪赌。在这场博弈中,Taalas试图用硬件的极致静态,去捕捉 AI 算法的极致动态,不可避免地带有一些“刻舟求剑”的悲壮色彩。

四、蝴蝶效应:谁在战栗,谁在狂欢?

尽管局限性很明显,但Taalas这种“模型即芯片”的路线的面世,依然撕开了英伟达绝对垄断帝国的一道裂痕。

英伟达的地位,很大程度上归功于其CUDA软件生态。全世界的开发者都在用CUDA写程序,这使得硬件的壁垒变成了坚不可摧的软件生态壁垒。但是,如果AI的尽头不再需要软件呢?

Taalas的路线意味着,在推理这个占据未来AI算力90%以上份额的市场中,CUDA的护城河被彻底绕过了。模型训练依然离不开英伟达的GPU,但在最终落地应用的端侧和专业推理数据中心,ASIC专有芯片正在掀起一场“去英伟达化”的起义。

另外,随着生成式AI加速进入商业落地,Taalas之外,Groq、Cerebras、Etched等公司也分别在极速响应、海量吞吐、特定算法加速方面进行着不同的探索,都有可能一点点蚕食推理市场,撼动曾经固若金汤的英伟达帝国。

同时,存储巨头的狂欢也极可能降温。目前,HBM芯片是存储行业的超级印钞机。但如果模型权重被内化于电路,对庞大显存的依赖将大幅降低。无存算分离架构一旦普及,存储厂商在 AI 时代的暴利预期将被大幅挤压。

正因如此,Taalas将大模型刻进硅片,绝不是AI算力的终点,在不远的未来,我们也许会看到算力市场的明显分化:

云端与训练场依然是英伟达GPU和通用加速器的天下,用于探索AGI的智力边界,处理那些最复杂、最多变的未知任务。

端侧与流水线则是Taalas这类“物理硬化”芯片的汪洋大海,它们如沙子般便宜,如光速般敏捷,渗透进每一个路灯、每一台家电、每一个工业机器人中。

甚至,当我们把目光放得更长远一些,当量子计算真正走向实用,或者类脑计算实现突破时,今天我们为了突破冯·诺依曼架构所做的所有努力,可能都会成为技术史上一次次充满勇气而又略显笨拙的尝试。

结语:从“全能大脑”到“硬件本能”

计算架构的演进从来不是单向的直线,而是螺旋上升的复调。从早期的专用打孔机,到通用CPU,到专为图形处理诞生的GPU,再到如今的AI ASIC,计算的历史,就是在“通用灵活性”与“专用极致效率”之间不断摇摆的过程。

Taalas的探索,或许在今天看来略显激进,甚至面临“出厂即落后”的窘境,但它向我们抛出了一个极具哲学意味的产业命题:

AI的终极演化形态究竟是什么?

它是否必须永远保持像水一样可以随意重塑的“通用软件大脑”?

还是说,就像生物历经亿万年进化一样,AI 也会将其最基础、最成熟的智能(比如基础的视觉识别、语言逻辑解析),内化为无需思考、极低功耗运行的“硅基硬件本能”?

回望科技史,任何伟大的范式转换,往往都在非议与豪赌中诞生。

也许,未来的 AI 计算基座并不是非此即彼。云端依然是算力磅礴的通用 GPU 集群,而在万物互联的终端,则是无数颗被固化了“本能”的低功耗 AI 芯片。

当大模型不再是云端的高岭之花,而是变成像电阻、电容一样廉价且随处可见的电子元器件时,AI 真正的大爆发,才算真的拉开大幕。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
重新开始(普通会员)
文章
2124
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113750

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索