挑战英伟达算力霸权？多伦多一家创企将大模型“刻进”芯片-工信会

> 自媒体 > （AI）人工智能 > 挑战英伟达算力霸权？多伦多一家创企将大模型“刻进”芯片

挑战英伟达算力霸权？多伦多一家创企将大模型“刻进”芯片

来源：蓝鲸新闻

2026-06-11 10:01:54

管理

文｜翼言商业观察

在硅谷当下的宏大叙事中，算力即权力。

英伟达的 GPU 似乎成了通往AGI唯一且昂贵的门票。当整个行业都在狂热地堆叠“更大、更贵、更耗电”的 GPU 集群时，一种极具颠覆性的底层技术叛逆却在暗处悄然发生。

传统的GPU数据中心是名副其实的“电老虎”，动辄需要液冷伺候。而Taalas的HC1芯片，单颗功耗仅约250W。即使部署10颗芯片，总功耗不过2.5千瓦，仅靠常规的空气冷却就能稳定运行。根据Taalas官方及业界测算，其百万Token的推理成本仅为0.0075美元左右，是传统GPU方案的二十分之一甚至更低。在“唯快不破”和“降本增效”成为行业铁律的今天，这组数据的冲击力毋庸多言。

从工程学的角度来看，这显然是一次惊人的效率跃升；而在模型快速迭代的今天，一个不能更新、不能运行其他模型的芯片，听起来显然又像个笑话。但是，如果我们跳出“打造全知全能AGI”的宏大叙事，将目光投向海量的商业垂直场景，也许会发现，这种“固化”非但不是缺陷，反而可能是某些场景下的最优解。

在真实的商业世界里，并非所有场景都需要一个通晓量子力学、能写莎士比亚十四行诗的GPT5甚至更新的模型。大部分场景需要的，是一个极其稳定、便宜、速度极快且不需要休息的“电子牛马”。

想象一下工业流水线上的毫秒级残次品视觉识别、智能汽车里需要绝对零延迟响应的端侧语音中枢、数以亿计的家用陪伴机器人或儿童玩偶……在这些场景中，企业根本不在乎你能否兼容最新的大模型框架，他们在乎的是：能不能用几美分的成本，把手头这件特定的任务做到光速？

Taalas的HC1，正好可以解决这种“规模化单一任务”。当17,000 tokens/秒的速度应用在语音助手上，AI的回答将比人类的神经反射还要快，“等待LLM思考”的转圈动画将彻底成为历史。一个原本需要几百瓦功率、必须插在液冷服务器上的大模型，未来也许只需几瓦的电量，就能被轻易塞进一台扫地机器人、一部智能手机，甚至是一副轻薄的AI眼镜中。真正的“万物皆 AI”，也只有在算力和功耗被极度压缩后才可能实现。

三、刻舟求剑的隐忧：被“冻结”在芯片里的智慧

尽管如此，鉴于当前 AI 算法一日千里的演进速度，Taalas 的路线极具风险的另一面也是不容忽视的。将流动的软件代码固化为冰冷的物理电路，意味着牺牲了灵活性。这里有两个极其尖锐的现实错位。

首先是迭代周期的错位。如今，开源大模型的进化是以“月”甚至“周”为单位的。但一颗先进制程的芯片，从架构设计、流片到最终量产，通常需要 18 到 24 个月。而当它走下产线时，它所“冻结”的 Llama 模型，在日新月异的算法世界里，是否已经沦为一个落后的“古董”？

再者是容错率的错位。大模型如果出现严重的幻觉或安全漏洞，可以通过微调或推送 OTA 补丁来迅速修复。但是，一块已经刻好物理电路的芯片该怎么打补丁呢？一旦芯片内固化的模型存在致命缺陷，整批昂贵的芯片大概率只能沦为硅垃圾。

对于这些致命的商业风险，Taalas也给出了他们的防守策略。首先是微调的保留， HC1虽然锁死了基础权重，但依然保留了对低秩自适应（LoRA）微调的支持。这意味着企业可以在物理大模型的外部，外挂小型的“知识补丁”来调整特定任务的表现。其次是极速的物理迭代，Taalas CEO 透露，改变模型并不需要重新设计整个底层硅片，而只需更改芯片最上层的两层金属层。这种制造工艺的创新，将新模型的硬件化周期压缩到了惊人的两个月，从而帮助模型实现小幅迭代。

纵然如此，这依然是一场与时间赛跑的豪赌。在这场博弈中，Taalas试图用硬件的极致静态，去捕捉 AI 算法的极致动态，不可避免地带有一些“刻舟求剑”的悲壮色彩。

四、蝴蝶效应：谁在战栗，谁在狂欢？

尽管局限性很明显，但Taalas这种“模型即芯片”的路线的面世，依然撕开了英伟达绝对垄断帝国的一道裂痕。

英伟达的地位，很大程度上归功于其CUDA软件生态。全世界的开发者都在用CUDA写程序，这使得硬件的壁垒变成了坚不可摧的软件生态壁垒。但是，如果AI的尽头不再需要软件呢？

Taalas的路线意味着，在推理这个占据未来AI算力90%以上份额的市场中，CUDA的护城河被彻底绕过了。模型训练依然离不开英伟达的GPU，但在最终落地应用的端侧和专业推理数据中心，ASIC专有芯片正在掀起一场“去英伟达化”的起义。

另外，随着生成式AI加速进入商业落地，Taalas之外，Groq、Cerebras、Etched等公司也分别在极速响应、海量吞吐、特定算法加速方面进行着不同的探索，都有可能一点点蚕食推理市场，撼动曾经固若金汤的英伟达帝国。

同时，存储巨头的狂欢也极可能降温。目前，HBM芯片是存储行业的超级印钞机。但如果模型权重被内化于电路，对庞大显存的依赖将大幅降低。无存算分离架构一旦普及，存储厂商在 AI 时代的暴利预期将被大幅挤压。

正因如此，Taalas将大模型刻进硅片，绝不是AI算力的终点，在不远的未来，我们也许会看到算力市场的明显分化：

云端与训练场依然是英伟达GPU和通用加速器的天下，用于探索AGI的智力边界，处理那些最复杂、最多变的未知任务。

端侧与流水线则是Taalas这类“物理硬化”芯片的汪洋大海，它们如沙子般便宜，如光速般敏捷，渗透进每一个路灯、每一台家电、每一个工业机器人中。

甚至，当我们把目光放得更长远一些，当量子计算真正走向实用，或者类脑计算实现突破时，今天我们为了突破冯·诺依曼架构所做的所有努力，可能都会成为技术史上一次次充满勇气而又略显笨拙的尝试。

结语：从“全能大脑”到“硬件本能”

计算架构的演进从来不是单向的直线，而是螺旋上升的复调。从早期的专用打孔机，到通用CPU，到专为图形处理诞生的GPU，再到如今的AI ASIC，计算的历史，就是在“通用灵活性”与“专用极致效率”之间不断摇摆的过程。

Taalas的探索，或许在今天看来略显激进，甚至面临“出厂即落后”的窘境，但它向我们抛出了一个极具哲学意味的产业命题：

AI的终极演化形态究竟是什么？

它是否必须永远保持像水一样可以随意重塑的“通用软件大脑”？

还是说，就像生物历经亿万年进化一样，AI 也会将其最基础、最成熟的智能（比如基础的视觉识别、语言逻辑解析），内化为无需思考、极低功耗运行的“硅基硬件本能”？

回望科技史，任何伟大的范式转换，往往都在非议与豪赌中诞生。

也许，未来的 AI 计算基座并不是非此即彼。云端依然是算力磅礴的通用 GPU 集群，而在万物互联的终端，则是无数颗被固化了“本能”的低功耗 AI 芯片。

当大模型不再是云端的高岭之花，而是变成像电阻、电容一样廉价且随处可见的电子元器件时，AI 真正的大爆发，才算真的拉开大幕。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI GPT-5.6遭泄露：150万token超GPT-5.5，剑指DeepSeek引变局

7天前

每天审200个PR、每月3000个Issue？智能体开始并行写代码，人类可能成最薄弱环节

7天前