> 自媒体 > (AI)人工智能 > 仅需 40 万,4 台顶配 Mac Studio 串联,同时跑两个 DeepSeek 是什么体验?
仅需 40 万,4 台顶配 Mac Studio 串联,同时跑两个 DeepSeek 是什么体验?
来源:爱范儿
2025-08-30 10:08:33
83
管理

几个月前,爱范儿在一台 M3 Ultra 的 Mac Studio 成功部署了 671B 的 DeepSeek 的本地大模型(4-bit 量化版)。而如果把 4 台顶配 M3 Ultra 的 Mac Studio,通过开源工具串联成一个「桌面级 AI 集群」,能否把本地推理的天花板再抬高一个维度?

这也是来自英国创业公司 Exo Labs 正尝试解决的问题。

「不要以为牛津大学 GPU 多得用不完」

你可能会以为像牛津这样的顶级大学肯定 GPU 多得用不完,但其实完全不是这样。

Exo Labs 创始人 Alex 和 Seth 毕业于牛津大学。即使在这样的顶尖高校做研究,想要使用 GPU 集群也需要提前数月排队,一次只能申请一张卡,流程漫长而低效。

他们意识到,当前 AI 基础设施的高度集中化,使得个人研究者和小型团队被边缘化。

去年 7 月,他们启动了第一次实验,用两台 MacBook Pro 成功串联跑通了 LLaMA 模型。虽然性能有限,每秒只能输出 3 个 token,但已经足以验证 Apple Silicon 架构用于 AI 分布式推理的可行性。

并行推理:在运行 DeepSeek V3 的基础上,又加载了同样 670 亿参数的 DeepSeek R1。系统立即将 R1 分配到剩余的两台设备上,实现两个大模型并行推理,支持多用户同时提问。

M3 Ultra Mac Studio 的起售 32999 元,配备 96GB 统一内存,而 512GB 的顶配版本价格确实不菲。但从技术角度来看,统一内存架构带来的优势是革命性的。

在设计 M 芯片之初,苹果更多是为节能、高效的个人创作而生。但统一内存、高带宽 GPU、Thunderbolt 多路径聚合等特性,却在 AI 浪潮中意外找到了新定位。

传统 GPU 即使是最高端的工作站卡,显存通常也只有 96GB。而苹果的统一内存让 CPU 和 GPU 共享同一块高带宽内存,避免了数据在不同存储层级之间的频繁搬运,这对大模型推理来说意义重大。

当然,EXO 这套方案也有明显的定位差异。它不是为了与 H100 正面对抗,不是为了训练下一代 GPT,而是为了解决实际的应用问题:运行自己的模型,保护自己的数据,进行必要的微调优化。

如果说 H100 是金字塔顶的王者,而 Mac Studio 正在成为中小团队手中的瑞士军刀。

何宗丞 (Jonathan Ho)

从技术的旁观者与记录者,成为技术影响生活方式的实践者。

邮箱TwitterFlickr新浪微博Google 9

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿|原文链接· ·新浪微博

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
司机(普通会员)
文章
2140
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112596

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索