Apple Silicon costs more than OpenRouter
344 points • 1 day agoArticle Link

在苹果芯片上本地运行大型语言模型时,真正的成本不是电费,而是硬件。作者分析了在配备 64GB 内存的 M5 MacBook Pro 上运行 Gemma 4 31b 的经济性,该机零售价为 4299 美元。在满载功耗 50–100 瓦、电价约 0.18–0.20 美元 / 千瓦时的情况下,每小时电费约 0.02 美元;若全天满负荷推理,每天约 0.48 美元,几乎可以忽略。真正的开销是机器本身及其折旧速度。

作者考虑了硬件使用寿命为 3 年、 5 年和 10 年的三种情形。以 5 年为中位数时,机器每小时成本约为 0.098 美元,合并电费后约为 0.12 美元 / 小时。关键在于这段时间内能处理多少 token 。对于类似 Gemma4:31b 这样的大模型,M5 Max 的速度大约在每秒 10 到 40 个 token 之间。按每秒 10 个 token 算,每小时能处理 36000 个 token,相应每百万 token 的成本在 1.61 到 4.79 美元之间(取决于寿命假设)。按每秒 40 个 token 且寿命为 10 年估算,每百万 token 的成本可降到约 0.40 美元。

相比之下,OpenRouter 上运行 Gemma4 31b 的价格约为每百万 token 0.38 到 0.50 美元。在最乐观的假设下,MacBook Pro 勉强能与云端价格持平;但在更现实的假设下,苹果芯片上的本地推理成本大约是从 OpenRouter 租用算力的三倍。而且 OpenRouter 的供应商通常能达到每秒 60 到 70 个 token,远快于 M5 Max 的本地表现。

从纯成本角度看结论很清楚:对于使用工作笔记本的人来说,他们的薪水远高于 token 成本(大约高出一千倍),因此付费使用 Anthropic 或通过 OpenRouter 租用算力比把一切都放在本地更划算。不过作者仍觉得值得惊讶的是,消费级笔记本居然能运行出接近 Anthropic Sonnet 级别性能的模型,哪怕目前在经济性上还不完全划算。

292 comments • Comments Link

• 前沿 AI 公司以巨额亏损价格出售推理服务,烧掉数千亿美元抢占市场份额,并在被迫提价前不计成本,这使个人在纯成本竞争中几乎没有胜算。

• 云服务商通过工业电价、批发硬件定价、多租户利用率和专用芯片获得远超个人设备的效率,使得消费级硬件在每 token 成本上几乎无法竞争。

• 整个推理栈受到风险资本补贴:例如 OpenRouter 以 13 亿美元估值融资,国内模型如 DeepSeek 和 Qwen 采取激进定价,因为北京系资本更看重市场份额而非利润率,这意味着当前的低价并非稳定均衡。

• Anthropic 和 OpenAI 等公司宣称"推理盈利"的说法站不住脚:他们往往忽视持续训练所需的投入、资本成本、折旧以及用户流失带来的费用,这些都需要数十亿美元,使得所谓"盈利的推理"不过是一种误导性的成本隔离。

• 用"种橙子"的比喻并不恰当:推理更像是在卖橙子,模型构建才是种植果园;真实的动态更像跑步机——停止训练就会过时,而不是一次性投资就一劳永逸。

• 本地推理在经济上合理的主要情形是硬件已被用于其他用途:在现有笔记本上运行模型的边际成本基本上只是电费,而不是再买一台新机器的全部花费。

• 本地模型的主要价值并非单纯节省成本,而是控制权、隐私、保密性、数据主权、抗中断能力,以及免受模型贬值或意外定价调整的影响;这些好处无法通过简单的每 token 成本比较体现。

• 对于典型的智能体工作负载,输入 token 往往占主导成本,通常比输出 token 高出约十倍。本地推理能使输入 token 成本几乎为零,且本地提示缓存更可靠,这显著改变了这些场景中对本地部署有利的成本计算。

• 将 MacBook Pro 与云服务直接比较存在缺陷,因为这种比较把整台笔记本的成本全部归于推理;而大多数用户本来就拥有硬件,笔记本还提供超出 token 生成的通用计算价值。

• 像 Qwen 3.6 27B 这样的中小型开源模型在许多基准上正缩小与大型前沿模型的差距,并能在消费级硬件上以可用速度运行,这使得本地推理成为有吸引力的选择,挑战了"云始终更好"的假设。

讨论揭示了本地与云 AI 推理之间,基于纯每 token 成本的经济学与更广泛价值考量之间的根本张力。从每 token 成本角度看,云推理凭借规模经济、工业化效率和大量风投补贴占优,使得当前定价长期看并不稳定,因此云端明显有优势。然而,参与者普遍强调,把比较简化为单纯成本对许多用户而言是失之偏颇的。隐私、数据主权、抗中断、对模型行为的控制以及避免被供应商锁定,都是云服务难以提供的重大非货币价值。更为细致的观点认为:当硬件已被占有、工作负载对隐私高度敏感或以输入密集型智能体任务为主时,本地推理最有意义;而在追求原始性能、访问最前沿模型或优先便利性的用户群体中,云端仍更具优势。共识是,选择不仅仅取决于经济性,而是高度依赖个人优先级——成本只是众多因素之一,还包括信任、保密性和长期可预测性。