HN Hot Posts

Fecal transplants for autism deliver success in clinical trials

328 points • 3 days ago • Article Link

Arizona State University 的研究显示，粪便微生物移植可以在长期内显著缓解儿童自闭症的症状。研究对 18 名接受治疗的自闭症儿童进行了为期两年的随访，发现与基线相比，症状平均减少了 45% 。治疗方案先进行肠道清洁，然后连续七到八周每日进行粪便移植；这些改善不仅持续存在，且随时间进一步加深。治疗前有 83% 的参与者被评为重度自闭症，两年后仅剩 17%，有 44% 已低于轻度自闭症谱系障碍的阈值。

Arizona State University 的研究显示，粪便微生物移植可以在长期内显著缓解儿童自闭症的症状。研究对 18 名接受治疗的自闭症儿童进行了为期两年的随访，发现与基线相比，症状平均减少了 45% 。治疗方案先进行肠道清洁，然后连续七到八周每日进行粪便移植；这些改善不仅持续存在，且随时间进一步加深。治疗前有 83% 的参与者被评为重度自闭症，两年后仅剩 17%，有 44% 已低于轻度自闭症谱系障碍的阈值。

肠道健康与自闭症之间的关联越来越受关注，约有 30% 至 50% 的自闭症人群存在慢性胃肠道问题，如便秘、腹泻和腹痛。研究人员发现，自闭症儿童的肠道微生物多样性明显低于典型发育儿童，缺少若干重要的有益菌株；当这些胃肠道问题得到改善时，儿童的行为和自闭症相关症状也出现了显著好转。

该研究延续了 2017 年的早期工作，后者首次在自闭症儿童中试用粪便移植，并观察到行为、社交能力、多动和沟通方面的改善。尽管最初的益处在八周时已显现（心理自闭症症状下降约 24%），但后续两年的随访表明疗效还在继续增长，降幅达 45% 。

在这些积极结果的推动下，团队为一种名为 Microbiota Transplant Therapy 的特定菌群制剂申请了专利，并成立了商业公司 Gut-Brain Axis Therapeutics 。该疗法已在成人中完成了 2 期安慰剂对照临床试验，与安慰剂组相比，在自闭症症状、胃肠道问题和接受性语言方面均显示出统计学显著的改善。团队目前正寻求资金开展规模更大的 3 期试验，以争取 FDA 的批准。

研究者强调肠道微生物与大脑信号之间的密切联系，指出肠道微生物组在整体健康与神经功能中发挥重要作用。这项工作为将肠道微生物组与抑郁症、创伤后应激障碍、自身免疫疾病等多种疾病联系起来的研究添加了新的证据，提示通过调控肠道健康可能为缓解自闭症症状提供一种新的治疗思路，但仍需更大规模的临床试验来验证结果并获得监管批准。

233 comments • Comments Link

有关"减轻自闭症症状"的标题容易产生误导。研究表明，治疗自闭症儿童常见的慢性胃肠道问题可以改善行为表现，这可能只是由于身体不适减轻后，他们更容易掩饰自闭症特征。掩饰通常是无意识的社会化反应，而不是治愈。

许多自闭症儿童饮食极为单一（例如多年只吃一种食物），这会导致营养缺乏（如坏血病），并严重削弱肠道微生物群的多样性。粪便微生物群移植（FMT）或许能在饮食范围扩展后帮助恢复微生物多样性，通过重新引入能够分解新食物的菌种改善状况。

关于到底是微生物群驱动了行为改变，还是饮食塑造了微生物群，存在争议。有人主张肠道细菌会影响渴望或情绪，但更简单的解释是，食物摄入直接决定哪些细菌能繁盛。相关性并不等于因果性，许多微生物群研究未能充分控制混杂因素。

2019 年的初步研究缺乏安慰剂对照组，因此难以将治疗效果与自然发育或其他干预区分开来。随后一项有安慰剂对照的试验（N=60）显示，自闭症症状仅有轻微改善（治疗组 9% vs 对照组 4%），而胃肠道症状的改善更明显，表明主要益处可能在消化系统层面，而非神经行为层面。

批评者指出该研究在伦理设计上存在问题。该治疗涉及为期 8 周的每日直肠移植，引发了关于胁迫的担忧，因为自闭症儿童无法真正给予知情同意。安慰剂组仅接受 3 天且为健康儿童，而治疗组则是为期 8 周的自闭症儿童，这种安排可能引入偏差。

公众对用公共资金支持的研究被商业化表示担忧。参与研究的大学人员为该菌株配方申请了专利，并成立了营利公司——Gut-Brain Axis Therapeutics，这引发了将纳税人资助的科研私有化的伦理质疑。尽管此类做法常见，但往往难以为公众带来相应回报。

该文章在 2025 年更新时加入了该公司的公关声明，但并未提供新的同行评审数据，给人更多像是市场宣传而非科学进展的印象。第二阶段试验结果尚未完全公开，更新的时机更符合投资者利益而非科学透明性。

粪便微生物群移植并非新技术，已用于治疗复发性艰难梭菌感染等疾病。然而，移植菌群的长期定植并不容易，饮食、抗生素和免疫反应等因素都会影响成效。发酵食品和膳食纤维有助于肠道微生物健康，但不能替代严重病例所需的 FMT 。

肠脑轴机制非常复杂，涉及营养吸收、迷走神经调节等多种理论，但微生物群直接驱动自闭症行为改变的证据仍属推测。虽然胃肠不适确实可能加重自闭症症状，但声称"治愈"自闭症既言过其实，也缺乏严格证据支持。

讨论还揭示了科学新闻传播的更广泛问题，例如对研究缺乏持续跟进以及把初步发现渲染为突破性成果。维基式的科学文章模型有助于提升长期准确性和背景信息，但当前的激励机制更倾向于追求轰动效应而非细致严谨。

总体而言，讨论对该研究结论持深刻怀疑态度，参与者强调需更严格的方法学、更多伦理考量，以及明确区分"缓解症状"与"治愈自闭症"。肠脑轴是一个有前景的研究方向，但目前证据仍属初步，且常被商业利益夸大；对长期随访和公共资助研究私有化的担忧也应被重视。

Moving away from Tailwind, and learning to structure my CSS

687 points • 3 days ago • Article Link

Julia Evans 最近将她的多个网站从 Tailwind CSS 迁回原生 CSS，这个过程让她既愉快又收获颇丰。使用 Tailwind 八年后，她意识到尽管它最初帮她摆脱了无结构 CSS 的混乱，但她已经超越了它的局限。她发现 Tailwind 其实教会了她如何系统化地管理调色板、字体比例等设计要素，于是决定把这些方法带入新的做法中。

Julia Evans 最近将她的多个网站从 Tailwind CSS 迁回原生 CSS，这个过程让她既愉快又收获颇丰。使用 Tailwind 八年后，她意识到尽管它最初帮她摆脱了无结构 CSS 的混乱，但她已经超越了它的局限。她发现 Tailwind 其实教会了她如何系统化地管理调色板、字体比例等设计要素，于是决定把这些方法带入新的做法中。

为了在没有框架的情况下管理 CSS，Evans 采用了受 React 等 JavaScript 框架启发的组件化结构。每个组件都有独立的 CSS 文件和唯一的类名，确保一个元素的样式不会意外覆盖另一个。这样的隔离让维护变得更容易：修改时只需关注小而自包含的代码块。她还为全局元素制定了严格的约定，比如把调色板集中用变量定义，以及只保留一套有限的基础样式以维持全站一致性。

她工作流程中的一个重大技术转变是从依赖媒体查询的响应式设计，转向使用 CSS Grid 。借助 auto-fit 和 grid-template-areas 等特性，她可以构建能适应不同屏幕尺寸的灵活布局，避免了大量断点带来的杂乱。她还简化了构建流程：开发时依赖原生 CSS 特性如 @import 和嵌套选择器，仅在生产打包时使用 esbuild，从而保持标准化并提高效率。

Evans 解释说她离开 Tailwind 的决定既有现实层面的考虑，也有理念上的原因。现实上，Tailwind 的新版本需要构建系统，这使她多年来不得不依赖一个过时且笨重的版本；此外，在同一项目中混用原生 CSS 与 Tailwind 也难以维护。理念上，她想远离那种贬低 CSS 专业性的趋势——她认为 CSS 是一门强大且复杂的技术，值得被学习和尊重，而不应被实用类所取代。

391 comments • Comments Link

我已准备就绪。请提供一篇 Hacker News 讨论帖的要点，我会按您指定的格式生成简洁摘要。

Where to buy a non-Apple, non-Google smartphone

282 points • 3 days ago • Article Link

苹果和谷歌都在强化对移动操作系统的控制，促使用户转而寻找替代方案。谷歌计划于 2026 年 9 月生效的新规要求所有 Android 应用开发者在谷歌注册、签署合同、缴纳费用并提交政府颁发的身份证件，这实际上阻断了来自未注册开发者的侧载应用，且没有退出选项。 Keep Android Open 活动一直在提醒公众注意这些限制，而谷歌则通过静默更新推动这些变化。

苹果和谷歌都在强化对移动操作系统的控制，促使用户转而寻找替代方案。谷歌计划于 2026 年 9 月生效的新规要求所有 Android 应用开发者在谷歌注册、签署合同、缴纳费用并提交政府颁发的身份证件，这实际上阻断了来自未注册开发者的侧载应用，且没有退出选项。 Keep Android Open 活动一直在提醒公众注意这些限制，而谷歌则通过静默更新推动这些变化。

多家公司提供无谷歌服务的手机，既有去谷歌化的 Android 版本，也有完全不同的基于 Linux 的系统。 Murena 是较为知名的选择，销售搭载 /e/OS 的手机和平板，这是一个以隐私为导向的去谷歌化 Android 系统，他们也提供 Fairphone 等高可修复性的设备。瑞士公司 Punkt 生产极简主义手机，如注重安全与隐私的 MC03 。

德国厂商 Volla 提供可运行自家 Volla OS 或 Ubuntu Touch 的手机和平板（Ubuntu Touch 是 Canonical 手机系统的社区继承版本）。芬兰公司 Jolla 出售搭载 Sailfish OS 的手机，其最新的 C2 已经前两批售罄，第三批现正接受预订。

想要纯粹 Linux 体验的用户可以选择 Furilabs 的 FLX1 与 FLX1s（运行 Debian），这些机型比主流智能机明显更厚更重。 Purism 的 Librem 5 是一款以自由软件驱动的手机，按当下标准配置偏低但价格不菲，反映了"数字自由"的成本。 Pine64 则有最初版的 PinePhone，一款面向黑客、低配置但易于折腾的设备，可运行 Mobian Linux 或 postmarketOS 。

大多数替代系统都能通过虚拟机或容器运行 Android 应用，从而解决兼容性问题。文章还指出，苹果也在推行令人反感的改动，例如 iOS 26.4 中的年龄验证措施，要求扫描护照或驾照等官方证件，这可能会把没有此类身份证件的用户锁在自己设备之外。

314 comments • Comments Link

看起来你可能粘贴了错误的文本。我是 OWL，一名英译中翻译专家。请提供你想让我翻译成中文的英文文本。

We've made the world too complicated

469 points • 3 days ago • Article Link

我们把世界弄得太复杂了。我写这篇文章时用着永远无法完全理解的技术，住在一栋有些房间我永远进不去的楼里，生活在由我无法掌控的法律支配的国家。我们清醒的大部分时间，乃至整个人生，都被压缩进一个抽象的世界。一走出门，就是城市的人行道，两旁停着丑陋的金属怪物，我像漂在陌生人海洋里。

我们把世界弄得太复杂了。我写这篇文章时用着永远无法完全理解的技术，住在一栋有些房间我永远进不去的楼里，生活在由我无法掌控的法律支配的国家。我们清醒的大部分时间，乃至整个人生，都被压缩进一个抽象的世界。一走出门，就是城市的人行道，两旁停着丑陋的金属怪物，我像漂在陌生人海洋里。

我们的世界充斥着对环境的破坏、操控、腐败与伤害。这让我们承受着一种连自己都觉察不到的压力——下颌微微紧绷，呼吸变浅，血压稳步上升。我们的内心始终弥漫着无声的困惑：这个世界讲不通。它一直都是这样，所以我们甚至不知道还有别的存在方式。

在关于 Demis Hassabis 和 Google Deepmind 的纪录片 The Thinking Game 中，呈现了一种世界观：AGI 能为人类最大的问题提供最佳解决方案，是技术的终极救世主。我觉得我们很会自我说服，相信自己在做有益的事，朝着诚实的目标努力：参与社会、发现新知、推动新的计划与项目。看到操纵他人如此容易，我们也理所当然地把自己当成构建现实的大师。

说实话，我常常想在铰链处把笔记本电脑一掰两半，想把手机扔进海里，想走出学校或办公室，从此不再回头。我想永远不再用钱支付，不再读任何文字。但那样会把你推向孤独，把你变成疯子。这样的念头很糟，是在美化"原始"生活方式。不，我们现在才是原始的。

我们学得越多，破坏似乎越跟着而来。讽刺的是，如果没有那些帮助我们回望的工具，我们或许永远不会意识到这一点——至少我们被这样引导去相信。我们对是非的直觉仿佛在很小的时候就离开了我。我曾想做很多事：创造伟大的艺术，制造伟大的机器，解决重要的问题。也许我们能给世界最大的礼物，就是尽量少做。看鸟儿，感受风和水在手心里，除此之外什么也不做。饿了就吃，快乐就笑，空虚就哭。也许这也是我们能给自己的最大馈赠。

462 comments • Comments Link

人类理解宇宙的能力源于一连串极不可能的进化事件，这反过来赋予智慧生命一种责任——去探索并认识存在本身，而不是浪费这份稀有的礼物。需要强调的是，这种责任适用于人类整体，而不必然要求每个个体都承担全部义务。

进化通过选择机制在组合系统中自然地产生越来越多的功能性信息，使得智能和复杂性成为自然法则的必然结果，而非偶然的产物。自大爆炸以来，功能性信息的比特数一直在增加。

把理解宇宙当作义务的并非只有人类，本质上属于广义的智慧生命。这项使命可以通过机器人探测器或其他形式的人工智能来实现；居住在某处并不比观察和理解那里的事物更为重要。

现代的复杂性带来持续的适应压力：我们必须不断、频繁地重新适应自己创造的环境。与前现代人世代在相似环境中成长不同，加速的变化几乎成了焦虑的定义。

为长期抽象目标服务的工作往往令人感到不完整、难以理解或无法掌控；与之相对的本地即时性工作（如烘焙、修理）反馈回路短、满足感直接，因为它们是在为真实的人解决具体问题。

现代社会之所以显得格外复杂，是因为物质条件变化的速度超过了代际间能力传递的速度。虽然所有物质条件本身都具有复杂性，但不适感源于我们被置于一个超出适应能力、持续演化的系统中。

必须区分为了满足人类需求而存在的必要复杂性（例如医疗系统）与某些为特定利益故意制造的、不必要的复杂性。后者的设计往往是为了阻碍比较或转移责任，而非真正服务消费者。

自然界为大脑的进化提供了阶梯，而现代社会充满分心，使得"什么都不做"的冲动成为一种自然反应。但这种回避并非健康的平衡，它往往接近抑郁的状态。

人类文明自始至终都包含超出个人理解能力的复杂性——从无法掌控的古代法规到普通人无法制造的进口武器。专业化是文明的基石，随着知识不断扩展，博学者变得越来越不可能。

觉得一切都太复杂是一种反复出现的代际体验：老一辈常怀念他们口中的"简单时代"，而那些伴随当下复杂性成长起来的人则觉得这些事情并不难。

讨论揭示了一个张力：一方面承认复杂性是存在的固有特征，另一方面质疑现代人类所制造的系统是否已经超过了某个最佳阈值。部分参与者认为复杂性本身并不新鲜，引用自然系统、古代文明和历史技术来说明个人同样难以理解的事物；另一些人则区分了自然复杂性（要求适应）与人为管理的复杂性（常常要求服从）。对话还探讨了"不堪重负"的感觉是否源于加速变化造成的认知过载、代际视角的转变，或是现代系统在理解和控制方面使个体产生了真正的疏离。有人主张通过回归自然和练习正念来接受并寻找平衡，另一些人则认为问题在于那些为制度利益而非人类福祉制造不必要复杂性的结构性选择。

Frontier AI has broken the open CTF format

416 points • 3 days ago • Article Link

CTF 领域已经死了。前沿 AI 打破了开放式 CTF 的赛制，记分板不再能清晰衡量人类技能。作者自 2021 年深度参与 CTF 社区，曾赢得 DownUnderCTF，与 TheHackersCrew 等顶级队伍在国际赛场并肩作战，他认为旧的游戏不会回来了。这并非出于反感，而是认清了事实：CTF 曾是他热爱安全的根基，教会了他如何学习、衡量进步、并与令人尊敬的同行建立联系。看到大家还在装作赛制没变，很令人沮丧——核心体验已经被根本改写了。

CTF 领域已经死了。前沿 AI 打破了开放式 CTF 的赛制，记分板不再能清晰衡量人类技能。作者自 2021 年深度参与 CTF 社区，曾赢得 DownUnderCTF，与 TheHackersCrew 等顶级队伍在国际赛场并肩作战，他认为旧的游戏不会回来了。这并非出于反感，而是认清了事实：CTF 曾是他热爱安全的根基，教会了他如何学习、衡量进步、并与令人尊敬的同行建立联系。看到大家还在装作赛制没变，很令人沮丧——核心体验已经被根本改写了。

变化是渐进的：起初 GPT-4 能用一句提示解决中等难度题目，看起来还能接受，因为高难度题目还在。真正的拐点出现在 Claude Opus 4.5，几乎把所有中等难度和部分高难度题目变成了 agent 可解的东西。像 Claude Code 这样的工具通过 API 为每个题目自动启动实例，团队可以批量化运行 agent 。突然间，不用 AI 的队伍不仅失了便利，更是在玩一个慢一拍的版本。记分板开始衡量的是编排能力和愿不愿意用前沿模型，甚至超过了真实的安全技能。这扭曲了 CTFTime 的排行榜，压缩了传奇队伍的参与，也让辛苦出题、花数周打磨题目的出题人感到绝望——他们的作品在几分钟内就被 agent 干掉了。

GPT-5.5 及其 Pro 版本把局面定型了。这些模型现在能一次性解决"Insane"难度的题目，包括之前被认为无法自动化的复杂 heap pwn 问题。只要你能付得起足够的 token 和上下文，就能在 48 小时的 CTF 结束前把题目清光。开放式 CTF 变成了付费赢利的赛场，表现更取决于算力投入而非人类专业能力。相较于通用的前沿 LLM，专门的安全模型变得无足轻重。比赛不再是"谁更懂安全"，而是"谁能负担得起运行更多 agent 、持续更久"。 CTF 的成绩正在失去作为招聘安全人才指标的价值；它甚至不能很好地衡量 AI 技能，因为大多数编排工具已经开源或很容易搭建。

有人说初学者仍能像以前那样从 CTF 学到东西，但这忽略了关键：CTF 从来不仅是题目，它是条晋升阶梯。初学者能看到自己进步、解更多题、拿更好名次、加入更优秀的队伍。这个反馈回路正在断裂。可见的排行榜被 AI 团队占领后，初学者被迫在还没建立起 AI 无法替代的直觉之前就开始依赖 AI 。这是反模式，扼杀了需要挣扎和思考的主动学习。付出努力却看不到上升通道会让人丧失动力。对于初学者，更适合的选择是像 picoGym 或 HackTheBox 这样的学习型平台，那里的目标是教育而非竞争，也更少诱人走捷径。

也有人说 CTF 并未死亡，只是被 AI 增强了，举 DEF CON 等精英决赛还存在作为例子。但这并不能成立：那些决赛参与人数很少，且被资格赛筛选，而资格赛本身比决赛更容易。如果资格赛被 agent 扫荡，真正有实力的人就更难进入那些仍能抗住 AI 的题目。少数精英决赛救不回大多数人参与的开放在线赛制。问题不在于每道题都被解掉，而是排行榜上足够多的条目被自动化，以至于它已不再代表过去的含义。

认为 AI 对安全研究有用所以理应出现在 CTF 中，也是个错位的论点。 CTF 本身并不是安全研究，它可以展示新技术，但并非发现的载体。仅因为 AI 在某领域有用，并不意味着它理应占据该领域的竞技场。在 CTF 中，不受限制的 AI 把人类几乎完全从题目中剔除，把安全的技艺简化为一个提示。 CTF 曾是一种艺术，是分享技巧、推动人类安全技能极限的方式——而这种意义正在被剥夺。

把 CTF 比作棋类再用棋局引擎来辩护也站不住脚。关键区别在于：国际象棋引擎在比赛时不被允许使用。它们用于赛后分析、训练和解说，丰富比赛的外延但不取代参赛者。试想给每个竞技棋手配上最强引擎并允许在对局中使用，这公平吗？好看吗？能说明奖励池合理吗？能推动人类能力的极限吗？CTF 面临同样的问题。

CTF 组织者尝试过各种手段去对抗或阻挡 LLM，但这些充其量只是临时摩擦。 Claude Code 不会被旧的拒绝串技巧难倒，前沿模型在侦测提示注入方面越来越强。网络搜索能力又削弱了那种基于训练截止后技术的题目。要求参赛者别用 LLM 的规则被普遍忽视，开放在线活动几乎无法执行这些限制。组织者左右为难：出常规题，agent 太多题能解；刻意出对 agent 敌意极大的题，那些题往往变得靠猜测、过度设计，甚至连人类都难以忍受。这不是解决办法，只是让所有人受罪。

"去适应"这种说法尤其让人恼火。社区里很多曾被作者仰望的人都会这样说，但这只有在说明"适应成什么"时才有意义。若"适应"是指做更好的工具，玩家们早已在做；若是出更难的题，组织者早已尝试过；若是接受记分板已变成 AI 编排基准，我们应该直说，而不是假装旧的竞赛形态仍在。即便组织者能想出当前 LLM 无法解的更猜测性或更过度设计的题目，玩家也很难在保持竞争力的同时学习所需技能。再过几代模型，这些努力可能也会变得无关紧要。 LLM 在安全能力上的进展速度太快，题目设计很难长期领先。

后果已显而易见：CTFTime 排行榜几乎看不见历史或人类技能的痕迹。 2026 年的榜单已与往年判若两人。 TheHackersCrew 和许多其他大型有名气的队伍，不是干脆不参赛，就是参赛人数大幅下降，或难以挤进前十。无监管的作弊泛滥。一些曾很优秀的 CTF，比如 Plaid CTF，也停办了。这种感受并非作者一人所有：作者所在本地队 Emu Exploit 的许多成员也有同感。他们持续参加 International Cybersecurity Championship，在 bug bounty 中表现优异，参与 Pwn2Own，并在 Black Hat 等会议发表演讲。失去兴趣的并不是局外人，而恰恰是那群曾被这个生态培养和留住的核心人物。

对许多真正在乎的人来说，CTF 的乐趣已不复存在。失去的不是一块记分板，而是从初学者好奇心到精英赛场的阶梯，是题目设计的匠心，是一个聪明的人靠深刻理解解决难题的成就感。这份遗产并未被当前形式的开放在线 CTF 继承。这个赛制已经死了，或许会被别的东西替代，但若还装作一切如常，只会让损失更难正视，也给那些推销 AI 的人更多机会，把社区贡献的价值打包卖回去。

尽管 CTF 与 AI 的变动高度商业化，超出我们掌控，但 CTF 对行业的正面影响不可抹杀。作者通过 CTF 结识了许多善良、聪明且充满热情的人，遇到过设计精巧的题目，发现过意想不到的解法。围绕 CTF 的社区一直是学习、成长与交往的好地方。这些东西无论比赛走向如何，都值得保留。作为社区，我们应当团结，开辟新路径保持热情与学习。像 SecTalks 、学生会议、本地聚会这样的安全相关社交活动，是保持联系的好方式；学习平台及其在 Discord 上的社区也很有价值。虽然要找到曾经那样的替代品不易，但我们围绕 CTF 建立起来的优秀社区，比以往任何时候都更值得珍惜，在寻找保持竞争精神的新的出路时尤为重要。

453 comments • Comments Link

讨论集中在人工智能，特别是大型语言模型（LLM）对 Capture The Flag（CTF）网络安全竞赛和整体教育的影响。参与者认为，AI 从根本上破坏了开放式 CTF 的形式，参赛者可以在不掌握底层概念的情况下靠模型解题，把比赛变成了基于 token 使用而非技能的"pay-to-win"场景。这也反映了教育领域更广泛的危机：AI 让"让它帮我做"变得异常容易，阻碍了批判性思维和从第一性原理出发的推理能力的发展。尽管有人认为 AI 是专家的强大辅助工具，但许多人担心它在培养出一种"替代人类"的管道，而我们的教学方法和技能验证手段却没有随之演进。讨论还凸显了在 AI 时代之前学习的人与依赖 AI 的人之间日益扩大的分化，许多资深开发者指出，像写出 FizzBuzz 这种基本能力在毕业生中已变得罕见。为维护竞赛与教育的完整性，建议转向面对面的线下赛事并严格控制硬件，或重新设计挑战，使其要求物理交互或具备当前 AI 难以应对的极端新颖性。最终，社区正努力应对一种恐惧：学习中必须经历的"挣扎"正在被自动化取代，可能会催生一代"vibe coder"——能交付代码但缺乏维护或创新复杂系统所需的深层理解的人。

'No way to prevent this,' says only package manager where this regularly happens

449 points • 3 days ago • Article Link

npm registry 遭遇大规模供应链攻击，导致数百万企业级应用被入侵、数十亿用户记录泄露。 JavaScript 生态的开发者们反应如出一辙：这完全不可避免。高级前端工程师 Mark Vance 精准地捕捉到了这种心态，称这"只是构建现代 Web 应用的代价"，这一观点在社区中广为认同。社区甚至会为像字符串大写这种基础任务，依赖由匿名陌生人维护的未经审查、层层嵌套的包。此次攻击利用了一个长期无人维护的工具包，在全球生产构建中注入了加密矿工，但开发者们仍把它归为不可预见的悲剧。

npm registry 遭遇大规模供应链攻击，导致数百万企业级应用被入侵、数十亿用户记录泄露。 JavaScript 生态的开发者们反应如出一辙：这完全不可避免。高级前端工程师 Mark Vance 精准地捕捉到了这种心态，称这"只是构建现代 Web 应用的代价"，这一观点在社区中广为认同。社区甚至会为像字符串大写这种基础任务，依赖由匿名陌生人维护的未经审查、层层嵌套的包。此次攻击利用了一个长期无人维护的工具包，在全球生产构建中注入了加密矿工，但开发者们仍把它归为不可预见的悲剧。

与此同时，Go 、 Rust 以及主要依赖原生 Web API 的生态系统报告为零事故，这得益于它们健全的标准库和内置于核心工具的严格加密验证。两者的对比突显出方法论上的关键差异：这些生态系统尽量减少对第三方代码的依赖，并把安全当作基础性考量，而不是事后补救。相比之下，npm 生态的默认行为仍是在本地机器上执行任意安装脚本，这一做法已多次导致灾难性后果。

一位 npm 发言人对受害者表示同情，但称即便 registry 存在已知漏洞，也没有任何 registry 策略或构建沙箱能阻止此次攻击。这番表态反映了 JavaScript 社区反复出现的模式：强调韧性胜过预防，把安全事件视为不可避免的自然灾害，而非系统性失误。在下一次事件到来之前，开发者们只能轮换 AWS 密钥、发发祈祷——这样的循环看来短期内难以打破。

217 comments • Comments Link

• 冷却期是防止 npm 供应链攻击的有效手段：大多数恶意包会在几小时内被发现，因此即便把新发布包的采纳延后一天，也能阻止入侵。 pnpm（已默认启用一天冷却期）、 depsguard 和 cooldowns.dev 等工具简化了这一做法，并提供了针对紧急安全补丁的绕过机制。

• 七天的冷却期看起来过长，但对项目初期会使用数月的依赖来说通常是安全的，只有在应对已知漏洞时才应进行显式的即时升级。

• Maven Central 的做法值得 npm 借鉴：要求验证命名空间所有权（例如通过域名控制）、强制已发布包不可变，并避免使用动态版本范围。与 npm 较宽松的策略相比，这些措施能降低供应链风险。

• JavaScript 生态中大量小而深度交织的依赖使严格锁定版本变得不切实际，这与 Java 的单体库不同，因此其他生态系统的解决方案难以直接移植到 JavaScript 。

• 安装后脚本是 npm 的主要攻击面之一：它们在安装时以安装程序的权限自动运行，常在持有敏感令牌的 CI/CD 环境中执行，使恶意代码能够像蠕虫一样快速扩散——最近的 Shai-Hulud 攻击就是例证。

• 广义上讲，安装后脚本只是一个加速器——毕竟依赖中的代码总有机会被执行——但它们显著缩短了防御者的反应时间，比起只在运行时或测试时触发的负载更难防范。

• Rust 和 Go 也并非固若金汤；尽管它们的依赖平均较少，但 build.rs 等构建脚本和 go:generate 等代码生成机制仍可能执行不受信任的代码，而且这些生态缺乏强力的沙箱或强制性安全策略。

• 所有生态系统面临的根本问题是经济层面：像软件包注册表和核心库这样关键的基础设施服务数十亿用户，却长期资金不足，导致在命名空间验证或自动扫描等基本安全措施上的投入微乎其微。

• 文化因素也在加剧问题：习惯性地频繁更新依赖、维护者为显得活跃而做不必要的变更，以及对依赖审计重视不够，这些都增加了供应链风险暴露。

• 使用 Nix 管理依赖或改用默认禁用安装后脚本的包管理器等替代方案能提供有效防护，但要实现系统性改进，还需要更好的工具以及开发者行为和资金模式的变化。

讨论达成的共识是：虽然冷却期、锁定文件和禁用安装后脚本等技术缓解措施能降低风险，但潜在漏洞源于开源生态和资金维护方式中的结构性缺陷。没有任何单一方案可以彻底杜绝供应链攻击，必须采取纵深防御——工具、策略与文化变革相结合。关于某些生态（如 npm）是否存在独特缺陷，还是仅因其规模与集中性而更易成为目标，争论仍在进行；参与者提醒不要自满，也不要将责任归咎于单一因素。

The main thing about P2P meth is that there's so much of it (2021)

203 points • 3 days ago • Article Link

这篇文章调查了关于"新型"甲基苯丙胺（冰毒）的说法：有人认为用苯基丙酮（P2P）合成的冰毒在化学上不同，会引发更严重的精神问题，如偏执和精神分裂症。 Sam Quinones 等人曾提出 P2P 冰毒比早期以麻黄碱为原料的版本更为险恶。作者审视了有关化学差异的证据，着重分析了异构体和杂质，但最后认为真正的问题在于供应量的急剧增加。

这篇文章调查了关于"新型"甲基苯丙胺（冰毒）的说法：有人认为用苯基丙酮（P2P）合成的冰毒在化学上不同，会引发更严重的精神问题，如偏执和精神分裂症。 Sam Quinones 等人曾提出 P2P 冰毒比早期以麻黄碱为原料的版本更为险恶。作者审视了有关化学差异的证据，着重分析了异构体和杂质，但最后认为真正的问题在于供应量的急剧增加。

由于对麻黄碱和伪麻黄碱的管制，2009—2012 年间美国的冰毒生产转向 P2P 合成。朴素的 P2P 合成会产生等量的 d- 甲基苯丙胺（活性强）和 l- 甲基苯丙胺（几乎无精神活性）。 DEA 的数据显示，尽管早期 P2P 冰毒含有大量 l- 异构体，但到 2019 年几乎已接近纯 d- 异构体。这一点削弱了将 l- 甲基苯丙胺归咎于精神病增加的观点，因为精神病报告是在 l- 成分下降之后才增多的。

文章还考察了不同 P2P 合成路线可能带来的杂质，比如使用醋酸铅或经硝基苯乙烯（NTS）路线的产物。然而，冰毒的纯度实际上随时间提高，平均达到约 95% 的 d- 甲基苯丙胺。合成方法从 PAA 到 NTS 再回头的变化，与精神分裂症报告并无明显关联，这进一步削弱了"杂质致病"假说。

相反，作者强调的是冰毒供应量的巨大增长。边境缉获量、 Seattle 的污水检测和各类使用调查都显示，尤其是重度使用者中，冰毒消费大幅上升。 2015 到 2019 年间每日使用者人数增长了三倍。价格暴跌也表明市场供应充足。

冰毒相关的死亡人数激增，每年有数万人死亡。虽然部分死亡与芬太尼有关，但很多并非如此。作者指出，冰毒效力极强，使用者常摄入相当于临床 Adderall 剂量百倍的量。高纯度、低价格和重度使用的结合，能解释过量死亡和严重精神症状的上升，而无需诉诸药物本身在化学上存在不同。

总之，现有证据并不支持 P2P 冰毒在化学上以某种方式更具危害性的说法。精神病与过量死亡的增加，更可能源于高纯度冰毒的前所未有的大量供应，导致更多人重度使用、累计剂量更高。关于 P2P 冰毒，最关键的变化就是供应量大幅增加。

258 comments • Comments Link

• 使用磷 / 碘还原法从麻黄碱合成甲基苯丙胺的工艺非常简单，仅需一次酸碱萃取和一组非极性溶剂，比多步替代方法更为洁净，后者更容易引入有毒杂质。有观点认为，在受监管的前提下获取少量纯甲基苯丙胺比现有黑市更安全，且会削弱贩运集团的势力，并指出该药物在被刑事化之前有着长期的使用历史。

• 阿片类药物危机常被用来反对合法化：有人认为，即便是医生开具、受监管的制药级阿片类药物，也可能引发灾难性的成瘾问题，导致的年度死亡人数超过越南战争的死亡人数。这些人声称，容易获得毒品会导致大规模成瘾、过量用药并促使用户转向更强效的物质，并认为在现代没有国家成功实现对"硬性毒品"的非刑事化。

• 也有人认为阿片危机源自一种伪利润结构，而非合法化本身。因为阿片类药物需处方且利润丰厚，生产商和医生都有不当激励去推广这些药物而不是更廉价的替代品。如果阿片类药物能廉价且无需处方获得，这些由利润驱动的过度处方动力将会消失。

• 将阿片类药物的情形直接与甲基苯丙胺的监管相比并不恰当：阿片问题被工业化的利润驱动机器所俘获，通过回扣和各种激励手段影响医生，将其包装为安全且不易成瘾的产品。从毒品分销中去除利润动机，会消除许多问题；政府提供的受控物质将根本不同于掠夺性的制药公司操作方式。

• 社会经济因素常被视为成瘾的根本原因，理论指出人们以自我药疗来应对社会体系未能提供足够支持的现实。在这种观点下，简单地拒绝提供人们认为需要的物质，比起先解决驱动成瘾的社会和经济根源，往往是更容易但效果更差的做法。

• 瑞士和荷兰实施了海洛因辅助治疗项目，为重度成瘾者在医疗监管下提供制药级海洛因，荷兰项目服务约 4000 人。这类项目包括现场监督用药、剂量管理和定期体检，与仅使用美沙酮的做法相比，出现的问题更少。

• 美沙酮维持治疗也面临挑战，因为美沙酮本身对部分使用者仍有吸引力，导致转售——参与者把多余剂量卖给非参与者。在挪威，某些年份美沙酮过量死亡甚至超过海洛因，这说明用一种阿片类药物替代另一种而不引入新问题并不容易。

• 禁毒战争普遍被认为是一场重大失败：在执法层面或许见效，但并未消除毒品或显著降低长期危害。美国的药物过量死亡人数已经超过枪支和交通事故死亡人数之和，这表明禁令所造成的危害可能大于不加控制的风险，零容忍政策和长期监禁往往适得其反。

• 减害被认为是更可取的方向。禁止措施迫使使用者转向黑市、将使用者和其支持者绳之以法、压制减风险信息并通过恐吓宣传，使使用者忽视真正的警示。相反，监管生产与销售、鼓励责任使用、如实警示风险并提供可靠来源，更有利于公共卫生，同时仍可针对需要帮助的人提供支持。

• "禁令铁律"解释了更严厉执法为何会催生更高效力的毒品，正如海洛因被芬太尼取代一样。伪麻黄碱限制促使甲基苯丙胺的生产从基于麻黄碱转向 P2P 路线。近期甲基苯丙胺纯度与《绝命毒师》播出时间的相关性也表明文化因素会影响毒品生产质量。禁令激励生产更高效力的产品，因为贩运者倾向于最小化体积，但历史上这些高纯度产品的实际成分常有疑问，常含有来自蒸馏器或不当蒸馏的杂质。

• P2P 路线的甲基苯丙胺生产可能涉及有毒还原剂，包括汞齐和铅，一些 DEA 检测的样品显示出甲酸和汞的标记物。重金属暴露具有累积性，可能导致神经损伤，尤其是吸入或注射的使用者会最大化对这些杂质的接触。即使少量重金属长期积累，也可能产生显著影响，尤其当与大量使用兴奋剂引起的多巴胺系统损伤叠加时。

• ADHD 药物短缺与非法甲基苯丙胺生产激增并存，有观点认为政府对生产配额和供应的管控造成了人为短缺。处方安非他明类药物的年产量由政府控制，而社交媒体推动的 ADHD 诊断激增使需求超过受监管供应能力，显示中央化的产量控制难以有效应对需求波动。

• 伪麻黄碱限制被批评在减少甲基苯丙胺供应方面无效，反而让需要感冒药的合法使用者更加不便。尽管为此投入了数十亿美元执法资源，甲基苯丙胺仍然廉价且广泛可得，这些限制更多地将生产从小规模的本地作坊转移到卡特尔经营的大型工业实验室，实际增加了总供应并压低了价格。

讨论揭示了两类观点之间的深层张力：一方面有人认为禁毒政策已经失败，应当寻找替代方案；另一方面有人以阿片危机为例，警告即便是受监管的合法获取也可能带来灾难性的公共卫生后果。一个反复出现的主题是，无论合法还是非法，分销过程中的利润动机都会带来对使用者有害的不当激励。多位参与者认为社会经济因素与不足的社会支持才是成瘾的根本原因，单靠毒品政策无法彻底解决。对话也强调了减害方案的复杂性：瑞士的海洛因辅助治疗显示出希望，但规模仍然有限。总体而言，人们普遍认为现行政策在许多方面已失败，但对何种替代方案更有效几乎没有共识，提案从严格监管下的全面合法化到改善治疗项目，再到优先解决驱动成瘾的社会条件不等。

Erlang/OTP 29.0

257 points • 3 days ago • Article Link

Erlang/OTP 29.0 作为一次重大更新发布，带来了新特性、改进以及若干不兼容之处，整体聚焦于安全性、语言增强和系统性能优化。

Erlang/OTP 29.0 作为一次重大更新发布，带来了新特性、改进以及若干不兼容之处，整体聚焦于安全性、语言增强和系统性能优化。

安全性改进是本次版本的重点。 SSH 守护进程现在默认禁用 shell 和 exec 服务，遵循"默认安全"（secure by default）原则，除非显式配置，否则已认证用户无法执行任意 Erlang 代码。启动 SSH 守护进程时，SFTP 子系统也不再默认启用。在 SSL 中，后量子混合算法 x25519mlkem768 被列为默认配置中最优先的密钥交换组。 SSH 的默认密钥交换算法已更新为 mlkem768x25519-sha256，这是一种将 ML-KEM-768 与 X25519 结合的混合抗量子算法，通过自动回退机制在提供对经典与量子攻击的防护的同时保持向后兼容。

引入了多项语言层面的新特性。根据 EEP-79 描述的原生记录现已实现为独立的数据类型，而不再依赖传统的基于元组的记录，不过在本版本仍被视为实验性功能。新的 guard BIF `is_integer/3` 可用于方便地判断一个值是否为整数且处于指定范围内。根据 EEP-78 的多值推导式现已得到支持，启用 `compr_assign` 特性后，还可以在推导式中为变量赋值。新增的 `io_ansi` 模块允许发出虚拟终端序列（VT sequences），便于为文本添加颜色和样式或构建终端应用。

编译器和 JIT 也有显著改进。 JIT 在匹配或创建包含多个小端段的二进制时能生成更优的代码，编译器在处理与生成器无关的常量值映射推导式时生成了更高效的代码。 `compile` 模块的文档现在加入了对在 BEAM 上实现语言的开发者的建议。

若干新的编译器警告已默认启用，并提供可关闭的选项，涵盖使用已弃用的 `catch` 操作符、从子表达式导出变量、使用 `and`/`or` 操作符，以及一些可用更清晰写法的匹配模式。文档还指出，过时的 guard 测试将在 Erlang/OTP 30 中完全移除。

其他变更包括：STDLIB 中新增了用于随机排列列表的函数；新增 `ct_doctest` 模块以测试文档示例；`ignore_xref` 属性现在由 `xref` 本身处理，而不再作为事后过滤器。当前工作目录在默认代码路径中被放在最后一位，Windows 平台不再提供 32 位的 Erlang/OTP 构建。编译器默认会对调用已知不安全的函数生成警告，`xref` 现在可以用于查找对不安全函数以及缺少文档的函数的调用。

61 comments • Comments Link

默认禁用 SSH 守护进程和 SFTP 是一项受欢迎的安全改进，践行了"安全默认"原则，可以防止在未明确配置时发生任意代码执行。

io_ansi 模块作为 stdlib 的有前景补充，填补了 Erlang CLI 应用开发的空白，其跨节点的 fwrite 功能尤其被看重。

Native Records 相较于传统记录有显著改进，可能会对 Elixir 的数据结构产生长期影响，但旧的记录机制并不太可能被完全废弃。

OTP（Open Telecom Platform）为构建高可靠、容错的应用提供了标准化的库和设计原则，虽然最初为电信场景而设计，但适用范围更广。

多方来源证实 WhatsApp 仍在使用 Erlang，公开代码库和近期会议演讲都支持这一点，同时 Rust 在与 Erlang 协同使用方面也在逐渐增多。

在 Erlang 27.3 中发现了多个严重和高风险的 CVE，这凸显了升级到 OTP 29 或其它生产环境中使用的最新版本的重要性。

与 Rails 和 Django 相比，Elixir/Phoenix 在生产环境中展现出明显优势，包括真正的并发性、更好的性能、通过 BEAM 和 OTP 提供的稳健性、内置的 KV 存储、分布式能力以及通过远程 shell 进行实时调试的便利。

Ecto 的数据映射器范式通过显式查询和 changesets 提供了更好的 SQL 对齐，并且设计上有助于避免 N+1 查询，这与 ActiveRecord 的有状态机制形成了对比。

BEAM 的并发模型可与 Go 的 goroutines 相媲美，但 Elixir 在并发编程的人机工程学方面更优，并且提供了 Go 中缺乏的一些生产调试能力。

开发者偏好各不相同：有人觉得 ActiveRecord 比 Ecto 更令人愉快，部署方式也有差异（比如 Capistrano 与 Elixir 构建），因此工具选择常常取决于具体用例和团队熟悉度。

总体讨论表明，人们高度评价 Erlang/OTP 在安全默认设置和增强 CLI 功能方面的改进。关于语言与框架的偏好仍有争论，Erlang 和 Elixir 的支持者强调生产可靠性、并发能力和显式设计模式，同时也承认不同工具适合不同领域。对话还强调了关注安全漏洞的现实问题以及保持软件版本更新的重要性，并对初始版本的稳定性持审慎态度。

SQL patterns I use to catch transaction fraud

319 points • 3 days ago • Article Link

Fixel Smith 概述了六种实用的 SQL 模式用于检测交易欺诈，指出有效的欺诈检测更依赖于简单的 SQL 查询，而不是复杂的机器学习或专用数据库。这些模式适用于各种有财务活动日志的交易场景，包括信用卡、医保理赔和电子商务。作者在公共部门从事项目完整性工作，强调所有示例均为通用示例，并非基于真实案件。

Fixel Smith 概述了六种实用的 SQL 模式用于检测交易欺诈，指出有效的欺诈检测更依赖于简单的 SQL 查询，而不是复杂的机器学习或专用数据库。这些模式适用于各种有财务活动日志的交易场景，包括信用卡、医保理赔和电子商务。作者在公共部门从事项目完整性工作，强调所有示例均为通用示例，并非基于真实案件。

第一种是速度（velocity）检测，用来识别单个持卡人在短时间窗口内（如 1 分钟、 5 分钟或 1 小时）发生的快速连续交易。短时间内的高频交易可能表明卡片被盗或被测试。采用窗口函数的滑动窗口方法可以更精细地检测出在几分钟内多笔交易的序列。虽然部分合法用户也可能触发这些警报，但维护白名单能有效降低误报率。

"不可能旅行"检测用于发现卡片在地理上相距很远的地点，在不可能的短时间内被使用的情况，通常提示卡片被克隆。通过 haversine 函数计算两笔交易间距离，并将其与速度阈值（例如 600 英里 / 小时）比较，标记那些需超出实际可行速度的交易。该模式的变体可通过调整距离和时间参数来检测本地克隆团伙或区域性 skimmer 活动。

金额异常侧重于与欺诈高度关联的交易金额模式。像 $1.00 或 $5.00 这种小额整值通常是卡片测试的特征，而略低于常见阈值的金额（如 $99.99 或 $499.99）则可能是刻意规避风控触发。这些模式在基于卡片的系统中特别有效，但在福利类项目中效果较差，因为那类系统里的欺诈表现不同。

可疑商户活动通过分析特定商户的唯一持卡人数或总交易量的异常激增来识别受损的销售点。将当前行为与滚动基线对比，有助于区分正常的高流量商户与出现异常激增的商户。以三倍于平均值的激增作为初步调查阈值是个实用起点。

非工作时间检测根据持卡人过去 90 天的消费习惯标记发生在其典型消费时间之外的交易。通过要求在某小时内至少有两笔交易来认定习惯时间段，可以减少单次异常导致的误报。但此方法需要足够的历史交易数据，因此不适用于新账户。

第六种模式不是单独的检测规则，而是一个基于窗口函数的框架，用以创建可重用的原语，如距上次交易的时间、商户是否变更、滚动合计等。这种设定让分析师能将复杂的欺诈规则表达为简单的 SQL 过滤条件，从而显著加快假设验证速度并减少对工程支持的依赖。

将多种模式组合使用可以提升准确率，因为单条规则通常会产生误报。对多项信号进行打分有助于区分真实欺诈与罕见但合法的行为。对刚入门的检测人员，建议从速度检测开始，因为它简单且效果明显。投入窗口函数相关的基础设施能够加速迭代并支持更广泛的模式部署，回报明显。

文章还强调若干注意事项：在遗留系统中用哨兵值代替 NULL 的处理、通过人工审核与反馈循环管理误报、在处理个人身份信息（PII）时确保隐私合规，以及在对数据应用代价较高的窗口函数前先做过滤以控制查询成本。未来可能探讨的主题包括高级窗口函数技术、欺诈团伙检测、仪表板设计与减少告警噪音。

130 comments • Comments Link

我已准备好接收 Hacker News 讨论帖中的要点。请提供这些要点，我会根据您的指导原则将其整理为简明的总结。

Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution

243 points • 3 days ago • Article Link

Orthrus 是一个新框架，旨在在不降低输出质量的前提下显著加速大型语言模型（LLM）的推理。它采用双架构，将传统自回归模型的逐 token 精准生成与扩散模型的高速并行能力相结合，从而突破通常限制 LLM 文本生成速度的顺序瓶颈，在保持严格无损生成的同时，实现了最高约 7.8 倍的加速。

Orthrus 是一个新框架，旨在在不降低输出质量的前提下显著加速大型语言模型（LLM）的推理。它采用双架构，将传统自回归模型的逐 token 精准生成与扩散模型的高速并行能力相结合，从而突破通常限制 LLM 文本生成速度的顺序瓶颈，在保持严格无损生成的同时，实现了最高约 7.8 倍的加速。

系统通过同一模型的两种"视图"运行：自回归视图和扩散视图。两种视图共享完全相同的高保真键值（KV）缓存，几乎不增加额外内存，仅需 O(1) 级别的额外缓存。与需要独立草稿模型、因而消耗更多内存的投机解码方法（如 EAGLE-3 或 DFlash）相比，这种共享缓存是重要优势。 Orthrus 因而避免冗余，提升了 token 接受率，并且在输入上下文变长时表现更佳。

Orthrus 的另一个显著优势是参数效率：并行生成能力只通过微调约 16% 的模型参数来实现，而基础 LLM 保持完全冻结，使其成为对现有模型进行实用且高效升级的路径。该框架已在 Qwen3 骨干上实现，并提供多个模型检查点（1.7B 、 4B 和 8B 参数），所有版本均保证输出与原始基础模型的预测分布严格一致。

在性能基准测试中，Orthrus 持续优于现有的投机解码技术。它在每次前向传递中验证通过的 token 数更多，且随上下文长度增长更具扩展性。与那些在复杂推理任务上常出现精度下降的基于扩散的语言模型（dLLM）相比，Orthrus 保持了严格的保真度。例如，在 MATH-500 基准上，它相比 Qwen3-8B 基线实现了约 6 倍的加速且精度无损，而 Fast-dLLM-v2 等方法则表现出明显的精度下降。

该项目提供了简便的安装流程和快速入门指南，用户可通过 HuggingFace 上的可用模型快速开始生成文本，并且与 vLLM 、 SGLang 等主流服务框架的原生集成即将推出。详述 Orthrus 架构的研究论文已发表于 arXiv，代码和模型以 MIT 许可证开源，方便用于研究与商业应用。

44 comments • Comments Link

尽管该方法在逻辑上看起来合理，但此前并未被实现，而且常规的决策树（DTree）技巧也可用于类似目的。

作为一种投机解码的变体，该方法并行预测多个 token 并在后续验证，从而使 token 生成速度更接近提示处理速度。它产生与原始模型完全一致的输出分布，且额外的内存开销微乎其微。主要局限在于：若提示处理本身已经很慢，收益有限；例如在 M 系列 Mac 上，生成速度相对于提示处理速度本已较快，但在 M5 上若提示处理速度提升四倍，便可看到显著收益。

该方法并不减少总计算量，实际上通过计算更多并丢弃无效 token 增加了计算量。它的优势在于并行处理多个 token 而非逐个处理，从而更好地利用 GPU 的计算能力，减少从 VRAM 加载权重的次数。对于低批次大小的自回归 LLM 来说，瓶颈往往是内存延迟而非算力：加载和卸载权重的时间通常远超过等待计算的时间。

在类似 Claude Code 的智能体工作负载中，上下文窗口很大（150k+），瓶颈体现为每用户每秒的 token 数而非纯计算量。这也是 Nvidia 收购 Groq 以及 Cerebras 追求类似方法的原因之一。通过前缀缓存，预填充很少成为瓶颈；在涉及目录遍历和文件搜索的探索阶段，真正的瓶颈是推理 token 的解码。

实现上，该方法在冻结的自回归 Transformer 的每一层注入可训练的"扩散注意力"模块，两个注意力头共享一个 KV 缓存。扩散头并行预测 32 个 token，AR 头在第二轮进行验证，接受最长匹配前缀。可以证明其输出分布与基础模型完全一致。实验结果显示，每次前向最多可生成 7.8 个 token，在 MATH-500 上实现大约 6 倍的实际加速；训练只涉及约 16% 的参数，在 8 块 H200 GPU 上耗时不到 24 小时。

与其他扩散式语言模型（如 Dream 、 Fast-dLLM-v2 和 Mercury）不同，这些模型通常会修改基础权重并因此损失精度；而 Orthrus 则保持主干网络冻结，与 Qwen3-8B 的精度完全一致。与 EAGLE-3 、 DFlash 等投机解码方法相比，Orthrus 无需外部草稿模型、无需独立缓存，也没有首 token 延迟。 KV 的额外开销恒定约为 4.5 MiB；在 MATH-500 上的接受长度为 11.7，而 DFlash 为 7.9，EAGLE-3 为 3.5 。

将该技术适配到 GGUF 文件并不复杂，但需要基于 Qwen3 衍生出一种新的架构并加入投机解码支持，因为即使是多 token 预测（MTP）也尚未并入 llama.cpp 。

该方法有望扩展到更大模型（例如 Qwen 3.6 27B），其训练流程类似于 LoRA 或蒸馏。验证工作可以先在较小模型（如 Qwen3.5 0.8B）与消费级 GPU 上开展，然后逐步放大。需要指出的是，Qwen 3.6 已支持多 token 生成功能，但那是基于逐 token 的投机而非本文所述的基于扩散的方法。

该方法在概念上靠近 DFlash，但其扩散头在每一层运行并共享原始模型的 KV 缓存。核心洞察是：在潜在空间中若能实现约 95% 准确率的预测器，理论上可带来 ~7 倍的加速，但在更大层规模下维持这种预测能力仍是扩展中的挑战。

总体而言，讨论的核心是通过并行 token 预测来加速 LLM 推理：在保证输出保真度的前提下，通过减少 VRAM 中权重加载次数来缓解自回归模型的内存带宽瓶颈，代价是总计算量的增加。虽然在消费级硬件及长上下文的智能体工作负载上前景可观，但实际采用取决于主流推理框架的实现支持、在更大模型上的验证以及与各种量化格式的兼容性。