Frontier AI has broken the open CTF format

← Back to all posts

Frontier AI has broken the open CTF format

416 points • 3 days ago • Article Link

CTF 领域已经死了。前沿 AI 打破了开放式 CTF 的赛制，记分板不再能清晰衡量人类技能。作者自 2021 年深度参与 CTF 社区，曾赢得 DownUnderCTF，与 TheHackersCrew 等顶级队伍在国际赛场并肩作战，他认为旧的游戏不会回来了。这并非出于反感，而是认清了事实：CTF 曾是他热爱安全的根基，教会了他如何学习、衡量进步、并与令人尊敬的同行建立联系。看到大家还在装作赛制没变，很令人沮丧——核心体验已经被根本改写了。

变化是渐进的：起初 GPT-4 能用一句提示解决中等难度题目，看起来还能接受，因为高难度题目还在。真正的拐点出现在 Claude Opus 4.5，几乎把所有中等难度和部分高难度题目变成了 agent 可解的东西。像 Claude Code 这样的工具通过 API 为每个题目自动启动实例，团队可以批量化运行 agent 。突然间，不用 AI 的队伍不仅失了便利，更是在玩一个慢一拍的版本。记分板开始衡量的是编排能力和愿不愿意用前沿模型，甚至超过了真实的安全技能。这扭曲了 CTFTime 的排行榜，压缩了传奇队伍的参与，也让辛苦出题、花数周打磨题目的出题人感到绝望——他们的作品在几分钟内就被 agent 干掉了。

GPT-5.5 及其 Pro 版本把局面定型了。这些模型现在能一次性解决"Insane"难度的题目，包括之前被认为无法自动化的复杂 heap pwn 问题。只要你能付得起足够的 token 和上下文，就能在 48 小时的 CTF 结束前把题目清光。开放式 CTF 变成了付费赢利的赛场，表现更取决于算力投入而非人类专业能力。相较于通用的前沿 LLM，专门的安全模型变得无足轻重。比赛不再是"谁更懂安全"，而是"谁能负担得起运行更多 agent 、持续更久"。 CTF 的成绩正在失去作为招聘安全人才指标的价值；它甚至不能很好地衡量 AI 技能，因为大多数编排工具已经开源或很容易搭建。

有人说初学者仍能像以前那样从 CTF 学到东西，但这忽略了关键：CTF 从来不仅是题目，它是条晋升阶梯。初学者能看到自己进步、解更多题、拿更好名次、加入更优秀的队伍。这个反馈回路正在断裂。可见的排行榜被 AI 团队占领后，初学者被迫在还没建立起 AI 无法替代的直觉之前就开始依赖 AI 。这是反模式，扼杀了需要挣扎和思考的主动学习。付出努力却看不到上升通道会让人丧失动力。对于初学者，更适合的选择是像 picoGym 或 HackTheBox 这样的学习型平台，那里的目标是教育而非竞争，也更少诱人走捷径。

也有人说 CTF 并未死亡，只是被 AI 增强了，举 DEF CON 等精英决赛还存在作为例子。但这并不能成立：那些决赛参与人数很少，且被资格赛筛选，而资格赛本身比决赛更容易。如果资格赛被 agent 扫荡，真正有实力的人就更难进入那些仍能抗住 AI 的题目。少数精英决赛救不回大多数人参与的开放在线赛制。问题不在于每道题都被解掉，而是排行榜上足够多的条目被自动化，以至于它已不再代表过去的含义。

认为 AI 对安全研究有用所以理应出现在 CTF 中，也是个错位的论点。 CTF 本身并不是安全研究，它可以展示新技术，但并非发现的载体。仅因为 AI 在某领域有用，并不意味着它理应占据该领域的竞技场。在 CTF 中，不受限制的 AI 把人类几乎完全从题目中剔除，把安全的技艺简化为一个提示。 CTF 曾是一种艺术，是分享技巧、推动人类安全技能极限的方式——而这种意义正在被剥夺。

把 CTF 比作棋类再用棋局引擎来辩护也站不住脚。关键区别在于：国际象棋引擎在比赛时不被允许使用。它们用于赛后分析、训练和解说，丰富比赛的外延但不取代参赛者。试想给每个竞技棋手配上最强引擎并允许在对局中使用，这公平吗？好看吗？能说明奖励池合理吗？能推动人类能力的极限吗？CTF 面临同样的问题。

CTF 组织者尝试过各种手段去对抗或阻挡 LLM，但这些充其量只是临时摩擦。 Claude Code 不会被旧的拒绝串技巧难倒，前沿模型在侦测提示注入方面越来越强。网络搜索能力又削弱了那种基于训练截止后技术的题目。要求参赛者别用 LLM 的规则被普遍忽视，开放在线活动几乎无法执行这些限制。组织者左右为难：出常规题，agent 太多题能解；刻意出对 agent 敌意极大的题，那些题往往变得靠猜测、过度设计，甚至连人类都难以忍受。这不是解决办法，只是让所有人受罪。

"去适应"这种说法尤其让人恼火。社区里很多曾被作者仰望的人都会这样说，但这只有在说明"适应成什么"时才有意义。若"适应"是指做更好的工具，玩家们早已在做；若是出更难的题，组织者早已尝试过；若是接受记分板已变成 AI 编排基准，我们应该直说，而不是假装旧的竞赛形态仍在。即便组织者能想出当前 LLM 无法解的更猜测性或更过度设计的题目，玩家也很难在保持竞争力的同时学习所需技能。再过几代模型，这些努力可能也会变得无关紧要。 LLM 在安全能力上的进展速度太快，题目设计很难长期领先。

后果已显而易见：CTFTime 排行榜几乎看不见历史或人类技能的痕迹。 2026 年的榜单已与往年判若两人。 TheHackersCrew 和许多其他大型有名气的队伍，不是干脆不参赛，就是参赛人数大幅下降，或难以挤进前十。无监管的作弊泛滥。一些曾很优秀的 CTF，比如 Plaid CTF，也停办了。这种感受并非作者一人所有：作者所在本地队 Emu Exploit 的许多成员也有同感。他们持续参加 International Cybersecurity Championship，在 bug bounty 中表现优异，参与 Pwn2Own，并在 Black Hat 等会议发表演讲。失去兴趣的并不是局外人，而恰恰是那群曾被这个生态培养和留住的核心人物。

对许多真正在乎的人来说，CTF 的乐趣已不复存在。失去的不是一块记分板，而是从初学者好奇心到精英赛场的阶梯，是题目设计的匠心，是一个聪明的人靠深刻理解解决难题的成就感。这份遗产并未被当前形式的开放在线 CTF 继承。这个赛制已经死了，或许会被别的东西替代，但若还装作一切如常，只会让损失更难正视，也给那些推销 AI 的人更多机会，把社区贡献的价值打包卖回去。

尽管 CTF 与 AI 的变动高度商业化，超出我们掌控，但 CTF 对行业的正面影响不可抹杀。作者通过 CTF 结识了许多善良、聪明且充满热情的人，遇到过设计精巧的题目，发现过意想不到的解法。围绕 CTF 的社区一直是学习、成长与交往的好地方。这些东西无论比赛走向如何，都值得保留。作为社区，我们应当团结，开辟新路径保持热情与学习。像 SecTalks 、学生会议、本地聚会这样的安全相关社交活动，是保持联系的好方式；学习平台及其在 Discord 上的社区也很有价值。虽然要找到曾经那样的替代品不易，但我们围绕 CTF 建立起来的优秀社区，比以往任何时候都更值得珍惜，在寻找保持竞争精神的新的出路时尤为重要。

453 comments • Comments Link

讨论集中在人工智能，特别是大型语言模型（LLM）对 Capture The Flag（CTF）网络安全竞赛和整体教育的影响。参与者认为，AI 从根本上破坏了开放式 CTF 的形式，参赛者可以在不掌握底层概念的情况下靠模型解题，把比赛变成了基于 token 使用而非技能的"pay-to-win"场景。这也反映了教育领域更广泛的危机：AI 让"让它帮我做"变得异常容易，阻碍了批判性思维和从第一性原理出发的推理能力的发展。尽管有人认为 AI 是专家的强大辅助工具，但许多人担心它在培养出一种"替代人类"的管道，而我们的教学方法和技能验证手段却没有随之演进。讨论还凸显了在 AI 时代之前学习的人与依赖 AI 的人之间日益扩大的分化，许多资深开发者指出，像写出 FizzBuzz 这种基本能力在毕业生中已变得罕见。为维护竞赛与教育的完整性，建议转向面对面的线下赛事并严格控制硬件，或重新设计挑战，使其要求物理交互或具备当前 AI 难以应对的极端新颖性。最终，社区正努力应对一种恐惧：学习中必须经历的"挣扎"正在被自动化取代，可能会催生一代"vibe coder"——能交付代码但缺乏维护或创新复杂系统所需的深层理解的人。

← Back to all posts