循环工程 Loop Engineering：顶级工程师为何不再给 AI 写提示词

最后核实： 2026-06-17。归于 Peter Steinberger、Boris Cherny 和 Addy Osmani 的表述，均来源于他们截至本日期公开发布的帖子和文章。该领域发展极快——请查看链接来源以获取最新观点。

作者 Frankie C. · Mindber 高级市场研究员。通过 Mindber Innovation Index 方法论追踪东南亚市场 500+ AI/SaaS 工具。

2026 年 6 月 7 日，一位名叫 Peter Steinberger 的开发者发了两句话，吸引了数百万次浏览，并重新点燃了 AI 编程世界以为早已平息的一场争论。他的观点是：别再往你的编程智能体里敲提示词了。去构建那个替你给它下提示的系统。几天前，在 Anthropic 负责 Claude Code 的 Boris Cherny 已经从内部得出了同样的观察：他不再给模型写提示了。他写循环，由循环来下提示。

关于 Mindber 如何对这件事所涉及的工具进行评分的背景，参见 AI 编程智能体分类以及 Mindber Innovation Index 背后的方法论。

Peter Steinberger 在 2026 年 6 月帖子的截图，主张你应停止手动给编程智能体写提示，转而构建那个替你给它下提示的系统。

重新引爆争论的那条帖子：Peter Steinberger 谈构建循环而非敲提示词。来源：Peter Steinberger 于 X，2026 年 6 月。

这个想法现在有了一个名字：循环工程。此后的大部分报道都很浮夸。这是去掉炒作的版本——它是什么、今天在生产环境中什么有用、什么还不行，以及何时根本不该构建循环。

什么是循环工程？

循环工程是这样一种实践：设计一个系统，让 AI 智能体循环运行——设定目标、采取行动、观察结果、反思、再重复——直到目标达成，或系统将控制权交还给人类。

转变在于谁来下提示。开发者不再逐回合地操控智能体，而是构建那个操控它的循环。Steinberger（开源智能体项目 OpenClaw 的创建者，现就职于 OpenAI）把这项工作定义为设计"给你的智能体下提示的循环"。Addy Osmani，那位写出成为参考文本的循环工程文章的 Google 工程师，将循环描述为一个递归目标：定义目的，迭代直到完成。

一句话测试： 如果你发现自己在反复运行同一个提示词——每次只是带着略有不同的上下文——那你已经有了一个手动循环。循环工程就是你为了不再手动这么做而构建的东西。

循环工程的位置：技术栈的四个层次

循环工程不是凭空出现的。它处于一个随着智能体能力增强而生长起来的技术栈的顶端。每一层回答的都是一个根本不同的问题。

AI 工程的四个层次——每一层都建立在前一层之上

1
提示词工程
早期阶段
它回答的问题：我该如何措辞一个请求？你控制的：单个输入的措辞。核心杠杆是精确的人类表达——把话说清楚到足以提升模型对一个提示的理解。
2
上下文 / 工作流工程
中级阶段
问题：我该如何串联步骤并喂入背景？你控制的：智能体看到的信息与顺序。确定性的逻辑链加上更完整的项目上下文，提升模型对一个庞大的多步骤任务的理解。
3
运行环境工程（Harness Engineering）
运行时层
问题：我该如何装备一次智能体运行？你控制的：工具、权限和可验证的信号——运行代码、读取错误。你构建执行环境，并把合适的工具、访问权限和可核查的运行信号交给智能体。
4
循环工程
当前前沿
问题：我该如何让智能体持续运行并自行改进？你控制的：那个触发、分派、验证、持久化状态并决定下一步的系统——一个闭环，让智能体自我纠正，而不是等着人来检查。

把握这一区别的干净说法是：运行环境装备单次运行；循环则是那个按计划不断戳动智能体、派生助手、跨多次运行自我喂养、并复利积累所学的东西。

大多数关于"提示词 vs. 工程"的争论把整个技术栈坍缩成了一件事。它们不是同一回事，把它们混为一谈会在每一层都产生用错工具的结果。

一个真正循环的解剖

大多数人对智能体的心智模型：目标 → 计划 → 执行 → 输出。他们就停在那里——而这恰恰是为什么他们的"循环"算不上循环。它运行一次就退出。

一个真正的循环在输出之后加入两个强制步骤：

六步循环——什么把循环和一次性流程区分开来

1
设定目标
用一个可衡量的验收标准来定义目标。'改进仪表盘'通不过这个测试。'在不破坏筛选组件的前提下把初始加载时间削减 30%'通过了。没有一个具体的停止条件，循环要么永远运行，要么任意退出——两者都是失败。
2
制定计划
智能体将目标分解为离散、可执行的步骤，每个阶段都有可验证的输出。计划不是固定的——当观察/反思把新信息反馈回来时，它会更新。
3
执行
智能体采取行动：写代码、调用 API、编辑文件、运行测试、读取错误信息。运行环境决定了它能访问什么。这是大多数开发者时间花费之处——但它只是六个步骤之一。
4
输出
智能体产出一个结果：一份 diff、一份报告、一次测试结果。这是大多数 DIY'循环'停下来的地方。它也正是一个真正循环刚刚开始的地方——输出是接下来两个步骤的输入。
5
观察
审视结果以及产生它的那些步骤——不只是最终答案。一种常见的生产模式：一个独立的第二模型（检查者）对照原始规格审查工作。检查者唯一的任务就是找出制作者漏掉的东西。
6
反思
决定要改什么。调整目标、更新计划、再来一遍。检查者推动制作者去迭代，而不是过早宣告胜利。这是循环赢得它名字之处——没有反思，你拥有的是流水线，不是循环。

一个生产级循环内部有什么

一个能在真实工作中存活下来的循环有六个组件。缺少其中任何一个，通常就是失败发生的地方。

一个人在回路中的 LLM 智能体操作系统——工具和系统流经推理层、编排引擎、记忆管理和可观测性，由 Co-Plan、Co-Execute 和 Co-Comply 三道人类闸门包裹着智能体。

同样的六个部分映射到一个完整的智能体操作系统上：工具和编排喂入智能体；人类闸门（Co-Plan / Co-Execute / Co-Comply）和记忆闭合循环。Mindber 原创示意图。

生产级循环的六个组件

Dimension	组件	它的作用
自动化	心跳。某种东西唤醒循环：一个计划任务、一个 webhook、一个文件变更事件。没有它，你拥有的是一次性聊天。	一次聊天会话，而非循环。需要一个人来启动每一次运行。
工作区隔离	并行的智能体需要各自独立的工作副本（git worktree、范围受限的权限），这样它们才不会覆盖彼此的改动。	智能体在运行中相互冲突，产出被损坏或被回滚的工作。
技能	被编码下来的经验：可复用的提示词模板、标准的验证流程、领域知识文件。任何做过不止一次的事都应变成一项技能——下一次就免费了。	每一轮循环都在重新发明轮子。没有复利。循环既昂贵又愚蠢。
连接器	让智能体在现实世界中行动的 API 和工具：git、邮件、日历、支付、MCP 工具服务器。	智能体能推理却不能行动。一个只能写的循环是一个无法交付的循环。
子智能体（制作者 + 检查者）	一个智能体快速执行（制作者）。第二个独立的智能体对照规格审查（检查者）。两者单独都没有最终决定权。	没有内部质量闸门。循环把第一遍产出的任何东西都交付出去。
记忆	循环把进度、错误和教训写入一个持久化存储。每一次运行都建立在上一次之上。	每一轮循环都从零开始。没有复利。系统永远不会变得更聪明。

Steinberger 最经久耐用的规则： 任何你做过不止一次的事都应变成一项技能，这样下一次就免费了。一个内部没有可复用技能的循环，不过是一个套在陌生人外面的无限循环。技能是复利机制——没有它们，你是在一次次运行中租用智能，而不是拥有它。

让它放心运行的四道护栏

组件让循环跑起来。这四样让放手离开变得安全——这是一个自主系统和一个你直到下个月信用卡账单才发现的昂贵错误之间的区别。

生产级循环的四道护栏

Dimension	护栏	它防止什么
验收标准	无限循环或任务中途任意退出	在循环开始前用二元的方式定义'完成'。可衡量、可验证、自动化。如果你无法用代码描述'完成'，就别启动循环。
权限边界	智能体越权——删除不该碰的文件、未经审查就合并、触发支付	最小权限原则。在它运行前决定智能体可以更改、删除、合并或支付什么。范围决定权在你；执行的是那条边界。
人类闸门	以机器速度执行的不可逆错误	对于敏感或不可逆的操作（资金流出、生产环境合并、schema 变更），循环暂停并转交给人。对高风险操作而言这不是可选项。
可观测性	静默失败、无法追溯的错误、失控的成本	每一步都必须可审计。你靠观察循环在哪里出问题来调优它——而不是靠猜。日志、步骤追踪和预算计量表都不是可选项。

诚实的部分：炒作周期跳过了什么

最接近这项工作的人对它最为谨慎。这值得留意。

写出那篇经典文章的 Addy Osmani 公开称自己持怀疑态度，并强调现在还很早期——而且 token 成本会剧烈波动，取决于你是"token 富有还是 token 贫穷"。一个无边界的循环可以在看似有进展的同时悄悄烧掉一笔巨款。

智能体部署的真实情况

~17%

的组织真正部署了智能体

Gartner Hype Cycle 2026

顶峰

智能体式 AI 在 Gartner 期望膨胀曲线上的位置

Gartner Hype Cycle for AI, 2026

48 小时

快速响应型智能体演示的最大价值窗口

Mindber editorial analysis

Steinberger 在现在有用的和还不行的之间划出了一条清晰的界线：

今天有用——已在生产中验证：

多个智能体并行处理各自的 issue，由人在合并环节审查
窄而可验证的流水线：依赖版本升级、代码批量改写（codemod）、不稳定测试修复
"完成"具有二元、自动化信号的任务（测试通过 / diff 干净 / 端点返回 200）

还不行——诚实的承认：

"想法进去，产品出来"，没有人来把握愿景
预先锁定一个固定的最终状态并完全自动化通向它的路径——那是加了额外步骤的瀑布流
好软件仍然是通过迭代被发现的，而不是预先宣告出来的

Gartner 的告诫： 期望膨胀的顶峰并不意味着这项技术是假的。它意味着演示远远跑在了部署前面，参见 Gartner Hype Cycle for Artificial Intelligence。Source: Gartner Hype Cycle for Artificial Intelligence, 2026, Jun 17, 2026 大约 83% 的组织根本还没部署智能体。会议上展示的与生产中运行的之间的差距是真实的、巨大的，而且弥合得比炒作所暗示的要慢。

另见：2026 年 AI 工具的真实成本——"token 富有 vs. token 贫穷"背后的 token 成本算术。

何时构建循环——以及何时不该

一个问题决定了答案：这项工作会重复吗，且"完成"是客观可衡量的吗？

你该构建一个循环吗？

构建循环

依赖版本升级和代码批量改写（codemod）
不稳定测试的检测与修复循环
定时的内容或数据流水线
针对 PR 的代码审查自动化
跨部署的回归测试

直接写提示词就好

一次性的分析或调查
一次性的迁移或数据搬移
对一个代码库的初次探索
没有重复模式的临时研究

不要把它交给循环

'想出一个更好的产品战略'
开放式的创意方向
需要循环无法把握的业务上下文的决策
没有可衡量成功信号的工作

成本敏感型构建者的起步现实

对于独立构建者和小团队——尤其是在东南亚各地，大多数构建者并非"token 富有"——成本纪律比雄心更重要。Mindber Innovation Index 专门追踪工具的成本效率：每个工具在不牺牲产出质量的前提下，处理资源约束有多优雅。

三条规则让循环不至于变成一个吞钱的无底洞：

在放手离开前为每次运行设定一个 token 预算上限。 不是一个模糊的限制——一个硬性数字，在代码层强制执行。token 预算是你循环的信用卡额度。如果限制不在代码里，它就不存在。
先从一个窄而可验证的任务开始，再把多个串联起来。 复杂度会迅速复利累积。先在简单版本上赢得信任，再增加阶段。Claude Code 及同类工具的 Mindber Functionality Score 专门衡量这一点：该工具在实践中处理预算护栏和优雅失败模式的能力如何？
当同一个错误、一份空 diff 或一次失败的测试连续重复 N 次时，自动停止。 一个无法让自己停下来的循环不是自主——它只是昂贵。停止规则不是可选项。

Steinberger 原则： 一个预先锁定固定最终状态并完全自动化通向它路径的循环，已经悄悄重新发明了瀑布流。软件仍然是通过迭代被发现的——而不是预先宣告出来的。内置检查点。对于任何不可逆的事，把人留在决策回路中。

这对工具选择意味着什么

并非所有智能体运行时对循环模式的支持都一样。Mindber Innovation Index 追踪 AI 编程智能体分类中哪些工具已交付了原生的循环基础设施——定时执行、子智能体分派、状态持久化、预算上限——与哪些需要你从零自己全部构建。

像 Claude Code、OpenAI 的 Codex、Cursor 和 OpenClaw 这样的工具，内建了不同程度的这类基础设施。循环逻辑位于智能体周围——无论你选哪个工具，其中很大一部分你都得自己构建。Mindber Functionality Score 刻画了每个工具开箱即提供多少脚手架，以及多少由你自己拥有。这个差值对那些负担不起把同一套管道搭两遍的小团队最为重要。

去哪里深挖：

Claude Code 产品页——Mindber Functionality Score 和能力拆解
AI 编程智能体分类——该领域每一个被追踪的工具，已排名
并排比较智能体工具——架构与定价的正面对决
Mindber 排行榜——按被追踪采用度排名的实时榜单
Manus vs Claude Cowork（2026）——智能体架构在实践中如何不同
AI 闲置软件流行病（2026）——为什么大多数已部署的智能体无人使用
AI 工具的真实成本（2026）——循环经济学背后的 token 算术

提示词工程会因为循环工程而消亡吗？

不会。杠杆点移动了，技能并没有消失。提示词仍然需要被写出来——区别在于，现在按计划调用它们的是一个循环，而不是开发者手动去做。在每个循环内部，提示词质量仍然决定输出质量。改变的是由谁（或什么）来决定何时调用提示词。

运行环境工程和循环工程有什么区别？

一个运行环境为单次智能体运行装备工具、权限和反馈信号（运行代码、读取错误、验证输出）。循环是它之上的一层：它让智能体跨多次运行持续运行、派生子智能体、验证结果、持久化状态、并决定下一步做什么。运行环境＝一次运行被装备好。循环＝那个跨多次运行不断调度、运行并复利积累知识的系统。

小型或个人项目需要循环工程吗？

通常不需要。如果工作是一次性的或高度依赖判断，一个好提示词每次都胜过一个循环。循环专门在带有二元成功定义的重复性工作上才划算。大多数小项目任务达不到那个门槛——而为一件只跑两次的事构建循环，其开销是净亏损。

今天哪些工具原生支持循环工程？

围绕迭代式执行构建的编程智能体——其中包括 Claude Code、OpenAI 的 Codex、Cursor 和 OpenClaw。循环逻辑大体位于智能体周围而非内部，所以无论用哪个工具，其中很大一部分你都得自己构建。寻找提供这些能力的工具：定时执行、子智能体分派、内建状态持久化和可配置的停止条件。Mindber 的 AI 编程智能体分类追踪每个工具当前的基础设施覆盖情况。

循环工程最大的风险是什么？

成本超支和失控循环。没有验收标准、预算上限和硬性停止规则，一个循环可以在看似高产的同时无限烧 token。第二大风险：过度工程。为一件只跑一两次的任务构建循环是浪费，不是自动化。纪律在于：在你开始构建之前，弄清你的工作落在哪个桶里。

'循环工程'这个词是谁提出的？

这个词在 2026 年 6 月围绕 Peter Steinberger（OpenClaw 创建者，现就职于 OpenAI）和 Boris Cherny（Anthropic 的 Claude Code 负责人）的公开表述结晶成形，由 Google 的 Addy Osmani 撰写了那篇参考文章，定义了这一概念以及它与提示词工程、上下文工程和运行环境工程之间的分层关系。

循环工程与传统自动化有何不同？

传统自动化针对确定性系统遵循固定脚本。循环工程使用 AI 智能体——所以执行路径是自适应的，行动由自然语言引导，系统能处理原始程序员未预料到的情形。循环结构（目标 → 行动 → 观察 → 反思 → 重复）借鉴自经典控制论，但其中的智能体是非确定性的、能够泛化。代价是：能力更强、更难预测、运行更昂贵。

我该先循环化什么？2026 年的一个实用起点。

Steinberger 的建议：从依赖版本升级、代码批量改写（codemod）或不稳定测试修复开始。这些任务窄、有二元的通过/失败信号（CI 变绿 / diff 干净）、无需人类判断即可运行、且按计划重复。一旦其中一项有了可用的循环，这套模式就能迁移到更复杂的任务上——但只能在简单版本已经在生产中可靠运行数周之后。模式可以迁移；信任必须逐步赢得。

来源与编辑方法论

本文综合了文中逐处引用的一手公开表述、已发表文章和分析师研究。Mindber 的编辑团队将已确立的事实与推测性或早期阶段的主张分开标注。未对任何具体的循环实现进行直接评估——这是对来自所引一手来源的公开信息的编辑性分析。

[1]
Peter Steinberger 对循环工程及设计给智能体下提示的系统的公开阐述
Public post, June 2026 — 2026-06-07
[2]
Boris Cherny 谈写循环而非直接给模型下提示
Anthropic / Claude Code — public statements — 2026-06-07
[3]
Addy Osmani 定义循环工程层次并对早期阶段主张表达怀疑的参考文章
Addy Osmani — public writing — 2026-06-17
[4]
Gartner 将智能体式 AI 置于期望膨胀顶峰；约 17% 的组织已部署智能体
Gartner Hype Cycle for Artificial Intelligence, 2026 — 2026-06-17

深入了解智能体架构