米兰体育2026世界杯指定中国官网

热点资讯

关于米兰

你的位置：米兰体育2026世界杯指定中国官网 > 关于米兰 >

米兰(中国)2026世界杯指定官网从 Spec 到亏空函数: 真确会用 AI Agent 的东说念主, 照旧在想象轮回

发布日期：2026-06-12 20:58 点击次数：96

米兰(中国)2026世界杯指定官网从 Spec 到亏空函数: 真确会用 AI Agent 的东说念主，照旧在想象轮回

导读：本文先容了 AI agent 使用“亏空函数开导”（LFD）与 /goal 轮回的实战教导，强调通过优化意见而非固定例格，能让 agent 在 30 小时内逆向工程产物中枢并杀青 50 倍性能擢升。

作家分析了 agent 屡次“舞弊”优化评估集的失败案例，建议构建考究亏空函数需包含大意见、盲测敛迹、测量器具和强制熵，幸免局部最优并鼓吹真确蜕变。

99% 的东说念主齐把 /goal 和轮回用错了。

他们听到的噱头是“永劫分运行的轮回会领导自治智能体（long-running loops prompting autonomous agent）”：把任务丢给它，离开，挂牵就有可作事的代码。

但顶尖的 agentic 工程师在曩昔 6 个月里照旧不靠 /goal 作念到了这少许，也即是 GPT-5.2 和 Opus 4.5 发布以后。这叫 harness engineering + spec-driven development：

为智能体搭建一个能不雅察问题的 harness

写一份紧凑的 spec，包含统共测试用例

让 Codex 或 Claude Code 无东说念主值守地轮回，直到得志每一项要求

我往往在夜里启动这种任务，一次跑 2 到 5 小时。4 月有一次，它啃掉了咱们 Vercel monorepo 里的一个 Turbo build-cache bug，早上起来照旧全绿。其实并不需要 /goal。

4 月 11 日 Elvis

我再说一次，因为我一直看到有东说念主用错：只好把一个带着正确 harness 的智能体丢进轮回里，你不错解决任何工程问题。Codex 刚刚 one-shot 了咱们的 turbo cache 建造，因为我给了它像团队里的确切开导者一样调试所需的一切。使用老纪律需要8小时。

那 /goal 到底是作念什么的？

底下是一条单独的领导词，在我离开技术完成的事情：

约 30 小时，6，300 行代码，爬取 92k 页面，API 奢侈 40 好意思元

克隆另一个产物的中枢轮回，从零反向工程出完好架构

在相同的查询上，咱们版块的输出比参考产物好约 50 倍。（这是一个新的数据层，会支握 newsjack.sh[1]，也即是我一直在作念的开源 news-intel skills）

巧妙是 loss function development（LFD）：给智能体的中枢输入从“要构建的 spec”造成“要优化面对的意见”。

每月提醒一次：你不该再给 coding agents 写领导词了。你应该想象领导 agents 的轮回。

You shouldn’t be prompting coding agents anymore， you should be designing loops that prompt your agents.

这是 Peter 那条推文的一个具体落地版块。

spec-driven development 里的 spec，咫尺造成启程点，不再是格外。

我试了好几轮才把这件事作念对。但这里是完好顶住。不外咱们得先从它一启程点有多灾祸讲起，这么你才能剖判该何如想象这些 /goals。

智能体舞弊了 3 次。

一切齐从我一贯的作念法启程点：写 spec。

我仅仅把 codex 指向另一个产物的公开网站，问它“咱们何如我方构建这个？”。30 分钟后，它给出了一套完好的系统想象和测试用例，也即是 spec。

但这一次，我试了一个不同的领导词。

“/goal implement until your output matches theirs exactly”

然后发生了这些：

轮回 1（5 分钟）

智能体拿到了 eval set，生成了与之对应的 seed data，然后 5 分钟内宣通知捷。

“100%” recall，泛化才调为零。一个只可找到我交给它的那 30 个东西的搜索引擎，lol。

建造 → 让它失明。运行技术掩蔽 eval，只在评分时揭示，并给出逐项 miss list。

轮回 2（20 分钟），盲测，30 个要求。

我把 eval set 对智能体掩蔽起来，但它通过 miss 学会了舞弊。每一个“你没找到 X”齐会造成下一轮的关键词。几轮之后，它用了刚好 30 个关键词，每个要求一个，然后又“赢了”。

建造 → 扩大 eval set。用几百个要求评分，多到无法摆列。

轮回 3（30 分钟），盲测，200 个要求。

把新 eval set 加到 200 个要求之后，智能体又舞弊了。

特意思的是，它如故在摆列。关键词列表彭胀到几百个，每个词齐是为下一个 miss 精准准备的钓饵。

三轮，三次舞弊。

那一刻我光显了：智能体仅仅在优化。

舞弊不是智能体的 bug。bug 在我的意见里：我告诉它要去那儿，却把统共捷径齐打开了。

每一条你莫得封住的低价旅途，齐会成为优化器全力冲刺的标的。而我的启程点意见漏掉了统共围栏。

轮回 4（30 小时），盲测，200 个要求，硬终结。

于是我启程点闭塞标的。终结关键词列表，掩蔽 eval，扩大日历范围。每个建造齐关掉一条低价旅途，直到剩下独一能让数字继续上涨的标的，即是真确把任务作念得更好。

它住手舞弊了。

然后它启程点跑。约 30 小时运筹帷幄，爬取 92k 页面，约 40 好意思元 token 资本，6，300 行代码。

成果咱们参考的产物仅仅地板，不是天花板：在相同的查询上，咱们最终表现出了约 50 倍的成果。

（意思意思的东说念主不错看这里的完好经过和字据）

5 月 21 日 Elvis

codex 真的太豪恣了。要是你以为前端克隆照旧很夸张，望望这个：我刚把 codex 指向另一个产物，30 分钟后拿到了它的架构、数据模子、prompts，还有资本估算。378 行重建谋划。最豪恣的是，咫尺我不错一转领导词照应：

"/goal implement until your output matches theirs exactly"

Loss function development（LFD），一个好亏空函数的结构

大无数东说念主想构建产物时，齐是用 agents 在几个小时内从零走到发布。

但真确的难点在背面，也即是长尾。spec 从没想过的角落情况，只会在分娩环境里一个失实日记接一个失实日记地冒出来。你逐一修。莫得被日记拿获的情况会由用户呈文，而这是发现 bug 最欢腾的形势。

我照旧自动化了其中低廉的一端。我的 OpenClaw agent Zoe 每天盯着失实日记，新失实一出现就启动 Codex 并创建 PR，这个轮回基本照旧压到很紧了。（完好诞生纪录在这里[2]）

长尾仍然需要几个月。这即是为什么即使 agents 在干活，构建一个好产物仍然需要时分。

LFD 会快进这条长尾。要是你能一启程点就拿到确切的 expected-output examples，也即是大规模意思上的“好成果长什么样”，你就不错在发布前作念 soak：几百个角落情况在一次优化运行里打到智能体身上，而不是等一个季度的 bug report 缓慢淌下来。它短暂变得可行，是因为对越来越多的问题来说，这些 examples 就公开摆在那里。

Spec-driven development：

构建这个。让测试通过。

Loss-function development：

构建这个。让测试通过。然后针对这 1，000 个 eval cases 继续迭代。

测试套件是有限的，一朝全绿就收尾。一个 1，000 case 的 eval，要是达到 95%，它即是一个你要继续着落面对的意见，除非达标，不然莫得出口。这很进犯，因为智能体会作念出几百个你永瞭望不到的决策，而每一个决策齐需要一个参照系来判断。要是你莫得写意见，智能体会我方选一个。就像第 1 到第 3 轮展示的那样，米兰体育MILAN SPORTS它会选最低廉、最容易得志的东西。

亏空函数比 eval 更大。它有 4 个部分：意见、敛迹、姿色、强制熵。四块。

1. 意见

弥散大，让摆列不合算。28 个要求的 eval 一轮就被记着了。越多越好。

不要让智能体看到谜底 key。Eval data 只用于过后评分。要是智能体能在运行技术看到谜底，它就会找到偷看的办法。

2. 敛迹

智能体被允许作念什么，以及不允许作念什么。

时分是智能体永远会忘掉的敛迹。Agents 没未必分感。它们会为了 2% 的擢升磨 10 个小时，因为方针样式上还在动。但 2 小时内完成的 80% 决议，胜过 30 天后完成的 100% 决议。解决办法：诞生 wall-clock budget。

钱。对每一次付费调用诞生硬上限：crawler credits、LLM spend，以及一次性 key 的总好意思元上限。

战斗面。统共 providers、允许的 models、并发上限。把智能体沙盒到你只但愿它触碰的东西里。

纪律论。是否允许 LLM analysis，如故只可用 deterministic logic？智能体能探望哪些数据源？明确写出来。

3. 姿色（harness）

莫得姿色的敛迹仅仅一种嗅觉，智能体会很风物地违犯它，因为它看不出我正直在违犯。对上头的每一个敛迹，齐给智能体提供一个 CLI command 来检查它。

以正确分别率测量意见。严慎聘用意见姿色。确切例子：一个鸠拙的”让 LLM 给两张截图打分”的 judge，会批准有 12px 间距失实的 UI clone，因为 LLM 其实看不见图像，它会把图像转成 embedding，再相比 embedding。是以要是你想要 pixel perfect 的 UI clones，就给你的智能体一个 pixel-diff tool。然后 /goal 直到 pixel diff 为 0。

时分核算。给每次运行和每一步齐打 timestamp。智能体应该知说念每一步花了多久，总 wall-clock elapsed 是若干。时分是一等姿色，不是脚注。

Provider budget。“咱们咫尺在 crawlers 上烧了若干钱？”应该是一条敕令，而不是臆度。跟踪剩余 scrape credits、本轮 burn、累计 burn，以及下一批付费调用前的预测 burn。

LLM spend。给它一个 LLM API key 用在 data-plane 上，不错简化许多逻辑。但智能体应该负作事地用钱，而前提是先知说念我方实践花了若干。

Codex Usage。这一项有点 meta。轮回应该有自我意志：我在此次优化上花了若干 tokens？这有助于知说念刻下优化重要的梯度。

模式即是那句老话：你看不见的东西，就无法优化。

要是你刚启程点跑这些轮回，不要一启动就离开。先陪它跑第一轮。不雅察它触碰了什么。说明你搭的 harness 如实被正确使用。然后再去寝息。（而况试着别一直想着醒来会看到什么）

4. 强制熵

为什么强制熵进犯：每个轮回齐会从上一轮的完好高下文继续。模子不是再举止手，它会读取我方之前上百个决策，以及到咫尺为止灵验的梯度。

在 /goal 轮回里，掷中局部最大值是默许情景。莫得明确的一脚踢开，智能体会继续沿着祛除座山往上走，而“祛除座山”即是它住手矫正时刚好所在的位置。

举个例子，要是一个小旋钮能让成果擢升 0.1%，智能体会一直拧阿谁旋钮，即使还有 1000 个其他旋钮不错试。

熵必须被显式强制干涉运行经过，因为模子不会主动引入它：

每轮齐作念过拟合反念念。我是在构建更通用的决议，如故在系念 eval？要是是在系念，下一次转换必须移除一个 eval-shaped artifact（终结列表、掩蔽特征、扩大 eval、完了 seed），而不是再加多一个。

停滞时强制熵。要是上一轮莫得鼓吹方针，下一轮不成是“祛除个想法，更使劲”。模子必须作念一次真确扯后腿性的向上。“think outside the box” 是个好领导词，不错窒碍智能体仅仅把祛除个旋钮拧得更狠。

保留迭代日记。让智能体纪录假定、预期失败模式、每一步的会诊，这么它不错回头看，并跨越 compactions 作念反念念。

Meta-Meta-Prompt

一启程点这些 goals 是我我方写的，但我很快意志到，这亦然 agents 该作念的作事。

是以我写了一个 skill，用来生成这类意见，匡助跑一次好的 loss-function-development。

咫尺开源在这里：

https://github.com/elvisun/loss-function-development[3]

Image

/lfd-design 用来生成 harness 和 goal

一起向下的梯度着落：两个轮回

退一步看，这一起齐是梯度着落。

内轮回是智能体：写代码，跑测试，建造。短周期，快速反应，单一意见，让测试通过。这是开导者的内轮回，而 spec-driven development 即是运行它的纪律。Coding agents 照旧把它自动化了。

外轮回是 /goal：跨越许多周期，把通盘系统推向一个 outcome metric，发布、测量、改标的、着落。长周期，稀薄反应。这蓝本是产物团队的轮回，也即是几个月的 ship-measure-iterate soak，咫尺被压缩进一次运行里。

两个轮回咫尺齐照旧自动化。剩下需要你作念的，是界说亏空函数，也即是 /goal 到底应该优化什么，以及应该以什么形势优化。

你在蒸馏一个产物，简略任何留住公开产物的东西

换个视角看，这骨子上是蒸馏，仅仅从 training-time 移到了 prompt-time。DeepSeek、Kimi、Minimax 这一线即是这么削弱了与 GPT 和 Claude 的大部分差距：用别东说念主家的输出训练你的模子，直到你的模子能复现它们。

但咫尺你无须蒸馏一个模子。你不错用 /goal 和 LFD，对任何公开可找到的 artifact 进行蒸馏拟合，它不检查里面，也不需要检查里面。

要点是公开这个词。蒸馏别东说念主在 ToS 终结下、登录墙后、付费墙后的输出，并分歧理。但公开导布的东西，也即是一家公司为了获得客户而 ship 出来的输出，一直齐不错被学习。这部分并不新，它是软件里最陈旧的招数。新的地点在于，咫尺这件事很低廉，而且几小时就能完成，不再需要几个月。

退一步看，更大的变化是：只好存在 information symmetry，履行资本就会坍缩到接近 0。也即是说，当输出是公开的，每个东说念主齐能看到“好”长什么样，任何东说念主齐不错用 40 好意思元在一个周末把它蒸馏挂牵。

是以这里出现了一个越来越有价值的新护城河：information asymmetry。

阿谁典型的开源公司照旧先眨眼了。2026 年 4 月，cal.com[4]（500 万好意思元 ARR）把分娩代码转为独到，而况关闭了开源[5]。他们给出的情理，读起来简直即是这篇著述的提要：在 AI-driven security threats 的时期，你不成把 source 留在智能体读得到的地点。

“/goal read cal.com[4]source code and enumerate its attack surface until something works”

这种抨击太危机，也太容易履行。

一个身份中枢即是”open source”的公司，在 2026 年决定敞开照旧造成包袱。这照旧证明了一切。

在软件的通盘历史里，“咱们构建了它”也曾即是护城河。

阿谁时期正在收尾。

下一个时期属于那些领有 artifact 从未包含之物的东说念主：别东说念主无法评分的 eval set。你的用户真确踩到的角落情况清单。你暗里测量的 ground truth。谁领有竞争敌手的智能体看不到的意见，谁即是独一一个能让我方的轮回继续着落的东说念主。

产物咫尺仅仅一个周末。

去构建阿谁周末无法触碰的 eval。

参考阅读

References

newsjack.sh: https://newsjack.sh/

这里: https://x.com/elvissun/status/2025920521871716562

https://github.com/elvisun/loss-function-development: https://github.com/elvisun/loss-function-development

cal.com: https://cal.com/

关闭了开源: https://x.com/pumfleet/status/2044406553508274554?s=20

原文： https://x.com/elvissun/status/2065035615800864954

要是你也在眷注 AI 行使怎样真确落地到分娩环境，2026.6.26 - 6.27 GIAC 深圳站值得眷注。此次大会聚集合参谋智能行使开导、架构演进米兰(中国)2026世界杯指定官网，以及来自一线实践的教导与案例。

上一篇：米兰体育2026世界杯指定中国官网当友商狂卷Token营收, 腾讯AI为什么敢给智能体业务“不设KPI”?

下一篇：米兰体育MILAN SPORTS 曼晚: 曼联今夏可能有三位门将离队, 奥纳纳已被奉告莫得畴昔

米兰(中国)2026世界杯指定官网 从 Spec 到亏空函数: 真确会用 AI Agent 的东说念主, 照旧在想象轮回

米兰(中国)2026世界杯指定官网从 Spec 到亏空函数: 真确会用 AI Agent 的东说念主, 照旧在想象轮回