基於 Y Build 建構 親手建構這個應用 —— 從提示到部署,綁定你自己的網域。 免費開始
建構上線對比實驗室關於 開始建構 →
實驗室

我們讓 5 個 AI agent 重構同一份程式碼庫

同一個老舊儲存庫、同一份需求說明,五份非常不一樣的 diff。我們量了什麼、每個 agent 在哪裡發光,以及那個沒人會警告你的瓶頸。

Marcus Tan創始工程師,Y Build
發布於 May 24, 2026
13 分鐘
閱讀
cover · 1200×600

我們找來一個棘手的老舊儲存庫——一個 14k 行的 Express + React app,沒有測試、狀態糾結成一團, 資料庫層更是藏在三層抽象之後——然後把同一份重構需求說明交給五個不同的 AI 程式設計 agent。 接著我們對比了結果的 diff。

利益揭露: Build Lab 由 Y Build 發行。這個實驗探討的是這些程式設計 agent 本身; 數字是我們自己測的,方法寫在下面。

這五個,以及它們為何不同

市場分成三種型態,我們從每一種裡都挑了:

  • Claude Code——終端機優先的 agent。在公開的 SWE-bench Verified 排行榜上居首。
  • OpenAI Codex (CLI)——終端機優先,token 用量明顯更精簡。
  • Cursor——IDE 原生,現在有了並排的多 agent 模式。
  • Aider——終端機、git 原生,外科手術式的 diff。
  • Windsurf——IDE 原生,agentic 流程。

需求說明

對五個都完全一樣:「把資料層抽到一個 repository 介面後面,為每個 repository 方法加一個測試, 並且不要更動公開 API。」 接著我們測量了:完成後通過的測試數、改動的行數、公開 API 是否真的 守住、燒掉的 token、實際耗時,以及一個人工評分的品質分數。

發生了什麼

Agent時間測試通過公開 API 守住做法
Claude Code23 min有條理的跨檔案重構,品質 9.0/10
Cursor47 min較慢,由 IDE 引導,8.5/10
Codex26 mintoken 最精簡(約比 Claude Code 少 3–4 倍)
Aider19 min部分外科手術式、diff 最小——漏了兩個方法
Windsurf38 min重寫了一半的層;弄壞了一個簽章

真正的故事在於做法的差異。Aider 做了一個十行的外科手術式改動就停了;Windsurf 重寫了 一半的 app,還悄悄改掉了一個函式簽章。Claude Code 則在最多檔案之間守住了計畫、沒有迷失方向 ——代價是跑同樣的工作要燒掉 Codex 3–4 倍的 token。

那個沒人會警告你的瓶頸

讓我們意外的是這件事:一旦你同時跑超過一個 agent,agent 就不再是瓶頸了。 圍繞著它的 一切才變成了真正的工作——哪個 session 在做什麼、誰的 diff 好了、哪個分支是哪個、從昨天到 現在又壞了什麼。Cursor 的並排多 agent 檢視會存在,正是因為序列式的審查無法規模化。同時跑 五個 agent 並沒有讓我們快上 5 倍;它讓審查變成了新的全職工作。

方法論

同一個儲存庫、同一個 commit、同一份需求說明,每個 agent 都有全新的脈絡、用預設模型。我們 每個都跑兩次,保留較好的那一次。品質由人工依固定評分標準評分(可讀性、測試的意義性、diff 範圍的紀律)。完整的 diff 與日誌:github.com/ybuild/lab-04

結論

並不存在「最好的重構 agent」——存在的是一種剛好適合這份工作的性情。想要一份緊湊、好審查的 diff?Aider 或 Codex。一個必須保持連貫的大型跨檔案重構?Claude Code。但無論你選哪一個, 都要為那個 demo 都略過不談的部分編列預算:審查 agent 做了什麼,現在才是真正的工作。

喜歡這篇拆解?
新實驗上線當天就送到你信箱。每週一封,附原始數據。
作者
Marcus Tan 創始工程師,Y Build

Marcus 用 AI 工具上線過 40+ 款生產級應用,並主理 Build Lab 的各項實驗 —— 也就是每篇對比與實驗筆記背後那些計時、可複現的正面對決。此前曾在兩家 YC 新創公司打造開發者平台。

40+ 個已上線應用 8 年 全端 作者 · 實驗室
更多來自 Marcus → @marcustan github ↗

繼續閱讀

查看全部實驗 →
建構你自己的應用
免費 · 無需信用卡
免費開始 →