
讓兩個 AI Agent 互相 code review,效果居然...
AI 結對編程實測:兩個 Agent 比一個強嗎?
最近 AI Agent 又火一波,各種 multi-agent system 聽起來很炫,但我一直在想:兩個 Agent 結對寫 code 真的比單個 Agent 更強嗎?還是只是把 LLM 的問題 x2?
剛好最近測了幾個案例,想分享一下實際的觀察。
什麼是 Agent-to-agent pair programming?
簡單來說就是讓兩個 AI Agent 扮演不同角色,一個負責寫 code,另一個負責 review,然後他們互相討論改進。聽起來就像人類的 pair programming,只是換成機器對機器。
目前主流的做法是:
- Agent A:Developer,負責寫實作
- Agent B:Reviewer,負責挑毛病和建議改進
- 兩者透過 conversation loop 來回討論
理論上聽起來不錯,但實際上用起來如何?
實測案例:寫一個簡單的 todo app
我用 Claude 3.5 設定了兩個角色,讓他們協作寫一個 React todo app。
Agent A (Developer):
- 負責寫 component 和 logic
- 專注在功能實現
Agent B (Reviewer):
- 檢查 code quality、performance、accessibility
- 提出重構建議
第一輪:基本功能實作
Developer 寫了一個很標準的 todo component,useState 管理 list,基本的 add/remove 功能。
Reviewer 馬上指出幾個問題:
- 沒有處理 empty state
- delete 功能沒有確認機制
- accessibility 不夠好,沒有 proper ARIA labels
這輪的對話還算有價值,Reviewer 確實抓到一些 Developer 漏掉的細節。
第二輪:優化和重構
Developer 根據建議改進了 code,加了 loading state、error handling、更好的 UX。
但這時候問題來了 — Reviewer 開始提一些很瑣碎的建議,像是變數命名、comment 格式這種。而且開始出現循環討論,A 說這樣寫比較好,B 說那樣寫比較好,兩邊各有道理但沒有定論。
實際觀察:優點
1. 互補的視角
確實會產生一些單個 Agent 可能忽略的 edge cases。Developer 專注在功能,Reviewer 專注在品質,分工明確。
2. 更全面的考量
accessibility、performance、security 這些面向會被更仔細檢查。單個 Agent 寫 code 時常常會忽略這些。
3. 迭代改進
code 會經過多輪優化,最終版本通常比第一版好很多。
實際觀察:缺點
1. 過度工程化
兩個 Agent 會互相「激勵」,把簡單的東西搞得很複雜。明明一個 useState 就能解決的,最後搞出 useReducer + context + custom hooks。
2. 沒完沒了的討論
AI 沒有「夠了」的概念,會無止境地優化下去。我見過他們為了一個 function 的命名討論十幾回合。
3. 成本倍增
兩個 Agent 的 token 消耗基本上是 x2,但產出的品質提升沒有到 x2。
4. 一致性問題
兩個 Agent 可能對同一件事有不同的偏好,會產生來回修改的情況。
什麼時候值得用?
經過幾週的測試,我覺得 agent-to-agent pair programming 在這些場景比較有價值:
適合的場景
- 複雜的業務邏輯:需要多重檢查的場合
- 安全敏感的 code:authentication、payment 這種
- 學習用途:看兩個 Agent 討論可以學到不同思路
不適合的場景
<h2>延伸閱讀</h2> <ul> <li><a href="/blog/agent-design-behind-50000-stars-architectural-breakdown-of-bytedance-deerflow-20">五萬顆星背後的 Agent 設計:ByteDance DeerFlow 2.0 的架構拆解</a></li> <li><a href="/blog/anatomy-of-agent-harness">拆解 Agent Harness — 你以為的 AI Agent 其實 90% 是 harness</a></li> <li><a href="/blog/how-we-monitor-internal-coding-agents-for-misalignment">How we monitor internal coding agents for misalignment</a></li> </ul>Waiting7777
前端工程師的 AI 實戰紀錄
相關文章
AI Agents五萬顆星背後的 Agent 設計:ByteDance DeerFlow 2.0 的架構拆解
ByteDance 在 2026 年 2 月底把 DeerFlow 整個砍掉重寫,從「多 Agent 研究框架」變成「SuperAgent Harness」。GitHub 星數從原本的幾千顆暴漲到五萬顆,登上 Trending 第一名。但數字不是重點——重點是他們在 v2 裡做了一個根本性的架構決策轉向,對任何想設計 Agent 系統的人都有參考價值。
2026年3月28日 · Waiting7777 · 9 分鐘閱讀
繼續閱讀 →
AI AgentsKensho 用 LangGraph 做金融 Agent — 多 Agent 系統實戰解析
拆解 Kensho 的多 Agent 金融數據檢索系統,分析 LangGraph 在金融業的實際應用。
2026年3月28日 · Waiting7777 · 5 分鐘閱讀
這篇文章對你有幫助嗎?
每週一篇 — 前端工程師的 AI 轉型筆記
從前端到 AI Agent,把複雜的東西拆清楚,寄到你的信箱。
