
為什麼 AI Agent 還取代不了程式設計師 — 約束衰減問題解析
AI 寫程式碰到天花板了,constraint decay 戳破了誰的泡沫?
> Patch Note
我認為 AI Agent 在程式碼生成上還遠遠不能取代程式設計師,這份最新的研究論文「Constraint Decay」直接戳破了市場對 coding agent 的過度期待。老實說,看到那些動輒估值幾十億美金的 AI coding 新創,我都覺得投資人可能想太多了。
這份來自 arXiv 的研究報告揭露了一個關鍵問題:當你要求 LLM Agent 不只是寫出「能跑的程式碼」,而是要遵守「生產環境的結構約束」時,performance 會斷崖式下跌。這不是 fine-tuning 或 prompt engineering 能解決的,而是現階段 LLM 的根本限制。
數據不會騙人:約束越多,AI 越不行
研究團隊設計了 80 個 greenfield 任務和 20 個 feature implementation 任務,橫跨 8 個 web framework,結果很慘烈。當約束條件從基本功能需求增加到包含架構模式、database schema、ORM mapping 時,即使是表現最好的 configuration 也平均掉了 30 分的 assertion pass rate。更糟的是,某些較弱的配置直接接近零分。
這個「constraint decay」現象不是偶然。研究發現 framework 的複雜度直接影響 Agent 表現:在 Flask 這種 minimal、explicit 的框架上,Agent 還能應付;但換到 FastAPI、Django 這種 convention-heavy 的環境,表現就大幅下滑。
最致命的是 data layer 的問題。錯誤分析顯示,query composition 錯誤和 ORM runtime violations 是主要的失敗原因(來源:arXiv:2605.06445)。這代表 AI 在處理「資料如何存取」這個最基本的後端問題上,仍然不夠可靠。
為什麼 AI 會在結構約束上翻車?
這讓我想到早期的 code generation tool。2000 年代也有一堆 CASE tool 號稱能自動生成程式碼,最後都因為無法處理真實世界的複雜性而失敗。現在的 LLM Agent 遇到的是同樣的問題,只是包裝得更漂亮。
從技術面來說,LLM 的訓練資料主要是「能跑的程式碼範例」,而不是「符合特定架構約束的程式碼」。Stack Overflow 和 GitHub 上充滿了為了 demo 而寫的快速解法,但生產環境需要的是 maintainable、scalable、符合團隊 coding standard 的程式碼。這兩者的 gap 很大。
商業面的問題更明顯。現在的 AI coding tool 都在搶「提升開發效率」的市場,但真正的痛點不是「寫程式碼」,而是「寫對的程式碼」。一個初級工程師也能照著文件寫出功能,但要寫出符合系統架構、能通過 code review、不會產生技術債的程式碼,那就是另一回事了。
從人才面來看,這個研究其實驗證了一個事實:senior engineer 的價值不在於「寫程式碼」,而在於「做正確的技術決策」。當 AI 連基本的 ORM query 都會寫錯時,你還指望它能設計 database schema 或選擇合適的 caching strategy?
Meta 判讀:Patch Note 等級的調整
這個發現屬於 Patch Note 等級 — 有影響但不會改變大方向。
AI coding tool 的市場還是會繼續成長,但投資人和使用者的期待需要校正。我們正在從「AI 即將取代程式設計師」的 hype cycle 高峰,走向「AI 是很好的 copilot 但還不能當 pilot」的 trough of disillusionment。
Cursor 一年賺一億美金(據報導)確實很厲害,但它成功的關鍵是定位在「輔助編輯」而不是「自動生成」。同樣地,GitHub Copilot 的價值在於加速 boilerplate code 的撰寫,而不是替你做架構設計。
對於那些號稱能「全自動生成 web application」的新創,這份研究基本上是當頭棒喝。投資人應該重新評估這類公司的估值模型,特別是那些 demo 看起來很炫但沒有處理 production-grade constraint 的產品。
我的建議:務實看待 AI coding tool
如果你是工程師:繼續學習 AI tool,但不要指望它們能替你做複雜的技術決策。把它們當作更聰明的 auto-complete,專注在學習系統設計、架構模式這些 AI 還搞不定的核心技能。
如果你是技術主管:評估 AI coding tool 時,重點測試它們在你的 tech stack 和 coding standard 下的表現,不要被 demo 給唬住了。Flask 能跑不代表 Django 也行。
如果你是投資人:這個研究提醒我們,AI coding 市場的天花板比想像中低。那些估值過高的 coding agent 新創,可能需要重新 pricing。真正有價值的是那些專精在特定 domain、能處理 production constraint 的 solution。
老實說,我覺得這個結果很合理。寫程式從來不只是「generate code」,更重要的是理解 business context、system constraint、team convention。AI 在這些方面還有很長的路要走,這反而是好消息 — 代表程式設計師的工作還安全得很。
Waiting7777
WoW Arena 冠軍轉前端,用電競 meta 思維拆解技術趨勢。
這篇文章對你有幫助嗎?
每週一篇 — 技術趨勢背後的商業邏輯
AI 產業在變什麼、工程師該注意什麼——拆清楚寄到你的信箱。


