token budget

Topic

如果你有在玩 AI agent 或是在生產環境跑一些比較長的自動化流程，大概遲早都會踩到 token budget 這個坑。簡單說，token budget 就是你給一個 agent 或 LLM 任務的「token 預算」——它能用多少 token 來思考、執行、輸出，都是有上限的。問題是，很多人在設計 agentic system 的時候，根本沒有認真考慮這件事，等到 agent 跑到一半突然斷掉、或是輸出被截斷，才開始頭痛。 Token budget 不只是「context window 夠不夠大」這麼單純。當你的 agent 需要做多步推理、呼叫多次工具、或是處理很長的中間結果，token 的消耗速度可以快到讓你意外。更麻煩的是，很多框架和 API 對這塊的錯誤處理都不夠優雅，agent 掛掉的方式往往不是給你一個清楚的錯誤，而是默默產出一個爛掉的結果。這個分類整理的內容，就是想把 token budget 這個大家都碰過、但很少認真聊的問題攤開來看。從為什麼會發生、實際影響是什麼，到現在有哪些做法可以緩解，一步一步來。如果你正在設計或優化 agentic workflow，這些東西應該對你有點用。

先搞懂問題在哪

AI Agent 跑到一半沒 token 了 — token budget 問題沒人在講，但很重要
從 agent 執行到一半就掛掉這個真實痛點切入，解釋 token budget 在 agentic system 裡為什麼是個容易被忽略卻很關鍵的設計問題。
2026年7月4日

token budget

先搞懂問題在哪

AI Agent 跑到一半沒 token 了 — token budget 問題沒人在講，但很重要