Topic
token budget
如果你有在玩 AI agent 或是在生產環境跑一些比較長的自動化流程,大概遲早都會踩到 token budget 這個坑。簡單說,token budget 就是你給一個 agent 或 LLM 任務的「token 預算」——它能用多少 token 來思考、執行、輸出,都是有上限的。問題是,很多人在設計 agentic system 的時候,根本沒有認真考慮這件事,等到 agent 跑到一半突然斷掉、或是輸出被截斷,才開始頭痛。 Token budget 不只是「context window 夠不夠大」這麼單純。當你的 agent 需要做多步推理、呼叫多次工具、或是處理很長的中間結果,token 的消耗速度可以快到讓你意外。更麻煩的是,很多框架和 API 對這塊的錯誤處理都不夠優雅,agent 掛掉的方式往往不是給你一個清楚的錯誤,而是默默產出一個爛掉的結果。 這個分類整理的內容,就是想把 token budget 這個大家都碰過、但很少認真聊的問題攤開來看。從為什麼會發生、實際影響是什麼,到現在有哪些做法可以緩解,一步一步來。如果你正在設計或優化 agentic workflow,這些東西應該對你有點用。