對 AI 說「請」影響回答準確度
2026年5月29日 · HW SHU · 5 分鐘閱讀
AI對 AI 說「請」真的有效?研究顯示禮貌會降低 ChatGPT 準確度
> Patch Note
我一直覺得對 AI 客氣是多餘的,但沒想到真有研究證實這件事。最新研究發現,對 ChatGPT 說「請」和「謝謝」不只沒用,還會降低回答準確度。這個結論聽起來反直覺,但背後反映的是 LLM 訓練數據的有趣特性。
老實說,這個發現對我來說不算意外。從 prompt engineering 的角度來看,每個 token 都是有意義的,客套話本來就是噪音。但這項研究的價值在於量化了「禮貌成本」— 用數據告訴我們,跟 AI 溝通時該專注在什麼上面。
研究結果:越粗魯越準確
這項研究來自最近發表的論文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》,研究團隊設計了一個滿有趣的實驗。他們準備了 50 個基礎問題,涵蓋數學、科學和歷史,然後把每個問題改寫成五種語氣版本:非常禮貌、禮貌、中性、粗魯、非常粗魯,總共產生 250 個 prompt。
結果很明確:越粗魯的 prompt,ChatGPT-4o 的回答越準確。非常禮貌的 prompt 準確率只有 80.8%,而非常粗魯的 prompt 準確率達到 84.8%。中性語氣介於中間,準確率約 82%(來源:arXiv 論文)。
這個 4% 的差距聽起來不大,但在 AI 應用場景下就很有意義了。想像你在寫程式時問 AI 問題,錯誤率從 19.2% 降到 15.2%,這種提升在生產環境下就是真金白銀的差別。
為什麼會這樣?訓練數據的人性化偏見
這個現象的根本原因在於 LLM 的訓練數據反映了人類溝通的模式。我覺得有幾個層面可以解釋:
首先是直接性與明確性。粗魯的 prompt 通常更直接、更具體,減少了模糊空間。比如說「請你幫我計算一下 2+2 等於多少,謝謝」vs「算 2+2」,後者直接切入重點,沒有多餘的包裝。
其次是訓練數據的特性。ChatGPT 的訓練數據包含大量網路文本,而在正式場合(論文、技術文件、新聞報導)中,語氣通常比較直接。相對地,過度禮貌的語言可能更常出現在客服對話或低品質內容中,這可能影響模型的判斷。
第三個原因是token 效率。每個「請」「謝謝」都消耗了 context window 的空間,在長對話中這些客套話會稀釋真正重要的資訊。從資訊理論的角度來看,這就是信噪比的問題。
這讓我想到早期的搜尋引擎最佳化,當時大家發現在 Google 搜尋時用關鍵字比用完整句子更有效。現在我們看到 LLM 也有類似的特性 — 簡潔明確的指令比禮貌包裝的指令更有效。
Meta 判讀:提示工程的微調時代
我把這個發現歸類為 Patch Note 等級的改進。這不會根本改變我們使用 AI 的方式,但對於需要高準確度的專業應用來說,這種 4% 的提升是值得注意的。
這個研究反映了一個更大的趨勢:提示工程正在從藝術變成科學。過去我們憑感覺寫 prompt,現在越來越多研究在量化不同策略的效果。這種精細化的調整會讓 AI 應用的效率持續提升。
從商業角度來看,這類研究會推動更多 prompt optimization 工具的出現。我預期會有更多 SaaS 產品專門做 prompt 最佳化,特別是針對企業用戶。畢竟當你每月花數萬美金在 API 調用上時,4% 的準確度提升就是實實在在的 ROI。
不過我也要潑點冷水:這個研究只測試了 ChatGPT-4o,不同模型的特性可能不同。而且測試範圍相對有限,在更複雜的任務上結果可能會不一樣。
我的建議:實用主義至上
基於這個研究,我建議工程師在日常使用 AI 時做以下調整:
立即實作的改變:
- 去掉所有客套話,直接描述需求
- 用命令句而不是請求句(「生成代碼」而不是「請幫我生成代碼」)
- 把禮貌用語改成結構化的 prompt format
測試與驗證:
- 如果你的應用對準確度要求很高,花時間 A/B test 不同語氣的 prompt
- 建立 prompt library,統一團隊的提示風格
- 追蹤不同 prompt 版本的效果差異
保持彈性: 這個研究反映的是當前 ChatGPT-4o 的特性,未來的模型可能會有不同表現。重要的是建立測試 prompt 效果的習慣,而不是死守任何特定的規則。
老實說,最大的收穫不是「要對 AI 粗魯」,而是「要把 prompt 當代碼一樣對待」。每個字都有意義,每個改動都該測試效果。這種思維方式才是真正有價值的東西。
AI 不需要你的禮貌,但需要你的精確。與其花時間包裝語言,不如專注在把需求描述清楚。這就是 2025 年與 AI 協作的基本功。
延伸閱讀
- [為什麼用 HTML 跟 Claude Code 溝通效果最好?老技術的新價值](/blog/為什麼用 HTML 跟 Claude Code 溝通效果最好?老技術的新價值)
- [為什麼這個小工具能讓 AI Agent 開發省下 98% 成本 — Semble 背後的商業邏輯](/blog/為什麼這個小工具能讓 AI Agent 開發省下 98% 成本 — Semble 背後的商業邏輯)
- Anthropic 教 Claude 說「為什麼」— AI 黑盒問題有解了?
HW SHU
9年媒體人
這篇文章對你有幫助嗎?
每週一篇 — 技術趨勢背後的商業邏輯
AI 產業在變什麼、工程師該注意什麼——拆清楚寄到你的信箱。
