為什麼 AI Agent 需要專屬瀏覽器?Rotunda 的技術突破點
為什麼 AI Agent 需要專屬瀏覽器?從 Rotunda 看反機器人戰爭
> Patch Note
開場
我最近看到一個有趣的開源專案 Rotunda,說是專為 AI Agent 設計的瀏覽器。一開始我覺得有點多餘 — 瀏覽器不就是瀏覽器嗎?用 Playwright 或 Selenium 自動化不就好了?但仔細研究後發現,這背後其實反映了一個更深層的問題:當 AI Agent 開始大量使用網路時,傳統的反機器人系統開始失效,而我們需要新的工具來應對這場「貓抓老鼠」的遊戲。
今天就來拆解一下 Rotunda 的設計思路,看看為什麼 MonkeySee-AI 這家公司認為值得重新發明瀏覽器。
架構概覽
Rotunda 的核心理念很簡單:讓 AI Agent 像真人一樣使用瀏覽器。它基於 Chromium 核心,但加了一層專門的「人類行為模擬」引擎。
從架構來看,Rotunda 包含幾個關鍵元件:
Browser Core:基於 Chromium,負責實際的網頁渲染和 JavaScript 執行。這部分沒有重新造輪子,直接用成熟的引擎。
Human Behavior Simulator:這是核心創新,包含 typing patterns、mouse movements、scroll behaviors 等模組。每次互動都會加上隨機的人類行為特徵。
Agent Interface:提供 Python API,讓開發者能用程式控制瀏覽器,但所有操作都會經過行為模擬層。
Anti-Detection Layer:處理 fingerprinting 對抗,包含 canvas fingerprinting、WebGL signatures、font detection 等常見的機器人檢測手段。
資料流很直觀:Agent 發送指令 → 行為模擬器加工 → Browser Core 執行 → 回傳結果給 Agent。關鍵在中間那個模擬層,它會把每個「點擊按鈕」的指令變成「移動滑鼠到按鈕附近、略微偏移、停頓 100-200ms、按下」的真實人類行為。
核心機制深入
1. Simulated Typing Engine
最吸引我的是它的 typing simulation。傳統的自動化工具直接往 input field 塞文字,但真人打字有節奏、有錯誤、有停頓。Rotunda 會分析你要輸入的文字,然後:
- 加上隨機的 typing speed variation(每個字元間 50-150ms 的隨機間隔)
- 模擬 typos 和 backspace corrections
- 在長文字中間加上思考停頓(500-2000ms)
- 模擬 copy-paste 行為(對於長串文字如 email addresses)
這個設計很聰明,因為現在很多反機器人系統會監控 keystroke dynamics。如果你一秒鐘打 50 個字而且零錯誤,那明顯是腳本。
2. Mouse Movement Patterns
傳統自動化的滑鼠移動是直線的,但人類移動滑鼠會有微弱的弧線和抖動。Rotunda 實作了 Bézier curve 路徑算法,讓滑鼠移動看起來自然。
更細緻的是,它會根據不同的互動場景調整行為:
- 點擊大按鈕:快速直接移動
- 點擊小連結:慢一點,可能有微調
- 拖拽操作:保持壓力,路徑更平滑
3. Fingerprinting Resistance
這是最技術性的部分。現代網站會收集各種 browser fingerprint 來識別機器人:
- Canvas Fingerprinting:透過繪製圖形檢測 GPU 差異
- WebGL Signatures:檢查 WebGL renderer 資訊
- Font Detection:檢測系統安裝的字體
- Timezone/Language 一致性:檢查各種設定是否合理
Rotunda 的作法是維護一個「真實瀏覽器 profile」資料庫,每次啟動時隨機選一個 profile,確保所有 fingerprint 指標都一致。這比單純 spoofing 某個值要聰明多了。
Trade-off 是效能:每次互動都要經過模擬層,延遲會增加 200-500ms。但對於 Agent 應用場景來說,這個延遲完全可以接受。
商業背景
MonkeySee-AI 這家公司我之前沒聽過,從 GitHub 看起來是專門做 AI Agent 工具的。Rotunda 採用開源策略很聰明 — 瀏覽器本身免費,但可能會在周邊服務(hosting、proxy、更進階的行為模型)上收費。
這個商業模式讓我想到 Playwright 和 Puppeteer 的演化路徑。微軟開源 Playwright 不是為了賣瀏覽器,而是為了推廣 Azure 和 Visual Studio 生態系。MonkeySee-AI 可能也是類似思路 — 用 Rotunda 建立 AI Agent 開發者社群,然後在更高層的服務上變現。
HW SHU
9年媒體人
這篇文章對你有幫助嗎?
每週一篇 — 技術趨勢背後的商業邏輯
AI 產業在變什麼、工程師該注意什麼——拆清楚寄到你的信箱。


