
Andrew Ng 投資的 IrisGo — AI 助手要從聊天框跳到桌面了
Andrew Ng 押注的 AI 桌面助手 — 下一代人機互動要來了?
> Meta Shift
Jeffrey Lai 在舊金山的辦公室裡,正準備向投資人展示他的新產品。這位前蘋果工程師,曾經負責開發中文版 Siri,現在卻要做一個跟 Siri 完全相反的東西 — 一個不用你開口,就能預測你需要什麼的 AI 助手。
螢幕上,他的系統 IrisGo 正在學習如何在 Philz Coffee 網站下單。點選拿鐵、填入信用卡資料、確認購買 — 整個流程只需要示範一次,系統就記住了。下次再要咖啡時,連問都不用問,IrisGo 自己就完成了訂單。
這個 demo 說服了 Andrew Ng,讓他的 AI Fund 領投了 IrisGo 280 萬美元的種子輪融資。但買咖啡當然不是重點,重點是這代表了一個更大的轉向:AI 正在從「被動回應」走向「主動預測」。
背景脈絡
IrisGo 的成立時機很有意思。當整個 AI 圈都在瘋狂競逐更強的 LLM、更好的聊天體驗時,Lai 卻選擇了一條看起來「很老派」的路線 — 桌面應用程式。
這個選擇其實反映了一個現實:儘管 ChatGPT、Claude 這些 LLM 功能強大,但在實際工作場景中,人們還是得在不同應用程式之間來回切換、重複執行同樣的操作。一個知識工作者的一天可能是:查 email、回覆客戶、更新試算表、生成報告 — 看起來很高級,但其實充滿了機械性的重複動作。
Lai 的判斷是,下一代 AI 助手不應該只會聊天,而是要能「看懂」你的工作流程,然後主動幫你完成。這就是為什麼 IrisGo 的品牌策略這麼直接:Iris 就是 Siri 倒過來拼,象徵著從「你問我答」變成「我看你做」的模式轉換。
產業環境也在配合這個轉向。根據 McKinsey 的報告,知識工作者有 60-70% 的時間都花在重複性任務上(來源:McKinsey Global Institute)。這些工作有規律可循、步驟相對固定,正是 AI automation 最容易切入的領域。而桌面環境比 web 應用更容易做 screen recording 和 workflow automation,技術實現的門檻也相對較低。
關鍵決策與轉折
IrisGo 最核心的技術決策是 hybrid architecture — 一部分運算在本地端,一部分在雲端。這個架構選擇背後有幾個考量:
首先是隱私。企業客戶最擔心的就是敏感資料外流,如果所有操作都要上雲,很多公司根本不敢用。IrisGo 把資料處理盡量留在 local,只有真正需要強大運算能力的複雜任務才會「經過用戶授權」送到雲端,而且承諾 end-to-end encryption。
這個設計其實很聰明。對比一下 Microsoft Copilot 或 Google Workspace AI,它們都高度依賴雲端運算,企業導入時經常卡在資安稽核。IrisGo 的 local-first approach 在 B2B 銷售時會有明顯優勢。
第二是成本考量。如果每個 workflow step 都要呼叫 GPT-4,成本會非常驚人。簡單的 UI 操作其實不需要用到 frontier model,用輕量化的本地模型就能解決。只有真正需要推理的任務(比如 email 內容生成、文件摘要)才調用雲端 API。
技術實現上,IrisGo 內建了一個「技能庫」,包含常見的 business workflow:email 起草、發票處理、報告生成、文件摘要等等。這些預設技能可以直接使用,同時系統會 observe 用戶的操作習慣,自動學習新的 workflow pattern。
最巧妙的是它的學習機制。不像傳統的 RPA(Robotic Process Automation)需要寫腳本,IrisGo 用 computer vision 和 ML 來理解螢幕操作,然後生成可重複執行的 automation script。這讓非技術用戶也能輕鬆「訓練」自己的 AI 助手。
Meta 判讀
從 meta 角度來看,IrisGo 代表的是一個 Meta Shift,而且是很重要的那種。
這讓我想到電競遊戲裡的版本更新。過去幾年,AI 領域的主流 meta 一直是「chat interface」— 大家都在比誰的對話體驗更好、誰能記住更長的 context、誰的回答更準確。但這個 meta 已經開始遇到天花板了。ChatGPT、Claude、Gemini 在功能上越來越同質化,差異化越來越難做。
IrisGo 走的是完全不同的路線:從 chat-based 轉向 action-based,從被動響應轉向主動預測。這不只是介面設計的改變,而是整個使用情境的重新定義。
如果這個方向跑通了,會對現有的 AI 生態產生很大衝擊。Google Assistant、Siri、Alexa 這些傳統語音助手會顯得過時,甚至連 ChatGPT 的 desktop app 都可能要重新思考產品定位。
更重要的是,這個 shift 有很強的 network effect potential。每個用戶訓練出來的 workflow 都可能成為其他用戶的「技能包」,形成一個 automation 的 marketplace。想像一下,如果有一萬個會計師都在用 IrisGo 處理發票,那這個系統對發票處理的理解就會比任何 general-purpose AI 都要深。
當然,風險也很明顯。這種 screen recording 和 automation 的做法,很容易被作業系統或個別應用程式封鎖。Apple 和 Microsoft 如果覺得 IrisGo 威脅到自家的 AI 策略,隨時可以在 system level 限制它的功能。這是做 desktop software 永遠要面對的平台風險。
對讀者的啟發
對軟體工程師來說,IrisGo 的出現有幾個值得注意的訊號:
Waiting7777
WoW Arena 冠軍轉前端,用電競 meta 思維拆解技術趨勢。
這篇文章對你有幫助嗎?
每週一篇 — 技術趨勢背後的商業邏輯
AI 產業在變什麼、工程師該注意什麼——拆清楚寄到你的信箱。


