Google 收割 Gboard 內建 AI 語音輸入
Google 的語音輸入大殺招:新創公司準備被「內建」
> Meta Shift
Google 上週在 I/O 大會上宣布了一件看似普通,實則相當狠辣的事:在 Gboard 加入 Gemini 驅動的語音輸入功能「Rambler」。表面上只是鍵盤多了個功能,但背後的意義是 Google 正式對語音輸入新創公司宣戰。
Gboard 是全球數億 Android 用戶的預設鍵盤,這等於是在說:「你們這些專做語音輸入的新創,現在要跟我的內建功能競爭了。」對於 Wispr Flow、Typeless 這類靠語音輸入功能立足的公司來說,這根本就是降維打擊。
這讓我想到當年 Google 把導航功能內建到 Android,直接把一堆 GPS 應用做掉的故事。現在輪到語音輸入新創面對同樣的問題:當平台方決定親自下場時,垂直應用還有多少生存空間?
語音輸入市場的金錢遊戲
語音輸入這塊市場說大不大,說小不小。根據市場研究,全球語音辨識市場預計在 2027 年會達到 270 億美金(來源:Grand View Research),但專門做語音輸入應用的公司們,其實都還在摸索商業模式。
大部分語音輸入新創都採用訂閱制,月費從 5 美金到 20 美金不等。以 Wispr Flow 為例,它的定價是月付 8 美金或年付 60 美金,主打更精準的語音識別和跨設備同步。Superwhisper 走的是買斷制,一次性收費 30 美金。
但這些公司面臨一個根本問題:語音輸入本質上是個功能,不是產品。用戶願意為了更準確的辨識付費,但當免費的內建功能「夠用」時,付費的動機就會大幅下降。
護城河方面,這些新創主要靠三個點:
- 準確度:透過更先進的 AI 模型提供更精準的轉錄
- 隱私:強調本地處理,不上傳用戶語音
- 專業功能:支援特殊領域詞彙、多語言切換、格式化輸出
但現在 Google 的 Rambler 直接打破了這個平衡。它不只有 Gemini 的 AI 能力,還內建了 code switching(語言切換)功能,甚至宣稱「不儲存語音錄音」。這基本上是把新創公司的三大賣點全部複製了一遍。
大平台 vs 專業工具的血戰
目前市面上的主要玩家大概可以分成三個陣營:
平台內建派:
- Google Gboard(新加入 Rambler)
- Apple Siri Dictation
- Microsoft Speech Platform
專業工具派:
- Wispr Flow(主打 Mac/iOS,月付 8 美金)
- Superwhisper(買斷制 30 美金)
- Typeless(主攻開發者市場)
企業解決方案派:
- Otter.ai(會議記錄,估值 10 億美金)
- Rev.com(專業轉錄服務)
從競爭格局來看,平台方的優勢實在太明顯了。分發管道、用戶基數、技術資源都不是一個量級。Google 這次還特別強調 Rambler「跨所有應用使用」,等於是在重新定義鍵盤的概念。
專業工具要生存,只能往更細分的市場鑽。比如 Otter.ai 就很聰明,它不做通用語音輸入,專門做會議記錄和協作,建立了完整的企業服務生態。但像 Wispr Flow 這種直接跟系統功能競爭的,日子就不好過了。
有趣的是,Google 自己上個月才在 iOS 上推出 AI Edge Eloquent,一個離線優先的語音輸入 app。現在又把類似功能整合到 Gboard 裡。這種左右手互博的策略很明顯:先用 app 測試市場反應,確認可行後就內建到平台裡。
Meta 分析:又一次的「內建化」收割
這件事讓我想到電競裡的 meta shift。當某個強勢角色出現,整個對戰環境都會重新洗牌。Google 這招就是典型的「平台方降維打擊」。
類似的案例其實很多:
- 2007 年:iPhone 內建相機,直接做掉一堆數位相機品牌
- 2010 年:Google Maps 免費開放,GPS 導航公司股價暴跌
- 2013 年:iOS 內建手電筒,付費手電筒 app 瞬間失去意義
- 2020 年:Zoom 內建背景模糊,專門做這功能的 app 被邊緣化
每次都是同樣的劇本:平台方觀察第三方應用的熱門功能,等市場驗證完畢後,直接內建到系統裡。開發者花了大把時間精力建立的產品,瞬間變成「系統功能」。
但這次有點不一樣的是時間點。AI 浪潮剛起,語音輸入新創還沒完全站穩腳跟,Google 就已經出手了。這說明大平台對 AI 賽道的警覺性比以前高很多,不會再給新創太多時間成長。
從投資角度看,這對語音輸入新創是個警訊。當平台方親自下場時,除非你有很強的差異化價值,否則很難跟「免費 + 內建」競爭。投資人也會更謹慎,畢竟誰知道下一個被「內建」的會是什麼功能?
工程師的機會在哪裡?
對工程師來說,這件事其實有兩面:
壞消息是,如果你正在做語音輸入相關的 side project,可能要重新思考定位了。除非你能提供非常獨特的價值(比如特定領域的專業詞彙、更強的隱私保護、或是特殊的工作流整合),否則很難跟系統內建功能競爭。
好消息是,語音輸入的普及會帶來更多上層應用的機會。當語音轉文字變成基礎設施,真正的價值會轉移到「拿到文字之後要做什麼」。比如自動化筆記整理、會議摘要、內容創作輔助等等。
技術方向上,我覺得值得關注的是 multi-modal AI 的發展。語音輸入只是第一步,未來可能會是語音 + 手勢 + 眼動 + 腦波的組合輸入。Google 這次整合 Gemini 到 Gboard,其實也是在為更複雜的人機互動鋪路。
另外,企業市場還是有機會的。消費者可以接受「夠用就好」的免費功能,但企業對準確度、隱私、客製化的要求更高。如果你想在這個領域創業,與其跟 Google 正面硬碰硬,不如往 B2B 方向切入。
總結來說,這次 Google 的動作再次證明了一個道理:在平台經濟裡,最危險的競爭對手不是同行,而是平台方決定「順便」做你在做的事。作為開發者,要嘛做平台方不想做的事,要嘛做得比平台方好太多,否則就要有被「內建」的心理準備。
延伸閱讀
HW SHU
9年媒體人
這篇文章對你有幫助嗎?
每週一篇 — 技術趨勢背後的商業邏輯
AI 產業在變什麼、工程師該注意什麼——拆清楚寄到你的信箱。


