menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon


科技

Google AI爬蟲無法封鎖!Cloudflare也無力對抗Gemini抓取數據

鉅亨網新聞中心


全球最大內容分發網路之一 Cloudflare 近日推出一項新功能,允許網站擁有者一鍵封鎖 AI 公司爬蟲,以防止網站內容被用來訓練大型語言模型。然而,此功能對 Google (GOOGL-US) 爬蟲完全無效,成為業界廣泛關注的爭議焦點。

cover image of news article
Google AI爬蟲無法封鎖!Cloudflare也無力對抗Gemini抓取數據。(圖:Shutterstock)

專家指出,造成問題的核心在於,Google 將搜尋索引與 Gemini 大型語言模型的資料蒐集工作,都交由同一個爬蟲執行,兩者共用 IP 與 HTTP 標頭。


這讓 Cloudflare 無法從技術層面區分搜尋與 AI 用途,若強制封鎖 Googlebot,網站將被 Google 搜尋引擎排除,對依賴自然流量的網站來說如同「自殺」。

根據 Cloudflare 統計,自 2024 年 7 月 AI 爬蟲封鎖機制上線以來,已有超過 100 萬個網站採用,但 Google 仍是唯一無法被有效阻擋的例外。

Google 仍將內容可用於 AI 摘要  robots.txt 作用有限 

Cloudflare 副總裁 Will Allen 指出,封鎖 AI 爬蟲如同門口的保全,會主動攔人;而 robots.txt 更像一張「禁止進入」的標示,能否遵守端看對方是否自律。

對於 OpenAI 的、Anthropic 等其他 AI 爬蟲,Cloudflare 可以透過匹配用戶代理字串、IP 塊和行為模式來精確攔截。然而,面對 Google,Cloudflare 只能依賴 robots.txt 這種「君子協定」。

值得注意的是,即使網站使用 robots.txt 擋下 AI 訓練,Google 仍可利用內容產生 AI 摘要(AI Overviews)和 AI 模式(AI Mode)功能,讓使用者在搜尋結果中直接取得資訊,無需點擊原網站。

Google AI 內容供應無法有效退出  出版業者無奈

代表 2,200 多家媒體的 News/Media Alliance 執行長 Danielle Coffey 直言:「沒有真正有效的方式可以退出 Google 的 AI 內容訓練,除非網站完全從搜尋結果中消失。」

許多出版商表示,自從 Google 擴展 AI 摘要以來,他們的流量「斷崖式下跌」。

Cloudflare 執行長 Matthew Prince 在 X 平台發文指出,他們正在努力尋找一種技術解法,可以在不影響 Google 搜尋排名的情況下,阻止網站內容被用於 AI Overviews。

他暗示說,公司正在與 Google 進行對話,但如果談判失敗,將尋求立法途徑解決。

儘管 Google 聲稱封鎖其 AI 爬蟲 Gemini 不會影響搜尋排名,但業界信心不足。健身網站經營者 Kalee Sorey Dillard 坦言「不敢賭」,而 Raptive 廣告營運副總裁 Tom Critchlow 也表示:「大多數人對 Google 的承諾沒有信心。」



Empty