menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

科技

Nature:人工智慧即將面臨數據枯竭的困境

鉅亨網新聞中心 2024-12-17 17:10

cover image of news article
Nature:人工智慧即將面臨數據枯竭的困境

據《Nature》文章作者 Nicola Jones 表示,人工智慧 (AI) 近年來發展迅速,很大程度上歸功於神經網路規模的擴大和訓練數據的增加。然而,這種擴張模式正面臨著一個嚴峻的挑戰:數據枯竭,使研究人員正努力設法解決。

可用數據增長緩慢

文章稱,近年來,大型語言模型 (LLM) 的訓練數據規模呈現爆炸式增長,例如 ChatGPT 等聊天機器人背後的模型。根據 Epoch AI 的研究,用於訓練 AI 模型的數據集規模預計在 2028 年左右將達到公開線上文本的總量,這意味著 AI 可能在 4 年內耗盡訓練數據。

與此同時,可用數據的增長速度卻相對緩慢。Villalobos 的研究 估計,可用的網路內容每年增長不到 10%,而 AI 訓練數據集的規模卻以每年翻倍的速度增長。

數據來源受限,版權爭議加劇

除了數據增長緩慢之外,數據來源也面臨著諸多限制。許多數據所有者,例如報紙出版商,開始限制其內容的使用方式,進一步收緊了數據的獲取。此外,一些網站也開始使用軟體程式碼或修改服務條款來阻止網路爬蟲或 AI 公司抓取其數據。

更為嚴峻的是,數據版權問題 引發了越來越多的訴訟。例如,《紐約時報》就對 OpenAI 及其合作夥伴微軟提起版權侵權訴訟。這些訴訟可能會導致 AI 開發者和研究人員更難獲得所需的數據,特別是資金有限的學術界。

應對數據枯竭的潛在策略

文章指出,面對數據枯竭的挑戰,AI 領域正在探索各種應對策略:

  • 利用非公開數據: 包括 WhatsApp 訊息、YouTube 影片的文字稿等,但這類數據的合法性尚待釐清,且可能引發版權和隱私問題。
  • 聚焦於特定領域數據: 例如天文或基因組數據,這些數據正在快速增長,但其適用於訓練 LLM 的程度尚不清楚。
  • 利用多模態數據: 擴展和改進 AI 模型在處理未標記影片或圖像方面的能力,可以打開更豐富的數據來源。
  • 生成合成數據: AI 公司可以付費讓人們生成內容,或使用 AI 生成合成數據,但合成數據可能會存在偏差和錯誤,影響訓練效果。

文章認為,目前,許多 AI 模型主要依賴文字數據進行訓練。然而,單純依靠文字數據可能無法實現人類級別的 AI。例如, Meta 首席 AI 科學家 Yann LeCun 就指出,一個四歲的孩子僅僅透過觀察周圍世界所吸收的數據量,就遠遠超過了現代 LLM 的訓練數據量。

Jones 表示,未來 AI 發展的關鍵可能在於擁抱多模態世界,從單純的文字數據轉向利用更豐富的數據形式,例如影片、圖像、感官體驗等。這將需要開發更強大的 AI 模型和演算法,以有效地處理和學習這些多模態數據。


Empty