科技

Nature：人工智慧即將面臨數據枯竭的困境

鉅亨網新聞中心2024-12-17 17:10

據《Nature》文章作者 Nicola Jones 表示，人工智慧 (AI) 近年來發展迅速，很大程度上歸功於神經網路規模的擴大和訓練數據的增加。然而，這種擴張模式正面臨著一個嚴峻的挑戰：數據枯竭，使研究人員正努力設法解決。

‌

文章稱，近年來，大型語言模型 (LLM) 的訓練數據規模呈現爆炸式增長，例如 ChatGPT 等聊天機器人背後的模型。根據 Epoch AI 的研究，用於訓練 AI 模型的數據集規模預計在 2028 年左右將達到公開線上文本的總量，這意味著 AI 可能在 4 年內耗盡訓練數據。

與此同時，可用數據的增長速度卻相對緩慢。Villalobos 的研究估計，可用的網路內容每年增長不到 10%，而 AI 訓練數據集的規模卻以每年翻倍的速度增長。

除了數據增長緩慢之外，數據來源也面臨著諸多限制。許多數據所有者，例如報紙出版商，開始限制其內容的使用方式，進一步收緊了數據的獲取。此外，一些網站也開始使用軟體程式碼或修改服務條款來阻止網路爬蟲或 AI 公司抓取其數據。

更為嚴峻的是，數據版權問題引發了越來越多的訴訟。例如，《紐約時報》就對 OpenAI 及其合作夥伴微軟提起版權侵權訴訟。這些訴訟可能會導致 AI 開發者和研究人員更難獲得所需的數據，特別是資金有限的學術界。

文章指出，面對數據枯竭的挑戰，AI 領域正在探索各種應對策略：

文章認為，目前，許多 AI 模型主要依賴文字數據進行訓練。然而，單純依靠文字數據可能無法實現人類級別的 AI。例如， Meta 首席 AI 科學家 Yann LeCun 就指出，一個四歲的孩子僅僅透過觀察周圍世界所吸收的數據量，就遠遠超過了現代 LLM 的訓練數據量。

Jones 表示，未來 AI 發展的關鍵可能在於擁抱多模態世界，從單純的文字數據轉向利用更豐富的數據形式，例如影片、圖像、感官體驗等。這將需要開發更強大的 AI 模型和演算法，以有效地處理和學習這些多模態數據。

‌