menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

區塊鏈

促進數據流動:如何藉助加密技術打破AI數據訓練的瓶頸?

BlockBeats 律動財經 2024-05-31 16:00

cover image of news article
律動財經圖片

看看你是否能發現圖像中所有精心策劃的參考資料

過去兩年裡,自從一家相對不知名的初創公司 OpenAI 發布了名為 ChatGPT 的聊天機器人應用程序,AI 從幕後走向了台前。我們正處在機器智能全面滲透生活的關鍵時刻。隨著對控制這種智能的競爭愈發激烈,驅動其發展的數據需求也在不斷增加。這就是這篇文章的主題。

我們討論了 AI 公司所需的數據的規模和緊迫性以及它們在獲取數據時面臨的問題。我們探討了這種難以滿足的需求如何威脅到我們所熱愛的網路及其數十億貢獻者。最後,我們介紹了一些利用加密技術來提出解決這些問題和擔憂的初創公司。


在深入探討之前需要說明一點:這篇文章是從訓練大型語言模型(LLMs)的角度寫的,並非所有 AI 系統。因此,我經常將「AI」和「LLMs」互換使用。

展示數據

LLMs 需要三種主要資源:計算能力、能源和數據。在大量資本的支持下,公司、政府和初創企業同時在爭奪這些資源。在這三者中,對計算能力的爭奪最為引人注目,這部分歸功於英偉達股價的迅速上漲。

訓練 LLMs 需要大量專用的圖形處理單元(GPUs),特別是 NVIDIA 的 A100、H100 和即將推出的 B100 型號。這些計算設備並不是你可以從亞馬遜或本地計算機商店購買的。相反,它們的價格高達數萬美元。NVIDIA 決定如何在其 AI 實驗室、初創公司、數據中心和超大規模客戶之間分配這些資源。

在 ChatGPT 推出後的 18 個月內,GPU 的需求遠遠超過了供應,等待時間高達 11 個月。然而,隨著初創公司關閉、訓練算法和模型架構的改進、其他公司推出的專用晶片以及 NVIDIA 擴大生產,供需動態正在正常化,價格也在下降。

其次是能源。運行數據中心中的 GPUs 需要大量的能源。根據一些估計,到 2030 年,數據中心將消耗全球能源的 4.5%。隨著這種激增的需求給現有電網帶來壓力,科技公司正在探索替代能源解決方案。亞馬遜最近以 6.5 億美元購買了一個由核電站供電的數據中心園區。微軟已經僱傭了一位核技術主管。OpenAI 的 Sam Altman 支持了 Helion, Exowatt 和 Oklo 等能源初創公司。

從訓練 AI 模型的角度來看,能源和計算能力只是商品。選擇 B100 而不是 H100,或者選擇核能而不是傳統能源,可能會使訓練過程更便宜、更快或更高效,但不會影響模型的質量。換句話說,在創造最智能和最類人 AI 模型的競賽中,能源和計算能力只是基本要素,而不是決定性因素。

關鍵資源是數據。

James Betker 是 OpenAI 的研究工程師。他自己說,訓練了比任何人都有權訓練的更多的生成模型。在一篇博文中,他指出,「在相同的數據集上訓練足夠長時間,幾乎每個模型都有足夠的權重和訓練時間,最終都會收斂到同一點。」這意味著區分一個 AI 模型與另一個模型的因素是數據集,而不是其他。

當我們稱一個模型為「ChatGPT」、「Claude」、「Mistral」或「Lambda」時,我們並不是在談論其架構、使用的 GPUs 或消耗的能源,而是其訓練的數據集。

如果數據是 AI 訓練的食物,那麼模型就是它們所吃的東西。

要訓練一個最先進的生成模型需要多少數據?答案是非常多。

GPT-4 仍然被認為是發布一年多後的最佳大型語言模型,估計使用了 12 萬億個標記(或約 9 萬億個單詞)進行訓練。這些數據來自對公開可用網路的爬取,包括維基百科、Reddit、Common Crawl(一個免費的、開放的網頁抓取數據儲存庫)、超過一百萬小時的轉錄 YouTube 數據以及代碼平台如 GitHub 和 Stack Overflow。

如果你認為這已經是很多數據了,請稍等。在生成 AI 中有一個叫做「Chinchilla Scaling Laws」的概念,這意味著對於給定的計算預算,將較小的模型在較大的數據集上訓練比在較小的數據集上訓練較大的模型更為有效。如果我們推算 AI 公司預計用於訓練下一代 AI 模型(如 GPT-5 和 Llama-4)的計算資源,我們會發現這些模型預計將需要五到六倍的計算能力,使用多達 100 萬億個標記進行訓練。

隨著大部分公開網路數據已經被抓取、索引並用於訓練現有模型,額外的數據將來自哪裡?這已成為 AI 公司面臨的一個前沿研究問題。有兩種解決方案。一種是生成合成數據,即由 LLMs 直接生成的數據,而不是人類。然而,這種數據在使模型更智能方面的有用性尚未經過測試。

另一種方法是簡單地尋找高質量數據而不是合成生成。然而,獲得額外數據是具有挑戰性的,特別是當 AI 公司面臨的問題不僅威脅到未來模型的訓練,也威脅到現有模型的有效性時。

第一個數據問題涉及法律問題。儘管 AI 公司聲稱使用的是「公開可用數據」,但其中許多數據是受版權保護的。例如,Common Crawl 數據集中包含了《紐約時報》和《美聯社》等出版物的數百萬篇文章以及其他受版權保護的材料。

一些出版物和創作者正在對 AI 公司採取法律行動,指控其侵犯版權和知識產權。《紐約時報》起訴了 OpenAI 和微軟,指控其「非法複製和使用《紐約時報》的獨特有價值的作品」。一群程序員聯合提起集體訴訟,質疑使用開源代碼訓練 GitHub Copilot(一種流行的 AI 編程助手)的合法性。

喜劇演員 Sarah Silverman 和作者 Paul Tremblay 也起訴 AI 公司,指控其未經許可使用他們的作品。

其他人則通過與 AI 公司合作來接受變革。《美聯社》、《金融時報》和 Axel Springer 都與 OpenAI 簽署了內容許可協議。蘋果公司正在探索與康泰納仕和 NBC 等新聞組織達成類似協議。谷歌同意每年支付 Reddit 6000 萬美元,以訪問其 API 進行模型訓練,而 Stack Overflow 與 OpenAI 達成了類似的協議。Meta 據稱曾考慮直接購買出版公司 Simon & Schuster。

這些安排與 AI 公司面臨的第二個問題——開放網路的關閉——不謀而合。

網路論壇和社交媒體網站已經認識到,AI 公司通過使用其平台數據訓練模型所帶來的價值。在與谷歌(以及未來可能與其他 AI 公司)達成協議之前,Reddit 開始對其以前免費提供的 API 收費,終結了其流行的第三方客戶端。同樣,Twitter 也限制了 API 的訪問,並提高了價格,Elon Musk 利用 Twitter 數據為他自己的 AI 公司 xAI 訓練模型。

即使是較小的出版物、同人小說論壇和其他生產內容供所有人免費消費(如果有的話,通過廣告貨幣化)的網路小眾角落,現在也在關閉。網路曾被設想為一個神奇的網路空間,每個人都可以找到分享其獨特興趣和怪癖的部落。那種魔力似乎正在慢慢消失。

這種訴訟威脅、多百萬美元內容交易的增加以及開放網路的關閉有兩個含義。

1. 首先,數據戰爭嚴重傾向於科技巨頭。初創公司和小公司既無法訪問以前可用的 API,也無法負擔購買使用權所需的資金,而沒有法律風險。這顯然具有集中特性,富人可以購買最好的數據,從而創建最好的模型,變得更富有。

2. 其次,用戶生成內容平台的商業模式越來越不利於用戶。像 Reddit 和 Stack Overflow 這樣的平台依賴於數百萬未付費的人類創作者和管理員的貢獻。然而,當這些平台與 AI 公司達成數百萬美元的協議時,他們既不補償也不徵求用戶的許可,沒有這些用戶,就沒有數據可供出售。

 Reddit 和 Stack Overflow 都因這些決定而經歷了顯著的用戶罷工。聯邦貿易委員會(FTC)也對 Reddit 將用戶帖子出售、許可和分享給外部組織用於訓練 AI 模型的行為展開調查。

這些問題對於訓練下一代 AI 模型以及網路內容的未來提出了相關問題。按照目前的情況,未來看起來不太樂觀。加密解決方案能否在某種程度上為小公司和網路用戶提供公平競爭的機會,解決其中的一些問題?

數據管道

訓練 AI 模型和創建有用的應用程序是複雜且昂貴的工作,需要數月的計劃、資源分配和執行。這些過程包括多個階段,每個階段都有不同的目的和數據需求。

讓我們分解這些階段,以了解加密技術如何適應更大的 AI 拼圖。

預訓練

預訓練是 LLM 訓練過程中第一步且最耗費資源的步驟,形成了模型的基礎。在這一步中,AI 模型在大量無標籤文本上進行訓練,以捕捉世界的通用知識和語言使用資訊。當我們說 GPT-4 使用了 12 萬億個標記進行訓練時,這指的是預訓練中使用的數據。

要理解為什麼預訓練是 LLM 的基礎,我們需要對 LLM 的工作原理有一個高層次的概述。請注意,這只是一個簡化的概述。你可以在 Jon Stokes 的優秀文章、Andrej Karpathy 的有趣影音或 Stephen Wolfram 的出色書籍中找到更詳盡的解釋。

LLMs 使用一種叫做 Next-Token Prediction 的統計技術。簡單來說,給定一系列標記(即單詞),模型嘗試預測下一個最可能的標記。這個過程重複進行,形成完整的響應。因此,你可以將大型語言模型視為「完成機器」。

讓我們用一個例子來理解這一點。

當我問 ChatGPT「What direction does the sun rise from(太陽從哪個方向升起)?」時,它首先預測出單詞「the」,然後依次預測出「sun rises from the East」這句話中的每一個單詞。但是這些預測從何而來?ChatGPT 如何確定在「the sun rises from」之後應該是「the East」而不是「the West」、「the North」或「Amsterdam」?換句話說,它如何知道「the East」比其他選項更有統計可能性?

答案是從大量高質量訓練數據中學習統計模式。如果考慮到網路上的所有文本,什麼更有可能出現--"太陽從東方升起 "還是 "太陽從西方升起"?後者可能出現在特定的語境中,比如文學隱喻("這就像相信太陽從西邊升起一樣荒謬")或關於其他星球的討論(比如金星,太陽確實從西邊升起)。但總的來說,前者更為常見。

通過反覆預測下一個單詞,LLM 形成了一種通用的世界觀(我們稱之為常識)和對語言規則和模式的理解。另一種理解 LLM 的方法是將其視為網路的壓縮版本。這也有助於理解為什麼數據需要既是大量的(更多模式可供選擇),也是高質量的(提高模式學習的準確性)。

但正如前面討論的,AI 公司正在耗盡用於訓練更大模型的數據。訓練數據需求增長的速度遠遠快於開放網路中新數據生成的速度。隨著訴訟的臨近和主要論壇的關閉,AI 公司面臨着嚴重的問題。

對於較小的公司來說,這個問題更加嚴重,因為它們無法負擔與 Reddit 等專有數據提供商達成數百萬美元的交易。

這引出了 Grass,一家去中心化的住宅代理提供商,他們旨在解決這些數據問題。他們稱自己為「AI 的數據層」。讓我們首先了解一下什麼是住宅代理提供商。

網路是訓練數據的最佳來源,抓取網路是公司獲取這些數據的首選方法。在實踐中,抓取軟體在數據中心託管,以實現規模、便捷和效率。但擁有有價值數據的公司不希望其數據被用於訓練 AI 模型(除非他們得到報酬)。為實施這些限制,他們通常會阻止已知數據中心的 IP 地址,防止大規模抓取。

這時,住宅代理提供商派上用場。網站僅阻止已知數據中心的 IP 地址,而不阻止像你我這樣的普通網路用戶的連接,使我們的網路連接,或住宅網路連接,變得有價值。住宅代理提供商聚合了數百萬這樣的連接,以大規模抓取 AI 公司的數據。

然而,中心化的住宅代理提供商運作隱蔽。他們通常不明確他們的意圖。用戶如果知道某個產品在使用他們的帶寬,可能不願意分享。更糟的是,他們可能要求為產品使用的帶寬得到補償,這反過來又減少了他們的利潤。

為保護他們的底線,住宅代理提供商將其消耗帶寬的代碼搭載在分布廣泛的免費應用程序中,如手機實用工具應用(如計算器和語音記錄器)、VPN 提供商甚至消費者電視屏保中。用戶認為他們在獲取免費產品,實際上一個第三方住宅提供商在消耗他們的帶寬(這些細節通常隱藏在很少有人閱讀的服務條款中)。

最終,這些數據中的一些會流向 AI 公司,他們用這些數據訓練模型並為自己創造價值。

Andrej Radonjic 在經營自己的住宅代理提供商時,意識到了這些做法的非道德性質及其對用戶的不公平性。他看到加密技術的發展,識別出了一種創建更公平解決方案的方法。這就是 Grass 在 2022 年末的成立背景。幾周後,ChatGPT 發布,改變了世界,把 Grass 放在了正確的時間和地點。

與其他住宅代理提供商使用的隱蔽策略不同,Grass 明確告知用戶其帶寬的使用情況,以訓練 AI 模型為目的。作為回報,用戶會直接獲得獎勵。這種模式顛覆了住宅代理提供商的運作方式。通過自願提供帶寬並成為網路的部分擁有者,用戶從被動的參與者轉變為積極的倡導者,提高了網路的可靠性,並從 AI 產生的價值中獲益。

Grass 的增長令人矚目。自 2023 年 6 月推出以來,他們已擁有超過 200 萬活躍用戶,這些用戶通過安裝瀏覽器擴展或行動應用程序來運行節點並貢獻帶寬。這種增長在沒有外部營銷成本的情況下實現,得益於一個非常成功的推薦計劃。

使用 Grass 的服務允許各類公司,包括大型 AI 實驗室和開源初創公司,以較低的成本獲取抓取訓練數據。同時,每個普通用戶通過分享其網路連接獲得報酬,並成為不斷增長的 AI 經濟的一部分。

除了原始抓取數據外,Grass 還為客戶提供一些附加服務。

首先,他們將非結構化網頁轉換為易於 AI 模型處理的結構化數據。這一步驟,稱為數據清洗,是 AI 實驗室通常承擔的資源密集型任務。通過提供結構化、清潔的數據集,Grass 增強了其對客戶的價值。此外,Grass 還訓練了一個開源 LLM,以自動化抓取、準備和標記數據的過程。

其次,Grass 將數據集捆綁了不可否認的來源證明。鑒於高質量數據對 AI 模型的重要性,確保數據集未被惡意網站或住宅代理提供商篡改對於 AI 公司來說至關重要。

這一問題的嚴重性在於像 Data & Trust Alliance 這樣的機構的成立,這是一個包括 Meta、IBM 和沃爾瑪在內的 20 多家公司組成的非營利組織,共同努力創建數據溯源標準,幫助組織確定一個數據集是否適合和值得信賴。

Grass 也在採取類似措施。每次 Grass 節點抓取一個網頁時,它還會記錄驗證該網頁來源的元數據。這些溯源證明儲存在區塊鏈上,並與客戶共享(客戶可以進一步與其用戶共享)。

儘管 Grass 正在 Solana 上構建,這是吞吐量最高的區塊鏈之一,但在 L1 上儲存每次抓取任務的溯源是不可行的。因此,Grass 正在構建一個 rollup(Solana 上的第一個 rollup 之一),使用 ZK 處理器批量處理溯源證明,然後發布到 Solana。這個 rollup,Grass 稱之為「AI 的數據層」,成為他們所有抓取數據的數據賬本。

Grass 的 Web 3 優先方法使其相對於中心化住宅代理提供商具有幾個優勢。首先,通過使用獎勵來鼓勵用戶直接分享帶寬,他們更公平地分配了 AI 生成的價值(同時也節省了支付應用開發者捆綁其代碼的成本)。其次,他們可以為提供客戶「合法流量」收取溢價,這在行業內非常有價值。

另一家在「合法流量」方面工作的協議是 Masa。該網路允許用戶傳遞其社交媒體平台(如 Reddit、Twitter 或 TikTok)的登錄資訊。網路上的節點然後抓取這些平台的高度上下文相關的更新數據。這種模型的優勢在於,收集的數據是普通用戶在其社交媒體平台上看到的內容。實時地,您可以獲取解釋情緒或即將成為病毒的內容的豐富數據集。

這些數據集的主要用途有兩個。

1. 金融 - 如果你能看到成千上萬的人在其社交媒體平台上看到的內容,你可以基於這些數據開發交易策略。可以在 Masa 的數據集上訓練利用情緒數據的自主代理。

2. 社交 - AI 伴侶(或像 Replika 這樣的工具)的出現意味著我們需要模仿人類對話的數據集。這些對話還需要最新資訊。Masa 的數據流可以用於訓練能夠有意義地討論最新 Twitter 趨勢的代理。

Masa 的方法是通過用戶同意從封閉花園(如 Twitter)獲取資訊,並使這些資訊可供開發人員用於構建應用程序。這樣一種社交優先的數據收集方法也允許構建圍繞區域語言的數據集。

例如,一個說印地語的機器人可以使用從以印地語操作的社交網路中獲取的數據。這些網路打開的應用前景尚待探索。

模型對齊

預訓練的 LLM 遠未準備好投入生產使用。想一想。模型目前只知道如何預測序列中的下一個單詞,而其他都不知道。如果你給一個預訓練的模型一些文本,比如「誰是中本聰」,任何這些都是有效的響應:

1. 完成問題:中本聰?

2. 將短語變成句子:是一個多年來困擾比特幣信仰者的問題。

3. 實際上回答問題:中本聰是創建比特幣、第一種去中心化加密貨幣及其底層技術區塊鏈的化名人物或團體。

旨在提供有用答案的 LLM 將提供第三種回答。然而,預先訓練的模型並不能做出一致或正確的回答。事實上,它們經常會隨機吐出一些對最終用戶毫無意義的文字。最糟糕的情況是,模型在保密的情況下給出了與事實不符、有毒或有害的資訊。當這種情況發生時,模型就會出現 "幻覺"。

這就是預訓練的 GPT-3 如何回答問題的

模型對齊的目標是使預訓練模型對最終用戶有用。換句話說,是將其從一個單純的統計文本完成工具轉變為一個理解和對齊用戶需求並能進行連貫、有用對話的聊天機器人。

對話微調

這個過程的第一步是對話微調。微調是指在一個預訓練的機器學習模型的基礎上,進一步在一個較小的、有針對性的數據集上進行訓練,以幫助其適應特定任務或用例。對於訓練 LLM 來說,這個特定的用例是進行類似人類的對話。自然,這個微調的數據集是一組人類生成的提示-響應對,展示給模型如何行為。

這些數據集涵蓋不同類型的對話(問答、摘要、翻譯、代碼生成),通常由高學歷的人類(有時稱為 AI 導師)設計,他們具有優秀的語言技能和主題專業知識。

最先進的模型如 GPT-4 估計在~100,000 對這樣的提示-響應對上進行了訓練。

提示-響應對的示例

從人類反饋中強化學習(RLHF)

可以將這一步視為類似於人類訓練寵物狗:獎勵好的行為,懲罰壞的行為。模型收到一個提示,其響應與人類標註者共享,標註者根據輸出的準確性和質量對其進行評分(例如 1-5 分)。RLHF 的另一種版本是生成一個提示並產生多個響應,由人類標註者從最佳到最差進行排名。

RLHF 任務示例

RLHF 旨在引導模型朝着人類偏好和期望的行為發展。事實上,如果你是 ChatGPT 的用戶,OpenAI 也會將你作為 RLHF 數據標註者!這發生在模型有時生成兩個響應並要求你選擇更好的一個時。

甚至是簡單的點讚或點踩圖標,提示你評價回答的有用性,也是模型的一種 RLHF 訓練。

使用 AI 模型時,我們很少考慮到背後投入的數百萬小時的人類勞動。這不僅僅是 LLMs 獨有的需求。歷史上,即使是傳統機器學習用例,如內容審核、自動駕駛和腫瘤檢測,也需要大量的人類參與進行數據標註。(這篇 2019 年《紐約時報》的優秀故事展示了 iAgent 印度辦公室背後的幕後故事,這家公司專門從事人類標註)。

Fei-Fei Li 用來創建 ImageNet 數據庫的 Mechanical Turk,被 Jeff Bezos 稱為「人工的 AI」,因為它的工作人員在 AI 訓練中發揮的幕後作用。

在今年早些時候的一個離奇故事中,亞馬遜的 Just Walk Out 商店,顧客可以簡單地從貨架上拿取物品然後走出(稍後自動收費),並非由某種先進的 AI 驅動,而是由 1000 名印度合約工手動篩選店鋪錄像。

關鍵是,每個大規模 AI 系統在某種程度上都依賴於人類,LLMs 只增加了對這些服務的需求。像 Scale AI 這樣的公司,其客戶包括 OpenAI,通過這種需求達到了 110 億美元的估值。甚至 Uber 也在重新安排一些印度工人在不駕駛車輛時標註 AI 輸出。

在成為全棧 AI 數據解決方案的過程中,Grass 也正在進入這一市場。他們將很快發布一個 AI 標註解決方案(作為其主要產品的擴展),用戶可以通過完成 RLHF 任務獲得獎勵。

問題是:Grass 通過去中心化的方式進行這一過程,相對於數百家在同一領域的中心化公司有哪些優勢?

Grass 可以通過代幣激勵來引導工人網路。正如他們獎勵用戶分享其網路帶寬的代幣一樣,他們也可以獎勵人類標註 AI 訓練數據。在 Web2 世界中,支付給全球分布的零工經濟工人尤其是全球分布的任務,用戶體驗遠不及在像 Solana 這樣的快速區塊鏈上提供的即時流動性。

加密社區尤其是 Grass 現有的社區,已經有大量受過教育、網路原生、技術嫻熟的用戶。這減少了 Grass 在招聘和培訓工人上需要花費的資源。

你可能會懷疑,標註 AI 模型響應以換取獎勵的任務是否會吸引農場主和機器人。我也曾這樣想過。幸運的是,已經進行了大量研究,探索使用共識技術來識別高質量標註者並篩除機器人。

請注意,Grass 至少目前僅進入 RLHF 市場,而不幫助公司進行對話微調,這需要高度專業化的勞動力和更難以自動化的物流。

專門化微調

完成預訓練和對齊步驟後,我們就得到了所謂的基礎模型。基礎模型對世界如何運作有一個通用的理解,並能在廣泛的主題上進行流利的類人對話。它還對語言有很好的掌握,能夠輕鬆幫助用戶寫郵件、故事、詩歌、文章和歌曲。

當你使用 ChatGPT 時,你是在與基礎模型 GPT-4 進行互動。

基礎模型是通用模型。儘管它們對數百萬個主題有足夠的了解,但它們並不專門研究任何一個。當被問及幫助理解比特幣的代幣經濟學時,響應會有用且大多數情況下準確。然而,當你要求它列出類似 EigenLayer 這樣的再抵押協議的安全邊緣情況風險時,你不應該太相信它。

請記住,微調是指在一個預訓練的機器學習模型的基礎上,進一步在一個較小的、有針對性的數據集上進行訓練,以幫助其適應特定任務或用例。之前我們討論了在將原始文本完成工具轉變為對話模型時的微調。同樣,我們也可以微調結果基礎模型,使其專門從事某一特定領域或任務。

Med-PaLM2 是 Google 基礎模型 PaLM-2 的微調版本,旨在提供高質量的醫學問題答案。MetaMath 是微調在 Mistral-7B 上的數學推理模型。一些微調模型專門研究廣泛類別,如講故事、文本摘要和客戶服務,而另一些則專門研究細分領域,如葡萄牙詩歌、Hinglish 翻譯和斯里蘭卡法律。

要為特定用例微調模型,需要高質量的相關領域數據集。這些數據集可以來源於特定網站(如本新聞通訊中的加密數據)、專有數據集(例如一家醫院可能會轉錄數千次的醫生-病人互動),或專家的經驗(需要詳細採訪以捕捉)。

隨著我們進入擁有數百萬 AI 模型的世界,這些細分的長尾數據集變得越來越有價值。這些數據集的擁有者,從大型會計公司如 EY 到加沙的自由攝影師,這些數據集的所有者都在爭相購買這些正在迅速成為 AI 軍備競賽中最熱門商品的數據集。Gulp Data 等服務的出現就是為了幫助企業公平地評估其數據的價值。

OpenAI 甚至發布了一項數據合作夥伴公開請求,尋求擁有「反映人類社會的大規模數據集,而這些數據集目前不易公開獲取」的實體合作。

我們知道至少有一種很好的方法來匹配尋找細分產品買家和賣家的需求,那就是網路市場。Ebay 為收藏品創建了一個,Upwork 為人類勞動創建了一個,數不勝數的平台為無數其他類別創建了平台。毫不意外,我們也看到了細分數據集的市場的出現,有些是去中心化的。

Bagel 正在構建「人工通用基礎設施」,一套工具,使得「高質量、多樣化數據」的持有者能夠以無信任和隱私保護的方式與 AI 公司共享其數據。他們使用零知識(ZK)和完全同態加密(FHE)等技術來實現這一目標。

公司通常擁有高價值的數據,但由於隱私或競爭問題無法變現。例如,一個研究實驗室可能擁有大量的基因組數據,但為了保護病人隱私不能共享,或者一個消費品製造商可能擁有供應鏈廢物減少數據,但在不透露競爭機密的情況下無法披露。Bagel 利用密碼學的進步,使這些數據集變得有用,同時消除了附帶的擔憂。

Grass 的住宅代理服務也可以幫助創建專門的數據集。例如,如果你想微調一個提供專家烹飪建議的模型,你可以要求 Grass 抓取 Reddit 的 r/Cooking 和 r/AskCulinary 等子版塊的數據。同樣,旅行導向模型的創建者可以要求 Grass 抓取 TripAdvisor 論壇的數據。

雖然這些不完全是專有數據源,但它們仍然可以成為其他數據集的有價值補充。Grass 還計劃利用其網路創建存檔數據集,任何客戶都可以重複使用。

上下文級別數據

試着問問你喜歡的 LLM「你的訓練截止日期是什麼時候?」你會得到一個類似 2023 年 11 月的答案。這意味著基礎模型僅提供該日期之前的可用資訊。當你考慮到訓練這些模型(甚至微調它們)是多麼計算密集和耗時時,這一點是可以理解的。

要保持它們實時更新,你必須每天訓練和部署一個新模型,這簡直不可能實現(至少目前不可能)。

然而,對於許多用例來說,沒有關於世界最新資訊的 AI 是毫無用處的。例如,如果我在使用一個依賴於 LLMs 響應的個人數字助理,當被要求總結未讀電子郵件或提供利物浦上場比賽的進球者時,這些助手將處於不利地位。

為了繞過這些限制並基於實時資訊提供用戶響應,應用程序開發者可以查詢並將資訊插入稱為基礎模型的「上下文窗口」的輸入文本中。上下文窗口是 LLM 可以處理以生成響應的輸入文本。它以標記為單位測量,表示 LLM 在任何給定時刻可以「看到」的文本。

所以,當我要求我的數字助理總結我的未讀電子郵件時,應用程序首先查詢我的電子郵件提供商以獲取所有未讀電子郵件的內容,將響應插入發送給 LLM 的提示中,並附加一個類似「我已提供 Shlok 收件箱中的未讀電子郵件列表。請總結它們。」的提示。LLM 有了這個新上下文後,便可以完成任務並提供響應。將這一過程視為你複製粘貼一封電子郵件到 ChatGPT 並要求它生成響應,但這一過程在後台進行。

為了創建具有最新響應的應用程序,開發者需要訪問實時數據。Grass 節點可以實時抓取任何網站的數據,為開發者提供低延遲的實時數據,簡化了上下文增強生成(RAG)工作流。

這也是 Masa 今天的定位。就目前而言,Alphabet、Meta 和 X 是唯一擁有不斷更新用戶數據的大平台,因為它們擁有用戶基礎。Masa 為小型初創公司提供了公平的競爭環境。

這一過程的技術術語是檢索增強生成(RAG)。RAG 工作流是所有現代 LLM 應用程序的核心。這一過程涉及文本向量化,即將文本轉換為數字數組,這些數組可以被計算機輕鬆解釋、操作、儲存和搜尋。

Grass 計劃在未來發布物理硬體節點,為客戶提供向量化、低延遲的實時數據,以簡化其 RAG 工作流。

大多數業內人士預測,未來上下文級別查詢(也稱為推理)將利用大部分資源(能源、計算、數據)。這是有道理的。模型的訓練總是一個時間限制的過程,消耗一定的資源分配。應用級別的使用,另一方面,可以有理論上無限的需求。

Grass 已經看到了這一點,大部分的文本數據請求來自希望獲得實時數據的客戶。

LLMs 的上下文窗口隨著時間的推移而擴大。當 OpenAI 首次發布 ChatGPT 時,它的上下文窗口為 32,000 個標記。不到兩年後,谷歌的 Gemini 模型的上下文窗口超過了 100 萬個標記。100 萬個標記相當於 11 本 300 頁的書——大量的文本。

這些發展使得內容窗口可以構建的內容的影響遠遠超過了訪問實時資訊。有人可以,例如,丟入所有 Taylor Swift 歌曲的歌詞,或者這份通訊的整個存檔到上下文窗口,並要求 LLM 生成相似風格的新內容。

除非明確編程不允許,否則模型將生成一個相當不錯的輸出。

如果你能感受到這一討論的方向,請準備好接下來要討論的內容。到目前為止,我們主要討論了文本模型,但生成模型在其他模態(如聲音、圖像和影音生成)上的表現也越來越出色。我最近在 Twitter 上看到了 Orkhan Isayen 的這幅非常酷的倫敦插圖。

Midjourney,一個流行且非常出色的文本到圖像工具,具有一個叫做風格調節器(Style Tuner)的功能,可以生成與現有圖像風格相似的新圖像(這一功能也依賴於類似 RAG 的工作流,但不完全一樣)。我上傳了 Orkhan 的人類創作的插圖,並使用風格調節器提示 Midjourney 將城市改為紐約。這是我得到的:

四張圖片,如果你瀏覽藝術家的插圖,可能很容易被誤認為是他們的作品。這些圖像是在 30 秒內由 AI 基於單個輸入圖像生成的。我要求『紐約』,但主題真的可以是任何東西。在其他模態,如音樂中,也可以進行類似的複製。

回想我們之前討論的部分,訴訟 AI 公司的實體之一是創作者,你可以明白他們為什麼有道理。

網路曾是創作者的福音,使他們能夠與全世界分享他們的故事、藝術、音樂和其他形式的創意表達;使他們能夠找到 1000 個真正的粉絲。現在,同一個全球平台正成為對他們生計的最大威脅。

為什麼要支付 Orkhan 500 美元的傭金,而你可以通過 30 美元/月的 Midjourney 訂閱得到一個足夠好的相似作品?

聽起來像反烏托邦?

技術的奇妙之處在於它幾乎總是找到解決其自身所創造問題的方法。如果你翻轉看似對創作者不利的情況,你會發現這是一個前所未有的機會,可以將他們的才華貨幣化。

在 AI 之前,Orkhan 可以創作的作品數量受到一天中時間的限制。通過 AI,他們現在理論上可以服務無限的客戶。

要理解我的意思,讓我們看看 elf.tech,這是音樂家 Grimes 的 AI 音樂平台。Elf Tech 允許你上傳一首歌的錄音,它會將其轉變為 Grimes 的聲音和風格。歌曲賺取的任何版稅將由 Grimes 和創作者五五分成。這意味著作為 Grimes 的粉絲,或者她的聲音、音樂或發行的粉絲,你可以簡單地想出一首歌的點子,該平台會使用 AI 將其轉變為 Grimes 的聲音。

如果這首歌走紅,你和 Grimes 都將受益。這也使得 Grimes 能夠被動地擴展她的才華和槓桿她的發行。

TRINITI 是 elf.tech 的核心技術,由 CreateSafe 公司開發。他們的論文揭示了我們所預見的區塊鏈和生成式 AI 技術最有趣的交集之一。

通過創造者控制的智能合約擴展數字內容的定義,並通過基於區塊鏈的點對點支付訪問微交易重新構想分發,使任何流媒體平台能夠立即認證和訪問數字內容。然後生成 AI 根據創造者指定的條款執行即時微支付並將體驗流式傳輸給消費者。

Balaji 更簡單地總結了這一點。

隨著新媒介的出現,我們急於弄清人類將如何與之互動,當與網路結合時,它們成為變革的強大引擎。書籍推動了新教革命,廣播和電視是冷戰的關鍵部分,而媒體通常是雙刃劍,可以用來做好事,也可以用來做壞事。

今天,我們所擁有的是擁有大量用戶數據的中心化公司。這就好比我們信任我們的公司會為我們的創造力、精神健康和更好的社會發展做正確的事,把這麼大的權力交給少數幾家公司,但我們幾乎不了解其中許多公司的內部運作。

我們正處於 LLM 革命的早期階段。就像 2016 年的以太坊一樣,我們幾乎不知道可以用它們構建什麼樣的應用程序。是能與我奶奶用印地語交流的 LLM?能在各種資訊流中找到高質量數據的代理?一種機制讓獨立貢獻者分享特定文化的細微差別(如俚語)?我們還不太知道什麼是可能的。

然而,很明顯的是,構建這些應用程序將受到一個關鍵成分的限制:數據。

像 Grass、Masa 和 Bagel 這樣的協議是其獲取的基礎設施,並以公平的方式推動其獲取。人類的想象力是建立在它之上的限制。這對我來說似乎令人興奮。

原文連結

暢行幣圈交易全攻略,專家駐群實戰交流

▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群
不管是新手發問,還是老手交流,只要你想參與虛擬貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!

前往鉅亨買幣找交易所優惠

文章標籤


Empty