科技

OpenAI最新Sora模型背後：成立不到1年的核心團隊打造

鉅亨網新聞中心2024-02-19 14:50

在文字生成內容、圖片之後，OpenAI 上周公布了最新產品 Sora，可以根據文字提示創建逼真的影片，再一次造成轟動。

cover image of news article — OpenAI最新Sora模型背後：成立不到1年的核心團隊打造(圖:shutterstock)

OpenAI 在周四 (15 日) 的部落格文章中表示，名為 Sora 的文本到視頻模型具有「對語言的深刻理解」，並且可以生成「表達充滿活力的情感的引人注目的字符」。

‌

這家微軟支持的新創公司表示：「Sora 能夠產生具有多個角色、特定類型的運動以及主題和背景的準確細節的複雜場景。」

「該模型不僅了解用戶在提示中提出的要求，還了解這些東西在物理世界中的存在方式。」

3 人核心團隊，包括 00 後成員

媒體報導，根據 OpenAI 官網，Sora 團隊由 William Peebles 等 3 人領導，核心成員包括 12 人，其中有多位華人。值得注意的是，這支團隊十分年輕，成立時間尚未超過 1 年。

據報導，主要負責的 3 人包括：

William Peebles 大學就讀 MIT，主修電腦科學，參加了 GAN 和 text2video 的研究，也曾在輝達深度學習與自動駕駛團隊實習，研究電腦視覺。他於去年 5 月畢業，與 Saining Xie 合著的擴散 Transformer 論文成為 Sora 的核心理論基礎。

Tim Brooks，也是 DALL-E 3 的作者，去年 1 月剛從加州大學柏克萊分校博士畢業。

Aditya Ramesh 則是 OpenAI 的「老人」。他是 DALL-E 的創造者，主導了三代 DALL-E 的研究，三個版本的論文當中他都是一作。

團隊成員甚至還有 00 後。團隊中的 Will DePue 生於 2003 年，2022 年剛從密西根大學計算機科系大學畢業，並在今年 1 月加入 Sora 專案小組。

此外，團隊據稱還有幾位華人。媒體報導，Li Jing 是 DALL-E 3 的共同作者，2014 年畢業於北京大學物理系，2019 年獲得 MIT 物理學博士學位，於 2022 年加入 OpenAI。 Ricky Wang 則是今年 1 月才剛從 Meta 跳槽到 OpenAI。其餘華人員工包括 Yufei Guo 等尚未有太多公開資料介紹。

核心理論曾因「缺乏創新性」遭拒

Sora 靠著兩項核心技術突破－Spacetime Patch(時空 Patch) 技術與 Diffusion Transformer(DiT，或擴散型 Transformer) 架構。

其中，時空 Patch 的技術論文其實是由 Google DeepMind 的科學家們於 2023 年 7 月發表的。 DiT 架構技術論文的第一作者則是 Sora 團隊領導者之一 William Peebles，但戲劇性的是，這篇論文曾在 2023 年的電腦視覺會議上因「缺乏創新性」而遭到拒絕，僅僅 1 年之後，就成為 Sora 的核心理論之一。

除此之外，Sora 的另一個重大突破是其所使用的架構，傳統的文本到視頻模型 (如 Runway、Stable Diffusion) 通常是擴散模型 (Diffusion Model)，文本模型例如 GPT-4 則是 Transformer 模型，而 Sora 則採用了 DiT 架構，融合了前述兩者的特性。

據報導，傳統的擴散模型的訓練過程是透過多個步驟逐漸向圖片增加雜訊，直到圖片變成完全無結構的雜訊圖片，然後在產生圖片時，逐步減少雜訊，直到還原出清晰的圖片。Sora 採用的架構是透過 Transformer 的編碼器 - 解碼器架構處理包含雜訊的輸入影像，並在每個步驟中預測出更清晰的影像。 DiT 架構結合時空 Patch，讓 Sora 能夠在更多的資料上進行訓練，輸出品質也大幅提升。

‌

文章標籤

sora openai 核心團隊科學家生成式AI 影音

鉅亨講座

看更多

講座
公告