menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

美股

OpenAI一口氣推三款模型 助攻語音代理人開發

鉅亨網新聞中心 2025-03-21 11:46

cover image of news article
OpenAI一口氣推三款模型(圖:Shutterstock)

OpenAI 當地時間 20 日在其 API 中推出了全新一代音訊模型,包括語音轉文字和文字轉語音功能,讓開發者能輕鬆建立強大的語音代理人 (Agent)。新產品核心亮點如下:

  • gpt-4o-transcribe(語音轉文字):單字錯誤率顯著降低,在多個基準測試中優於現有 Whisper 模型
  • gpt-4o-mini-transcribe(語音轉文字):gpt-4o-transcribe 精簡版本,速度更快、效率更高
  • gpt-4o-mini-tts(文字轉語音):首次支援「可操控性 (steerability)」,開發者不僅能指定「說什麼」,還能控制「如何說」

據 OpenAI 介紹,新推出的 gpt-4o-transcribe 採用多樣化、高品質音訊資料集進行了長時間的訓練,能更好地捕捉語音細微差別,減少誤識別,大幅提升轉錄可靠性。因此,gpt-4o-transcribe 更適用於處理口音多元、環境吵雜、語速變化等挑戰場景,例如客戶呼叫中心、會議記錄轉錄等領域。

gpt-4o-mini-transcribe 則是基於 gpt-4o-mini 架構,透過知識蒸餾技術從大模型轉移能力,雖然單字錯誤率稍高於完整版模型,但仍優於原有 Whisper 模型,更適合資源有限但仍需高品質語音辨識的應用情境。

兩款模型在 FLEURS 多語言基準測試中的表現超越了現有的 Whisper v2 和 v3 模型,尤其在英語、西班牙語等多種語言上表現突出。

定價方面,gpt-4o-transcribe 與之前的 Whisper 模型價格相同,每分鐘 0.006 美元,而 gpt-4o-mini-transcribe 則為前者的一半,每分鐘 0.003 美元。

同時,OpenAI 也發布了新的 gpt-4o-mini-tts 文字轉語音模型。首次讓開發者不僅能指定「說什麼」,還能控制「如何說」。具體而言,開發者可預設多種語音風格,如「平靜」、「衝浪者」、「專業的」、「中世紀騎士」等,還能根據指令調整語音風格,如「像富有同情心的客服代理一樣說話」,定價每分鐘僅 0.015 美元。

OpenAI 強調安全不能馬虎,gpt-4o-mini-tts 將接受持續監控,以確保其輸出與預設的合成風格保持一致。而這些技術進步的背後源自於 OpenAI 多項創新:

新音訊模型建立在 gpt-4o 和 gpt-4o-mini 架構之上,採用真實音訊資料集進行預訓練

應用 self-play 方法創建的蒸餾資料集的知識蒸餾方法,實現從大模型到小模型的知識轉移

在語音轉文本技術中融入強化學習,顯著提升轉錄精準度並減少「幻覺」現象。

OpenAI 在凌晨的直播中示了一款 AI 時尚顧問代理人的應用程式。當用戶詢問「我最近的訂單是什麼?」時,系統流暢回應:用戶於 2 月 9 日訂購的 Patagonia 短褲已發貨,並在後續提問中準確提供了訂單號「AD 507」。

OpenAI 也介紹了兩種建構語音 Agent 技術路徑,第一種「語音到語音模型」採用端對端的直接處理方式。系統可直接接收使用者語音輸入並產生語音回复,無需中間轉換步驟。這種方式處理速度更快,已在 ChatGPT 的高級語音模式和即時 API 服務中應用,非常適合對響應速度要求極高的場景。

第二種「鍊式方法」則是本次發表會的重點。它將整個處理流程分解為三個獨立環節:首先使用語音轉文本模型將使用者語音轉為文字,然後由大型語言模型 (LLM) 處理這些文字內容並產生回應文本,最後透過文字轉語音模型將回應轉為自然語音輸出。

這種方法的優點在於模組化設計,各組件可獨立優化;處理結果更穩定,因為文字處理技術通常比直接音訊處理更成熟;同時開發門檻更低,開發者可基於現有文字系統快速添加語音功能。OpenAI 也為這些語音互動系統提供了多項增強功能:

  • 支援語音串流處理,實現連續音訊輸入和輸出
  • 內建噪音消除功能,提升語音清晰度。
  • 語意語音活動偵測,能夠辨識使用者何時完成發言
  • 提供追蹤 UI 工具,方便開發者調試語音代理

這些全新音訊模型目前已向全球開發者開放。此外,OpenAI 推出了與 Agents SDK 的集成,進一步簡化開發流程。

無論是 OpenAI 今日發布的全新語音模型、還是即將發布的 Meta Llama 4 都有意往原生語音對話靠攏,試圖透過更自然的情感交互拉近與用戶的距離,靠「人味」吸引用戶。

文章標籤


Empty