美股

OpenAI在美遭遇集體訴訟被控「竊取私人數據」

鉅亨網新聞中心2023-06-30 14:20

一群匿名人士在一項集體訴訟中聲稱，ChatGPT 的開發商 OpenAI 公司為了訓練其大型語言模型，竊取了「大量個人數據」，來讓其聊天機器人能夠複製人類語言。

cover image of news article — OpenAI在美遭遇集體訴訟被控「竊取私人數據」(圖:shutterstock)

律師們在周三向美國加州北區地方法院提起的長達 157 頁的訴狀中寫道：「儘管制定購買和使用個人訊息的協議，但被告採取了不同的方法：竊盜。」

‌

這些匿名人士指責 OpenAI 從互聯網上秘密抓取 3000 億字詞，竊聽了「書籍、文章、網站和貼文，包括未經同意獲得的個人訊息」，違反了隱私法。

克拉克森律師事務所 (Clarkson Law Firm) 在周三向舊金山聯邦法院提交的訴狀中表示，OpenAI 爬行網路以收集大量數據，其中包括從社群媒體網站獲取的大量數據。訴訟稱，OpenAI 的專有人工智慧個人數據語料庫 WebText2，從 Reddit 貼文及其連接的網站中抓取了大量數據。

他們根據受傷害的個人類別估計有數百萬人，提出了 30 億美元的潛在損失。

原告指控，OpenAI 廣受歡迎的聊天機器人程序 ChatGPT 和其他産品，都是在未經原告許可的情況下，從包括兒童在內的數億互聯網用戶那裏獲取私人訊息。

訴訟尋求暫時凍結 OpenAI 產品的商業訪問和商業開發，直到該公司實施更多法規和保障措施，包括允許人們選擇退出數據收集，並防止其產品「超越人類智能並傷害他人」為止。

除了 OpenAI 之外，主要支持者微軟 (MSFT-US) 也被列為被告。

原告的身份僅藉由姓名首字母、職業和狀態來識別，他們的律師表示，這是為了「避免侵入性審查，以及任何潛在危險的強烈抵制」。

北京大成律師事務所高級合夥人鄧志松表示，ChatGPT 運行的原理藉由「閱讀」大量現有文本，並學習詞語在上下文中的出現方式，來預測可能出現在回應中的最可能的詞語。此前，OpenAI 方面聲稱不會「主動」收集個人資訊用於模型訓練，但各管道訓練資料可能「偶然」包含個人資訊。

鄧志松分析，未經用戶許可擅自抓取並利用其個人資訊，可能涉嫌違反所在司法轄區的個人資訊保護法律法規，並構成民事侵權。

不過，專家也指出，目前「竊取」暫時仍是原告方的一面之詞，還不能據此貿然將 OpenAI 所實施的個人資訊收集活動定性為違法行為。