鉅亨新視界

《數據在線演算未來》演算法的危機：它根本不知自己錯在哪裡

鉅亨網新聞中心2018-01-07 11:20

我們正要進入一個「萬物在線」的時代，位於雲端的海量數據經過演算法編織，可能發展出我們現在還難以想像的運用方式。但演算法畢竟是由人類所寫出，它也可能重蹈人類的謬誤，更重要的是演算模型非常需要回饋，否則它將永遠錯下去，並形成有害的循環。大寫出版《大數據的傲慢與偏見》一書，點出了過度信任自動化資料蒐集所可能帶來的問題。

想像一下：你最近才從史丹佛大學法學院畢業，應徵了舊金山一家名聲響亮的律師事務所，對方邀你前往面試。該事務所資深合夥人看著電腦產生的報告，笑了出來。他搖搖頭說：「這裡說你曾經因為在羅德島製造冰毒而被捕。」你的名字很常見，電腦無疑犯了可笑的錯誤。大家笑過之後，面試繼續。

‌

在經濟中的高階領域，重要的決定通常是人類做的，電腦只是有用的輔助工具。但在主流領域，尤其是在低階部分，如我們所見，多數工作已經自動化。如果檔案中有錯誤的資料（這是很常見的事），設計得再好的演算法也會做出錯誤的決定。數據迷早就說過：輸入垃圾就會得到垃圾。

這種自動運作系統一旦出錯，後果可能困擾受害者多年之久。

自動化資料蒐集技術產生的錯誤，會敗壞預測模型

我們來看阿肯色州居民凱薩琳．泰勒（Catherine Taylor）的例子。數年前，泰勒應徵當地紅十字會的工作失敗。這種事並不稀奇。不過，紅十字會通知泰勒的信中含有一筆寶貴的資料：泰勒的檔案資料顯示，她曾因為試圖製造和販售冰毒而遭起訴。紅十字會當然不想請這樣的人。

泰勒展開調查，發現遭起訴的是同名同姓的另一個人，而且這個人剛好和她同一天出生。她後來發現，至少十家其他機構因為錯誤的資料而抹黑了她─其中一例與她申請聯邦房屋資助有關。當局拒絕了她的資助申請。這會不會是因為搞錯了她的身分？

在自動化的系統中，這種事無疑可能會發生。不過，在聯邦房屋資助這個例子中，還好有人介入。泰勒和他丈夫去見聯邦房屋機關一名職員，以便完成當局的背景調查。

這名職員為萬達．泰勒（Wanda Taylor），與泰勒沒有親戚關係，她使用的資料是數據經紀商 Tenant Tracker 提供的，當中充斥著各種錯誤，包括搞錯了當事人的身分。例如該檔案認為凱薩琳．泰勒可能別名 Chantel Taylor，而後者是一名同一天出生、已被定罪的重犯。該檔案也提到泰勒已經知道的那個同名同姓的人，這個人在伊利諾州曾因為偷竊、偽造文書和持有管制物品而被定罪。

簡而言之，該檔案一團混亂，可能產生不小的禍害。但萬達．泰勒有處理這種情況的經驗。她深入分析，很快便剔除 Chantel Taylor 的資料，因為她認為這不大可能是凱薩琳．泰勒的別名。她在檔案中看到，伊利諾州那個賊腳踝上紋了 Troy 這個字。她查看凱薩琳．泰勒的腳踝，然後剔除了這名罪犯的資料。會面結束時，一個認真的人已經清理了搜查網路資料的程式產生的各種誤導人的資料。當局知道申請房屋資助的是哪一個凱薩琳．泰勒。

問題是：現實有多少個萬達．泰勒在清理個人資料檔案中的身分和其他錯誤？答案是：這樣的人根本不夠多。在數據經濟中，人類介入是例外和倒退的情況。系統的設計是以盡可能自動化運作為目標。這才是高效率的運作方式，也是利潤的來源。一如任何統計工作，錯誤是無法避免的，但減少錯誤最快的方式，是微調控制機器運作的演算法。人類介入只會破壞系統的運作。

消費者個人檔案之中，必將出現愈來愈多這種錯誤，而這些錯誤的資料將混淆和誤導控制我們生活愈來愈多領域的演算法。自動化資料蒐集技術產生的此類錯誤，會敗壞預測模型，助長數學毀滅性武器的禍害。而且這種資料蒐集技術的應用必將擴大。電腦已忙著處理文字以外的資料。它們蒐集言語和圖像，利用它們捕捉有關宇宙中一切（包括人類）的更多資料。這些新技術將為我們的個人檔案發掘更多有用的資料，同時增加犯錯的風險。

這種錯誤是學習的機會──前提是系統必須得到回饋，知道出了什麼錯誤。在上述例子中，系統得到了回饋。但不公不義的情況持續存在。自動運作的系統利用我們的資料算出一個電子分數，自然便是根據過去展望未來。一如我們之前講過的再犯判刑模型和掠奪式放款演算法顯示，這些系統假定窮人將一直是窮人，然後據此對待他們：拒絕給予他們機會、判處較長的刑期，以及誘使他們選擇對他們不利的服務和貸款。它們是不可阻擋的，往往以隱蔽的方式運作而且不可申訴，是相當不公平的。我們不能指望自動運作的系統處理這些問題。機器雖然功能驚人，但迄今無法調整自身的運作以求公平，至少是無法自行這麼做。對機器來說，分析數據並判斷何謂公平，是極其陌生和複雜的任務。只有人類才能設定這種限制條件。

這當中有個矛盾。回到 1950 年代銀行家的例子，我們可以看到，他的頭腦裡充斥著各種人性的扭曲，包括慾望、偏見，以及對外人的不信任。為了比較公平和高效地執行銀行家的工作，銀行業把任務交給了一種演算法。

六十年後，世界受自動運作的系統支配，而這些系統十分仰賴充斥著錯誤的檔案資料。它們迫切需要只有人類可以提供的脈絡、常識和公平意識。但是，如果我們將這問題留給市場處理，市場因為最重視效率、成長和現金流，同時能容忍某程度的錯誤，將盡可能阻止人類干預機器的運作。

《大數據的傲慢與偏見：一個「圈內數學家」對演算法霸權的警告與揭發》
大寫出版：http://www.books.com.tw/products/0010756505