以大量資料為糧的ChatGPT將被資料保護之要求反噬?



何琳潔

2023年04月27日

「您好,我是一個名為ChatGPT的AI語言模型,使用GPT-3.5的架構進行訓練。我能夠以自然流暢的方式使用繁體中文進行對話,並能夠進行各種語言相關的任務,例如自然語言生成、機器翻譯、文本分類等等。我擁有豐富的知識庫,可以提供各種領域的資訊,並能夠依據使用者的提問進行智能回應。如果您需要任何語言相關的協助,歡迎隨時向我詢問。」

以上這段文字,是OpenAI所推出的聊天機器人ChatGPT的自我介紹。ChatGPT從去年誕生之後至今,引發全世界的關注及討論,其效應並且仍在持續發酵中,例如ChatGPT可以提昇人們的工作效率到什麼地步、又進一步可能造成職場結構、勞工權益什麼樣的改變或衝擊等。這些固然是與我們切身相關、有趣而值得深究的議題,不過,今天想要談的是另一個可能的問題:資料保護。基於資料保護或其他理由對於這類技術採行管制措施,也勢必與前者的分析相互影響。

Image by Alexandra_Koch from Pixabay

從ChatGPT的自我介紹中可以看出,它是自然語言處理的AI模型,而根據它自己的回答(其實就是OpenAI在自家網站上的聲明),是以網路上的大量文字內容,例如維基百科、新聞文章、小說、部落格等等,以及各種開放式的自然語言處理資料集為其訓練資料,並經過人工調校。既然涉及大量文字內容的分析,這類資料處理的方式也就不能免於可能違反個資保護、侵害隱私的質疑。根據上週MIT Technology Review的一篇報導,義大利的個資保護機關(以下簡稱義大利DPA, Data Protection Authority)在今(2023)年4月12日針對OpenAI下達一個暫時限制處分(註),在踐行個資保護及兒少保護之相關要求前,不得在義大利境內提供ChatGPT服務,期限為4月30日。

ChatGPT這類服務的個資保護課題可略分為兩個面向:一是該自然語言模型訓練資料之利用問題;另一則是用戶使用該服務時所提供或產生的資料處理利用的問題。義大利DPA之處分分別就此有所要求:


合法性基礎

針對用戶,要求OpenAI在其註冊、登入之前,在網站上以明顯易讀方式提供其資料處理之說明,並且若要蒐集用戶所提供之個資作為訓練資料,不得以「契約履行為必要」為合法基礎,必須取得用戶之同意、抑或提出其具備「正當利益」之說明。

確保資料當事人(包含用戶及非用戶)權利之行使

  1. 必須額外提供工具或方法,讓用戶及非用戶得就ChatGPT所生成之錯誤資訊,行使更正權;技術上無法更正者,應刪除之。
  2. 對於非用戶,應提供易於取得之工具,以便於行使「拒絕其資料被用於該服務之演算法運作」之權利(right to object to the processing of their personal data as relied upon for the operation of the algorithms.)。對於用戶,即使是以正當利益為其資料利用的合法基礎,亦同。

告知公眾(並未要求取得同意)

必須在5/15前透過廣播、電視、新聞或網路,公告使大眾得知個人其資料被用以作為訓練資料,以提昇公眾行使自身權利之意識,讓非用戶也知道可以去行使以上所提及的相關權利。


無獨有偶地,歐美各國DPA,包含法國、德國、愛爾蘭、加拿大等,也都紛紛開始調查OpenAI是如何蒐集、利用訓練資料。他們認為,OpenAI未經資料主體同意、大量抓取其資料、隱去個人姓名或地址等資料後拿來訓練AI模型。於此同時,歐盟的個資保護委員會EDPB也為協調各國對於ChatGPT的調查及監理措施而組成專案小組。法國CNIL的AI專家Alex Leautier表示,「如果OpenAI無法提出足夠的理由說服主管機關其資料利用有合法基礎,則非常有可能在全歐洲都被禁止提供服務。」,也就是說,以大量資料為糧的ChatGPT可能被資料保護之要求反噬。而專就訓練資料而言,取得資料主體「同意」這個要件是顯而易見不可能具備的,因此也就必須有足夠的「正當利益」。

MIT報導指出,雖然OpenAI聲明提到其訓練資料都是來自於公開可得、經授權或人工調校而生的資料或資料庫,但若依GDPR規範而看,這樣的標準顯然太低了。另外一個問題是,假設OpenAI想要遵循義大利DPA的要求,賦予資料當事人退出資料庫的權利,以上這類在使用ChatGPT過程中所提供的資訊,技術上不納入資料庫應該是簡單的;然而如何在既有/已用來訓練的訓練資料中找出特定人的資料以排除之,或許就有其難度。而且,相關研究也指出,即便成功地將特定人資料挑出並刪除,但是原本存在網路上的資料是很難消除的,下一次一旦有人再次從網路上抓取大量資料,那麼該特定對象之資料還是一樣會被撈進資料庫裡……。

報導的末段提到,問題可能出在「文化」。近幾十年來,資料科學家們對於AI模型的研發趨之若騖,但關於「資料蒐集」的方法卻少有改變,機器學習的文化趨勢似乎認為研究「資料」本身是很傻的。對此,筆者的理解是:AI研發的主流所在意的是餵食大量再大量的資料讓機器自己學習、學得更好,而不在意「資料」是否是合法蒐集而得。這確實是目前所謂機器學習、人工智慧此類仰賴大量資料作為其運作基礎之資訊技術的問題所在,研發者需要(想要)盡可能蒐集到所有、完整的、可以反映人們真實世界的資料,來讓機器學習,以達到使機器可以做到跟人一樣、甚至超越人類表現的目的。換句話說,相較於資料石油所可能蘊含的「價值」(可能是經濟價值、效率的提昇、新知的發現等),個人權利的保障在需要大量資料的人工智慧技術開發過程中,似乎被認為應該退居次位。

但是,所謂資料石油的價值是否真的極高,而可以完全不在乎個人隱私、凌駕於個人權利保障之上?最終,思考這類資訊科技的應用應否或如何管制——包含其訓練階段的資料治理問題,其實依舊是古典的憲法基本權保障問題:目的是否正當、其限制人民基本權之手段是否適合、合比例,正如報導最後的結論:「無論如何,這些跟資料相關的研發工作(data work),明顯需要『更強的正當性』」,才能通過憲法的檢驗。

參考資料

Melissa Heikkilä, OpenAI’s hunger for data is coming back to bite it, MIT Technology Review, April 19, 2023 https://www.technologyreview.com/2023/04/19/1071789/openais-hunger-for-data-is-coming-back-to-bite-it/

延伸閱讀

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *