你的個資真的已經匿名化了嗎?



何琳潔
2019年09月16日


本篇新聞所謂「匿名化」資料或技術,事實上應指「去識別化」資料或技術。一般而言,「匿名化」指的是已經完全去除所有可識別資料,阻斷所有識別出特定個人之可能者,因此被認為並非個人資料(當然,這樣的見解筆者以為有待商榷);而「去識別化」處理,是用各種簡單或複雜的資訊技術去除可識別資料,但仍然保留資料集之間彼此互相連結、對照之可能,進而可能再次回復成可識別之狀態,合先敘明。為忠於原始新聞來源,摘要部份仍以「匿名化」行文,而小編評析部份,將以「去識別化」取代「匿名化」來說明。

摘要

你的健康資料可能被用於進行科學研究,別擔心,他們會告訴你:個人可識別資訊會被移除。政府每年人口普查所蒐集之關於你的資料可能被公開,別擔心,你也會聽到這樣的說法:你的名字會被遮蓋,釋出的會是匿名化資料。

然而,今年七月有最新的研究指出,以上這些資料可能並不如所承諾及宣稱的真正匿名化了。

本篇新聞指出,在世界上大部分國家,匿名化資料並非個資,因此可以任意分享、販賣而並未違反隱私保護相關法律。即便多數匿名化資料集中,包含個人的約會對象偏好、政治傾向、家戶購買資料等特徵描述,仍然可以在市場上流通販賣,例如跨國消費者信用報告公司Experian,將其所有之超過兩億三千五百萬位美國人資料賣給行銷公司Alteryx。

針對資料匿名化之有效性問題,倫敦帝國學院及比利時魯汶大學(Université catholique de Louvain)日前開發出一種演算法,可以從幾乎是任一資料集中——只要至少含有15項屬性特徵(attributes),如性別、郵遞區號、婚姻狀況等——辨識出99.98%美國人。學者經過一番討論後,決定將演算法公開,並警告所有擁有資料的資料中介商(data brokers)及政府單位:所有目前存在的匿名化資料集,都是不安全的。

事實上這並不是第一次有人提出這樣的主張。2016年的一個研究發現,三百萬德國人民可以從其網路瀏覽紀錄被辨識出來;匿名化基因資料庫,也可以辨識出特定個人。

資料的可利用性及隱私保護之間的平衡,可謂一永恆難題。但不可忽視科學家已指出:「很快地,只要我們擁有一小部份資訊,每個人都會是獨特(而容易辨識)的」,若不儘快找出解決方法,或許真的必須面對「隱私已死」的困境。

一個可能的應對方式是控制資料的取得。法國的一個研究資料中心(Centre d’accès sécurisé aux données, C.A.S.D.),其作法就是,將資料存放於特定空間,使用者僅能於此空間內進行研究,並且不能複製資料、所有研究過程都必須紀錄之。但是,這種方法的缺點是,一旦需要做科學研究的重複驗證,原本用以做出該研究的資料,並非免費且容易取得的。

另一個方法是「安全多方運算」(暫譯,secure multiparty computation)。簡言之,所有資料都經加密後才釋出,由電腦解密後才做運算處理,但此法理論上可行,卻也同樣將遇到難題,例如在研究過程中需要偵錯、除錯時,因所有資料都加密,研究者無法看到原始資料。 結論是,無論如何都無法將風險降低到零。論文作者之一,de Montjoye博士說:「我們都知道風險存在,但卻指望人們說他們不在乎隱私。這真的非常瘋狂。」


新知深探

自巨量資料分析技術等資訊科技問世以來,「資料」一如石油,成為資訊世代不可或缺而具高價值的資源,對於政府、私企業、學術研究單位皆有所用,而在為整體社會帶來所宣稱的助益之同時,卻也引起對個人隱私侵害之疑慮。目前用以回應此挑戰、最廣為採納的解方,莫過於「資料之去識別化」技術,認為將資料去識別化再行釋出,便無從辨識出特定個人之具體資訊或身份,進而可以保護個人隱私。
然而,此主張忽略了,隱私權之保障不僅有不被窺探、維持祕密性的面向,還有賦予個人資訊自主控制之面向。更何況,由上文可知,所謂資料之去識別化,在必須維持資料之一定程度可利用性之前提下,事實上無從根本去除其可識別或再識別之可能。

(在這裡必須澄清,經閱讀該篇論文確認後,其並非如新聞所述,主張所提出的演算法可以辨識出99.8%美國人,而是:「在任一即使是不完全的資料庫中,只要有至少15個特徵描述,就有99.8%機率可以辨識出特定人;而特徵數量減少,也只是機率降低而已。」不過,即便新聞敘述有誤,仍不影響其結論,亦即經去識別之資料,無論如何都有被再識別之可能。)

上文中提出「控制資料之取得」(to control access)作為因應措施之一,一如目前我國衛生福利部中央健康保險署,即以「供申請者於具資安且封閉之服務作業區應用去識別化之健保資料,申請者僅可攜出符合研究目的之聚合式資料」為健保資料應用之管控方法。雖然依目前管理機制,透過人工審核及全程紀錄,或許可以避免申請利用資料者刻意使用演算法進行資料再識別,但,除上文所指出會遇到無法重複驗證研究結果等難題,事實上使資料之應用窒礙難行外,其實沒有根本回應或解決「不存在真正去識別化方法」的困境,也並未滿足憲法保障隱私權之資訊自主控制面向的要求。

因此真正釜底抽薪的因應之道,無疑是建構一個完善的制度,讓資料主體了解其資料將會如何被利用、其目的、用途,以及資料利用之風險及其公益所在,並且保障資料主體自主決定是否提供資料之權利。如此,在程序上滿足資訊自主之要求後,或可治癒其後續利用階段無法完全去識別化之瑕疵。=

而應順帶一提的是,「去識別化資料即非個資」這樣的見解,實亦有商榷餘地。試想一張遮蔽或去除臉部面孔之裸照,一般大眾(非熟識該個人者)無法直接辨識出該照片當事人,也就是該照片已經隱去其名、遮掩其可辨識資料,但先不說熟識此人者可能透過其他身體特徵辨識出來(在這裡也突顯了在識別能力認定上採「一般人標準說」之不妥),難道這樣就不是個人資料了嗎?讀者你會認為自己的裸照不是你的個資嗎?依一般常理應可推知,會願意讓自己頭部以下裸照公開任人瀏覽的人,屈指可數。由此反證,去識別化資料,無論是有再識別可能者,或已經處理到完全匿名的狀態,也都應仍歸為個資,讓資料主體有自主控制之權利。


圖片來源:何琳潔

資料來源


延伸閱讀


作者

中央研究院法律學研究所 何琳潔
本研究感謝「符應社會歸責之資料二次使用隱私框架」計畫支持