演算法公平性



何琳潔
2019年02月20日


本篇由軟體資訊工業協會(The Software & Information Industry Association, SIIA)發表之報告,針對當代新興科技所帶來的平等挑戰,提出企業應遵守的行為準則。機器學習、巨量資料科技的應用發展,從大量資料中發掘出過去從未發現的相關性,然而,這種相關性往往缺少實證或理論上的因果關聯。而其應用結果,對於長期處於弱勢的群體,雖可能有益,但也可能造成歧視,更可能演變為歧視性監控(discriminatory surveillance)。

SIIA嘗試提出一個「負責任的資料使用架構(A Framework of Responsible Use)」,提出五點建議:

  1. 積極利用資料分析技術確保平等、並且得以辨識及修正偏見。
  2. 法規遵循(Legal Compliance):現存的反歧視法及消費者保護法制亦同樣適用於巨量資料分析。
    (1) 例如:公平信用報告法(The Fair Credit Reporting Act, FCRA),不僅適用在巨量資料分析及機器學習演算法,其適用範圍亦包含第三人將社群媒體上的資料與其他資料勾稽結合以建立特定求職者之個人圖像。
    (2) 差別影響歧視之評估
    2015年六月,美國聯邦最高法院判決在公平住房法(The Fair Housing Act)之下亦承認差別影響歧視之成立可能。然而,此一間接歧視類型,仍然僅適用於特定嫌疑分類中之受保護群體,且目前的研究及討論多在勞動法及金融服務領域,不一定可以解決所有可能的演算法歧視問題。
  3. 揭露程式原始碼的要求,不僅不必要甚至可能造成反效果。
    SIIA認為即便是專家也無法完全了解演算法的決策過程及運作邏輯,機器學習的結果也可能隨資料更新而隨時變動,另外,可能產生的弊端是,其結果可能被操弄(例如以查稅或查緝恐部份子為目的的演算法)、讓駭客有機可趁等。
  4. 若演算法的使用會影響人們的基本權或利益,則企業應在程式設計階段及應用階段,都設有內部評估機制,作者認為現行的差別影響評估方法,可以作為導引,並應將外部研究者納入內部評估機制,並且特別重視對人民生活有重大影響、對個人或社會有明顯傷害風險的演算法使用。
  5. 企業應設定「公平」的標準,且應對其所選擇的標準有認識:著重「預測的正確性」或「避免對特定群體不成比例的負面影響」,兩者之間應有所取捨。
    除上述五點建議外,SIIA另亦指出現行反歧視法的不足:現行反歧視法僅適用於若干特定領域或脈絡,即便在這些領域中,規範上反歧視法也沒有要求可能產生歧視的演算法必須經過法律上差別影響歧視的檢驗,才得加以使用。有許多演算法的設計者、使用者都認為,除了指出演算法可能會產生歧視的事實—我們仍舊處於一個「歧視社會」(discriminatory society)—以外,必須再做更多,以消除或避免偏見所帶來的傷害。

本文針對演算法可能帶來的歧視性監控問題,由開發、使用演算法等資訊技術之團體,提出解決方案或方向,是值得肯定之舉;然而,關於SIIA報告內容,仍有幾處有待商榷:

  1. SIIA提出之第一點,認為資訊技術本身即可修正或校正訓練資料本身帶有偏見問題,但所提出的方法,並非去除帶有偏見的資料,而是主張現有資料庫不完整,應蒐集更多所謂「正確」的現時資料,來「稀釋」因過去歷史偏見而造成的歧視結果,使資料庫得以真實反映過去因歧視而未被充分代表的群體。然而問題是,這個解決方法僅適用於當訓練資料來自於不完整的資料庫時——例如美國的資料庫中,中國及印度的資料是不足的——對於特定群體會有代表性不足的問題。但對其他非代表性不足的偏見問題,這個方法顯然是打擊錯誤。偏見並不僅存於過去,現在仍有。因此並非一個值得參考的方法。
  2. 關於第三點,SIIA認為不需要也不該要求揭露原始程式碼,以避免演算法運算結果失真、被操弄。惟,如此說法明顯採取偏袒企業之立場,即使揭露原始碼,必須用非常大量的資料才有可能藉以操縱演算法結果,這點其實不足以作為反對公開原始程式碼之理由。
    是以,雖然企業也對於資訊技術的應用可能造成歧視有所認知,也嘗試提出一些解決方法,並且在報告結論提出「設計中隱含公平(Fairness by design)」概念,呼應了現今許多「企業自律」的呼籲。然而如上述之說明,SIIA所提出的解方中仍有不少問題,可見,要解決演算法歧視問題,除企業自律外,妥適且可行的管制措施、以及相關法制的建構,仍是刻不容緩之任務。

Image by Pete Linforth from Pixabay

資料來源

Algorithmic Fairness, SIIA , 2016


作者

中央研究院法律學研究所 何琳潔
本研究感謝「符應社會歸責之資料二次使用隱私框架」計畫支持