簡訊實聯制觀察筆記(二):統計資料來源比較與開放性問題



陳舜伶姜柏任Cathy Lee趙一穎
2022年03月28日

在第一篇觀察筆記中,我們使用 NCC 在臉書粉絲專頁公布的每週統計數字討論簡訊實聯制的使用趨勢,在這篇文章中,我們將介紹另一組有關簡訊實聯制的數字,並討論這兩組不同數據的差別。目前在衛福部疾管署「簡訊實聯制 – 民眾資料調閱紀錄查詢服務」(下稱「1922 疫調平台」)網頁下方橫幅裡可以看到三項統計數字:「累積總刪除筆數(含台北通)」、「前一日刪除筆數(含台北通)」、「累積調閱筆數」。相較於 NCC 的資料,1922 疫調平台的數字不僅每日更新,也有每日調閱數,幫助我們更細緻的了解簡訊實聯制發送與紀錄調閱情況。

1922 疫調平台在 2022 年 3 月 28 日顯示的下方橫幅。

我們不確定 1922 疫調平台是什麼時候開始提供這些數據,衛福部似乎也從未正式公告 1922 疫調平台有這個功能;1922 疫調平台在 2021 年 8 月初上線時並沒有這些統計數字[1],且至少在 2021 年 10 月中[2]都還沒有下方這個橫幅。我們在 2021 年 11 月 18 日偶然發現這組數字後,由於並沒有任何歷史資料、且更新後前一日的數據就會消失,我們便開始每天截圖紀錄,並將網站所顯示的這三項資料整理成表單。除了其中有幾天因網站未更新或服務中斷而產生斷點外,至今已經紀錄四個多月的資料。

1922 疫調平台主要提供兩種可供觀察的數據:一是前一日調閱筆數,透過今日累積調閱筆數與前一日數字相減得知;二是前一日刪除筆數,1922 疫調平台並未直接說明所刪除的是哪一天的資料,但是由於衛福部要求電信業者就簡訊實聯制資料僅能留存 28 天,我們可以推估這是在發布日前一天已屆期的傳送簡訊筆數、即從發布日前一日再往前倒推 28 天的當日發送數。因此我們推估出 2021 年 11 月 18 日的前一日刪除數即為 2021 年 10 月 20 日的發送數,這是我們的第一筆資料。

在累積了一段期間的 1922 疫調平台資料的刪除與發送資料之後,我們發現 1922 疫調平台與 NCC 臉書粉絲專頁所提供的統計數字有些無法清楚解釋的差異,本篇先討論這兩組數據之間的差異, 1922 疫調平台所提供的調閱數字部分日後再撰文討論。

下圖可看出兩組資料的差異:

1922 簡訊實聯制使用趨勢(對照不同資料來源)圖表

圖表說明

  • 藍色實線:左側縱軸,由 NCC 資料來源計算出之簡訊實聯制一個統計區間內(原則上為一週)的平均每日發送數量,單位為則。我們計算前後兩次公布「累積發送簡訊則數」之數據間的差值,以推算出當週新累積發送的簡訊則數,並以該區間內每日平均發送的簡訊則數在圖表上呈現;NCC 以一週為區間陸續更新,但有時會間隔兩週。更詳細的說明,可以參考前一篇觀察筆記
  • 橘色實線:左側縱軸,由 1922 疫調平台資料來源計算出之簡訊實聯制每日的發送數量,單位為則。因實聯制簡訊自發送日起 28 天屆滿而應刪除,我們將 1922 疫調平台統計數字往回推 28 天,即可得知當天的實聯制簡訊發送數量。
  • 四條虛線:右側縱軸,各類場所人流與全球疫情爆發前相較之增減幅度,單位為 %。資料來源取自 Google COVID-19 社區人流趨勢報告,以 2020 年 1 月同一天(例如週五)平均造訪該場所的人潮作為比較基準,可知該類場所於疫情後某日相較疫情前增減了多少百分比的人潮。
    圖中呈現的四種場所分別為金色零售店和休閒設施,包含百貨、餐飲、圖書館與電影院等;草綠色雜貨店和藥局,包含超市、量販店、藥妝店與市集等;橘色大眾運輸,以及藍色工作場所。 Google COVID-19 社區人流趨勢報告另有針對住宅區與公園的資料,但因上述場所較不需使用簡訊實聯制,圖表並未納入。

資料缺漏問題

1922 疫調平台

1922 疫調平台的資料更新並不穩定,在研究蒐集資料期間,我們觀察到 2021 年 12 月 18 日、12 月 24 日至 26 日、和今年(2022 年)3 月 8 日沒有上傳新的數據;又因我們從 2021 年 12 月 14 日起有寫程式每天抓取三次資料輔助人工截圖,而注意到 2021 年 12 月 26 日、2022 年 2 月 10 日、3 月 7 日的的數據在一日內曾更新過兩次。

當資料缺失的情況僅有一天(如 2021 年 12 月 18 日),我們尚能從次日的「累計刪除簡訊數」扣除「前一日刪除筆數」來回推資料缺失當日的「累計刪除簡訊數」,再扣除前一日之「累計刪除簡訊數」而得到資料缺失當日的「前一日刪除筆數」。然而對於一天以上未更新的情況(如 2021 年 12 月 24 日至 26 日),我們雖然能推知三天合計刪除的簡訊數,但無法逐日回推,若使用三日平均數字呈現則意義不大或可能誤導,故於圖表呈現上仍然以挖空表示。

另外,若是同一天有更新兩次的數據(如 2022 年 2 月 10 日),我們可以透過翌日(2 月 11 日)公布的「累計刪除簡訊數」扣除當日的「前一日刪除筆數」來確認前一天的數據應該以哪一組的更新數據為準。

NCC 臉書

NCC 臉書也有出現如 1922 疫調平台的資料更新不穩定的狀況。NCC 原則上每週一都會發布新的統計數據,然而正如我們在前篇觀察筆記所述,偶爾會因不明原因而未公布該週資料。在圖表中見到三段較長的藍色實線區間:2021 年 11 月 21 日至 12 月 4 日、12 月 26 日至 2022 年 1 月 8 日、以及 1 月 23 日至 2 月 5 日,即是因資料缺省、僅得以兩週後累計的數字取平均而產生。我們也可觀察到在這些區間藍色實線與橘色實線呈現較大的差異。

1922 疫調平台與 NCC 臉書資料的差異

前篇筆記依照 NCC 臉書每週公布數據計算統計區間的平均用量,雖然可以看出 2021 年 5 月以來簡訊實聯制的使用趨勢,但無法像 1922 疫調平台的數據一樣可以看出每日的使用情況變化,尤其是特定事件或政策是否直接影響使用情況,每日更新的數據也可以提供更多線索。此外,1922 疫調平台的數據可以明顯看出週間和週末的用量變化,對照 Google 人流趨勢資料,雖然 2021 年秋季以來人流已逐漸回穩,上圖涵蓋期間仍然隱約可見每逢週末「零售店和休閒設施」以及「雜貨店和藥局」的人流也稍有上漲,可能與這類場所執行實聯制較為積極有關,也與我們個人在這些場所的經驗相符。

如前述,我們發現 NCC 臉書與 1922 疫調平台兩者所提供的數字之間有差異,由於 NCC 的數字無法精確到日,我們以 NCC 的發送統計區間為主,將同一區間(週)內 1922 疫調平台所推估出的發送資料加總,在我們蒐集的資料範圍內,扣除任一資料來源有缺漏的區間,共比對出 13 組數據。大致而言, 1922 疫調平台所推估出的單週簡訊發送數比由 NCC 臉書所推估出的數字為高,單週多出約一百三十二萬到一百六十三萬則。換算成百分比,1922 疫調平台推估出的簡訊數大約比 NCC 公布的發送數多 1.5–2.3% 不等;若改以 NCC 的刪除統計區間作為推估單週簡訊發送數的基礎,同一區間內 1922 疫調平台加總出的簡訊數仍舊比 NCC 的數字多 1.3–2.1%。

由於 1922 疫調平台上標示其公布的數據包含台北通實聯制的資料,1922 疫調平台的數字較高似乎合理;但這約 2% 的差距是否即為台北通所蒐集之實聯制資料筆數?由於台北通從未公布相關數字,唯一的資料點是臺北市資訊局在回應臺北市議員對台北通的質疑時,曾證實自 2021 年 5 月 19 日至 11 月中台北通確實有累積五千萬筆的實聯制資料[3],不過資訊局並沒有提供明確的統計截止期間。如果以 11 月 14 日(市議員對台北通提出質疑的日期)為基礎,五千萬筆資料約佔 1922 疫調平台截至 11 月 14 日累積總發送數的 1.7%,落在我們估算的差距區間,但由於沒有正式的台北通實聯制資料,無法核實。

若比對 NCC 臉書與 1922 疫調平台所發布的累積刪除總數,又會產生另外的疑問。我們手上最早同時有兩者數據的日期,是 2021 年 10 月 23 日:NCC 截至 2021 年 10 月 23 日為止的累積刪除總數(發布於 11 月 22 日)約為二十七億兩千九百多萬則簡訊,而 1922 疫調平台對應的累積刪除總數(發布於 11 月 21 日)卻為二十六億九千三百多萬筆。1922 疫調平台的數字因為含有台北通,理應較 NCC 的統計數字為多,但卻少了三千五百多萬筆。如果我們將 NCC 歷次公布的累積總刪除數與 1922 疫調平台對應日期的累積總刪除數相減,會發現兩者的差距逐漸縮小,但截至 2022 年 2 月 26 日(發布於 3 月 28 日)NCC 的數據仍較 1922 疫調平台多九百多萬筆。

至於為何兩個資料來源的累積總刪除數會不一致、兩者差異為何會逐漸遞減?由於在我們有資料的期間,1922 疫調平台每週累積新增的簡訊數都較 NCC 為多,因此會發生 NCC 數字較 1922 為多的原因,可能必須要有 2021 年 5 月至 11 月的詳細資料,才能做進一步的了解。因 1922 疫調平台缺乏歷史資料、且並未明確說明其統計區間,加上台北通資料的欠缺,我們只能指出上述矛盾,無法代替主管機關說明理由。

綜上,雖然兩組官方資料的存在理論上有助相互核實,但由於:一、統計區間不同( 1922 疫調平台以日為單位、NCC 以週為單位,甚至 NCC 所提供的兩組數字統計區間也有一天的差距);二、1922 疫調平台並未清楚指出所提供數字的統計日期;三、兩組資料各自有所缺漏;四、數字涵蓋範圍不同(1922 疫調平台累計數據包含台北通實聯制、而台北通又沒有提供相關統計),種種問題不但使得資料無法核實,反而引發對簡訊實聯制資訊公開程度與品質的疑慮。

對資料公開性的疑問

開放做一半?

觀察 1922 疫調平台的網頁程式碼,會發現網頁頁尾的統計數字,其實是讀取了 1922 疫調平台隱藏的 API:

1922 疫調平台統計數字背後的 API。

相對於圖文並茂、供一般人閱覽的使用者介面 (user interface),API 則是讓電腦程式可以輕鬆操作、讀取資料的應用程式介面 (application programming interface);像是氣象局除了官網以外,亦透過「開放氣象資料平台」的 API 提供即時觀測數據。

然而 1922 疫調平台所讀取的這組 API,雖然不需要特殊權限即可存取、網址也明文記載在網頁原始碼裡,卻沒有出現在「政府資料開放平臺」列表裡,1922 疫調平台上也並無任何開放資料 (open data) 的宣告標示或 API 的使用說明。作為提供資料的 API,卻又沒有設計接受參數、傳回歷史資料的功能,只能取得最新一筆數據。既然已經將資料特地製作成可以加值應用的機讀格式了,又為什麼不將歷史資料整理出來,與 API 一起公布到衛福部疾管署自己的開放資料平台呢?

在資料收集過程中,我們還注意到這組數據似乎並非自動與資料庫連動,有時會漏未更新,有時一天會更新兩次,需要早晚檢查數次才能確定紀錄的數字可靠。這讓我們不禁好奇,究竟是哪個單位負責維護這些統計數據?當我們無法取得原始資料時,又要怎麼知道這些數字的計算正確與否?

破碎化、隱晦的資訊公開

在 1922 疫調平台開始揭露數據前,如果要了解簡訊實聯制的發送情況,只能從 NCC 的臉書粉絲專頁貼文裡一張又一張的懶人包圖卡去整理數據。更令人困惑的是,NCC 並未在官網上告知大眾該會有定期更新簡訊實聯制統計數字,官網上的政府資訊公開專區以及因應嚴重特殊傳染性肺炎資訊專區,也都沒有提供相關資訊。我們是從衛福部對台權會申請資訊公開的答覆中[4],才得知 NCC 有在臉書公布這些統計數字。

不論是 NCC 或衛福部,簡訊實聯制的資訊公開都應該循正當的政府資訊公開、資料開放流程,將資料公布在對應的統計網站或是平台上。目前 1922 疫調平台和 NCC 的資訊發布方式,都只能看到單次更新的累計數字,欠缺歷史脈絡,也無法看出整體趨勢。在 NCC 的情況,除非在其臉書頁面往前爬梳;在 1922 疫調平台的情況,除非逐日記錄;否則以目前這種形式公布的數據對一般民眾而言並沒有意義。

更不透明的台北通

讓解釋數字差異更加困難的,則是台北通實聯制(即臺北市政府整合其「台北通」App 自行建立的「臺北市政府防疫實聯制」系統)相關資料的欠缺。相較於衛福部尚有粗略、堪稱連續的統計數據,台北通自始便未公佈相關統計數字,雖然宣稱有符合實聯制資料僅能保存 28 天的要求,但除了前述 2021 年資訊局回應市議員[5]的資料點之外,台北通實聯制相關的資料可說是幾近全無

小結

本文主要介紹目前可以取得的兩組官方簡訊實聯制資料、討論兩者之間的差異、提出一些關於資料的疑問,並指出相關數據在資料開放上的不足之處。下一次的觀察筆記將會回到第一篇的主題,透過我們所陸續蒐集整理的 1922 疫調平台數據,更細緻的檢視 2021 年年底以來簡訊實聯制的使用趨勢。

感謝吳全峰、何漢葳、陳瑩穎、鄭詠綺、羅竟祐參與討論。


上一篇:簡訊實聯制觀察筆記(一):法規背景與使用趨勢
下一篇:簡訊實聯制觀察筆記(三):用量變化因素與裁罰爭議


參考資料

  1. 即時新聞中心,確診者在身邊?快來查!一個步驟看你被疫調幾次,蘋果日報,2021 年 9 月 6 日。↩︎
  2. 衛生福利部疾病管制署,簡訊實聯制 – 民眾資料調閱紀錄查詢服務網站(封存於 2021 年 10 月 18 日)。↩︎
  3. 臺北市政府資訊局,澄清台北通個資與實聯資料保管之疑慮(新聞稿),2021 年 11 月 14 日。↩︎
  4. 周冠汝,台權會針對「健保卡註記高風險族群」與「政府與電信業者合作之防疫監控措施」申請資訊公開(新聞稿),台灣人權促進會,2021 年 6 月 7 日。↩︎
  5. 陳昱婷,議員揭台北通獲5000萬筆個資 柯文哲允管控使用,中央社,2021 年 11 月 14 日。 ↩︎