最佳實踐

最佳實踐

合成情境的選擇

現有的表格式資料合成演算法多著重於演算法本身的開發,較少提供完整的商業解決方案。面對真實世界資料的複雜性與不完整性,往往需要顧問團隊為各個應用場域進行客製化調整。

有鑑於此,CAPE 團隊自 2024 年起陸續協助臺灣公營事業與金融機構導入合成資料應用,從實務經驗中歸納出一套方法論。我們針對最常見且關鍵的真實資料樣態,分享實務經驗以及如何運用 PETsARD 解決問題,期望能為國內外的資料科學與隱私保護團隊提供實用的參考。

最佳實踐

多表格多時間點資料的合成:以企業資料為例

  • 與某政策性金融機構合作,針對其企業客戶相關資料(包含基本資料、融資申請、財務追蹤等)進行合成,以支援該機構舉辦資料松競賽,促進外部廠商參與並解決實際商業挑戰
  • 該資料集橫跨多個業務資料表且關聯複雜,包含企業從成立、申請融資到財務追蹤等多個關鍵時間點,呈現明顯的時序特性與業務邏輯關係
  • 案例展示了如何通過反正規化時間定錨兩種方法,有效處理多表格與多時間點資料,確保合成資料保留原始資料的業務邏輯與時序關係
  • 此最佳實踐適用於處理企業融資、貸款申請與追蹤等類似場景的資料,特別是在處理具有複雜表格結構且涉及多個時間節點的商業資料時

類別變項高基數變項資料的合成:以高教資料為例

  • 與某公立大學合作,針對學生入學與學業表現資料(包含學校院系、入學管道、修課選擇等)進行合成,以支援教育政策與社會經濟研究,促進學術資源公平近用並解決隱私保護疑慮
  • 該資料集包含學生的社經背景、族裔、身心障礙等高度敏感個資,且這些隱私屬性與學生的入學身份、學業選擇、及學習表現呈現複雜且緊密的潛在邏輯關聯性
  • 案例展示了如何通過均勻編碼約束條件兩種方法,有效的處理高維度離散屬性與類別排列組合,確保合成資料保留原始資料的敏感特性分布與複雜邏輯關係
  • 此最佳實踐適用於處理如人口普查、社會態度調查、消費者行為與產品組合研究、行為與流量軌跡等類似場景的資料,特別是在需要維持高維度類別變數間的複雜相依關係時

低基數資料的合成:以社福資料為例(撰寫中)

  • 與某市社會保護服務機構合作,針對其跨機構(社政、警政、醫療)所收集的訪視與處置問卷執行資料合成,涵蓋初次評估與後續追蹤訪查
  • 該資料集主要由是非題、單選題與多選題所組成,具有選項數量少、答案分布不均等特性
  • 此最佳實踐適用於類似的低基數資料場景,如市場調查問卷、使用者體驗研究、民意調查、社會經濟統計等領域,特別是在處理具有標準化選項的結構化問卷資料時

不平衡資料的合成:以壽險資料為例(撰寫中)

  • 與臺灣某金融控股集團合作,針對其人壽子公司的保單、理賠與就醫資料執行資料合成,以支援跨企業的詐欺偵測模型開發
  • 該資料集的關鍵目標變數為理賠審查結果,其中拒賠案件僅佔約 3%,為典型的類別不平衡資料
  • 此最佳實踐適用於類似的不平衡資料場景,如信用卡詐欺偵測、網路安全威脅辨識、異常交易篩檢等領域,特別是在處理極度偏斜的目標分布時