最佳實踐
最佳實踐
合成情境的選擇
現有的表格式資料合成演算法多著重於演算法本身的開發,較少提供完整的商業解決方案。面對真實世界資料的複雜性與不完整性,往往需要顧問團隊為各個應用場域進行客製化調整。
有鑑於此,CAPE 團隊自 2024 年起陸續協助臺灣公營事業與金融機構導入合成資料應用,從實務經驗中歸納出一套方法論。我們針對最常見且關鍵的真實資料樣態,分享實務經驗以及如何運用 PETsARD
解決問題,期望能為國內外的資料科學與隱私保護團隊提供實用的參考。
最佳實踐
低基數資料的合成:以社福資料為例(撰寫中)
- 與某市社會保護服務機構合作,針對其跨機構(社政、警政、醫療)所收集的訪視與處置問卷執行資料合成,涵蓋初次評估與後續追蹤訪查
- 該資料集主要由是非題、單選題與多選題所組成,具有選項數量少、答案分布不均等特性
- 此最佳實踐適用於類似的低基數資料場景,如市場調查問卷、使用者體驗研究、民意調查、社會經濟統計等領域,特別是在處理具有標準化選項的結構化問卷資料時
高基數與多表格資料的合成:以企業資料為例
- 與某政策性金融機構合作,針對其企業客戶相關資料(包含基本資料、融資申請、財務追蹤等)進行合成
- 該資料集橫跨多個業務資料表且關聯複雜,同時因產業類別多樣、融資方案眾多,在諸多欄位上均呈現高基數特性(大量獨特值),並具有長期追蹤的時序性質
- 此最佳實踐適用於類似的高基數與多表格資料場景,如企業徵信資料庫、產業研究資料、跨時記錄等領域,特別是在處理具有複雜表格結構的商業資料時
不平衡資料的合成:以壽險資料為例(撰寫中)
- 與臺灣某金融控股集團合作,針對其人壽子公司的保單、理賠與就醫資料執行資料合成,以支援跨企業的詐欺偵測模型開發
- 該資料集的關鍵目標變數為理賠審查結果,其中拒賠案件僅佔約 3%,為典型的類別不平衡資料
- 此最佳實踐適用於類似的不平衡資料場景,如信用卡詐欺偵測、網路安全威脅辨識、異常交易篩檢等領域,特別是在處理極度偏斜的目標分布時