使用案例
在開發隱私保護資料合成流程時,您可能會遇到一些特殊需求。以下場景將幫助您處理這些情況。每個主題都提供了完整的範例,您可以透過 Colab 連結直接執行與測試。
資料理解
資料洞察:資料描述
- 在合成之前了解您的資料
- 從不同的顆粒度分析資料特性
- 包含全域、欄位與配對統計
資料合成
- 若合成結果不理想,您可以:
- 嘗試替換不同的合成演算法
- 調整模型參數(如果有)
- 進行更精細的資料前處理
資料品質提升:資料前處理
- 系統性處理資料中的各種品質問題
- 提供遺失值、編碼、極端值等多種處理方法
- 包含均勻編碼、標準化與離散化等技術
合成方法選擇:比較合成演算法
- 比較不同合成演算法的效果
- 在同一個實驗中使用多種演算法
- 包含 Gaussian Copula、CTGAN 與 TVAE
客製化合成:自定義合成
- 建立自己的合成方法
- 整合進 PETsARD 的合成流程
資料合理性:資料約束
- 確保合成資料符合實際業務規則
- 提供欄位值、欄位組合與空值的約束方法
- 包含數值範圍限制、類別對應關係與空值處理策略
資料評測
機器學習導向資料效用評測:機器學習效用
- 評估合成資料在分類、迴歸及聚類任務中的實用性
- 預設採用雙源控制組評測法以提供公平客觀比較
- 支援多種實驗設計以滿足不同場景需求
客製化評估:自定義評測
- 建立自己的評測方法
- 實作不同顆粒度的評估
- 整合進 PETsARD 的評測流程
流程提升
實驗流程驗證:基準資料集
- 使用基準資料集測試您的合成流程
- 確認合成參數設定的合理性
- 提供可靠的參考標準