使用案例

使用案例

在開發隱私保護資料合成流程時,您可能會遇到一些特殊需求。以下場景將幫助您處理這些情況。每個主題都提供了完整的範例,您可以透過 Colab 連結直接執行與測試。

資料理解

資料洞察:資料描述

  • 在合成之前了解您的資料
  • 從不同的顆粒度分析資料特性
  • 包含全域、欄位與配對統計

資料合成

  • 若合成結果不理想,您可以:
    • 嘗試替換不同的合成演算法
    • 調整模型參數(如果有)
    • 進行更精細的資料前處理

資料品質提升:資料前處理

  • 系統性處理資料中的各種品質問題
  • 提供遺失值、編碼、極端值等多種處理方法
  • 包含均勻編碼、標準化與離散化等技術

合成方法選擇:比較合成演算法

  • 比較不同合成演算法的效果
  • 在同一個實驗中使用多種演算法
  • 包含 Gaussian Copula、CTGAN 與 TVAE

客製化合成:自定義合成

  • 建立自己的合成方法
  • 整合進 PETsARD 的合成流程

資料合理性:資料約束

  • 確保合成資料符合實際業務規則
  • 提供欄位值、欄位組合與空值的約束方法
  • 包含數值範圍限制、類別對應關係與空值處理策略

資料評測

機器學習導向資料效用評測:機器學習效用

  • 評估合成資料在分類、迴歸及聚類任務中的實用性
  • 預設採用雙源控制組評測法以提供公平客觀比較
  • 支援多種實驗設計以滿足不同場景需求

客製化評估:自定義評測

  • 建立自己的評測方法
  • 實作不同顆粒度的評估
  • 整合進 PETsARD 的評測流程

流程提升

實驗流程驗證:基準資料集

  • 使用基準資料集測試您的合成流程
  • 確認合成參數設定的合理性
  • 提供可靠的參考標準