基準資料集維護

基準資料集維護

本文件說明如何維護和擴充 PETsARD 的基準資料集功能。主要面向開發者,提供新增或修改基準資料集的相關指南。

核心概念

基準資料集系統的設計著重於:

  • 資料集文件維護
  • 下載與校驗機制
  • 快取管理功能

資料集文件

基本資訊記錄

在文件中記錄每個資料集的基本資訊:

  • 名稱:資料集名稱
  • 檔名:在系統中使用的檔案名稱
  • 權限:公開/私有訪問權限
  • 欄位數:資料欄位數量
  • 筆數:資料列數量
  • 檔案大小:檔案容量大小
  • 授權:使用授權類型
  • 哈希值:SHA-256 校驗碼前七碼

特徵資訊記錄

記錄資料集的特徵資訊:

  • 小樣本:是否少於 5000 筆資料
  • 類別為主:類別型欄位是否超過 75%
  • 數值為主:數值型欄位是否超過 75%
  • 均衡型態:類別和數值欄位的分布是否均衡
  • 極端值:具有極端值的欄位數量
  • 高基數:具有高基數的類別欄位數量

校驗機制

SHA256 校驗流程

基準資料集使用 SHA256 進行檔案完整性校驗:

  1. 校驗工具

    from petsard.util import digest_sha256
    
    
    hasher = digest_sha256(filepath)
    hash_value = hasher.hexdigest()
  2. 校驗比對

    • 取前七碼進行比對
    • 校驗失敗時發出警告
    • 確保資料集完整性

快取管理

基準資料集採用本地快取機制:

  1. 快取策略

    • 存在且校驗通過:直接使用
    • 不存在:下載新檔案
    • 校驗失敗:發出警告並停止
  2. 快取清理

    • 使用者可手動刪除快取
    • 校驗失敗時建議重新下載

最佳實踐

資料集選擇

選擇資料集時應考慮:

  • 來源可靠性與穩定性
  • 授權條款明確性
  • 資料量適中性
  • 資料品質一致性

維護建議

  1. 文件維護

    • 及時更新資料集清單
    • 確保資訊正確性
    • 標注重要變更
  2. 資料品質

    • 定期檢查資料集可用性
    • 更新失效的下載連結
    • 維護校驗碼清單
  3. 使用者體驗

    • 提供清晰的錯誤訊息
    • 改進使用說明
    • 處理相容性問題