基準資料集維護
本文件說明如何維護和擴充 PETsARD 的基準資料集功能。主要面向開發者,提供新增或修改基準資料集的相關指南。
核心概念
基準資料集系統的設計著重於:
- 資料集文件維護
- 下載與校驗機制
- 快取管理功能
資料集文件
基本資訊記錄
在文件中記錄每個資料集的基本資訊:
- 名稱:資料集名稱
- 檔名:在系統中使用的檔案名稱
- 權限:公開/私有訪問權限
- 欄位數:資料欄位數量
- 筆數:資料列數量
- 檔案大小:檔案容量大小
- 授權:使用授權類型
- 哈希值:SHA-256 校驗碼前七碼
特徵資訊記錄
記錄資料集的特徵資訊:
- 小樣本:是否少於 5000 筆資料
- 類別為主:類別型欄位是否超過 75%
- 數值為主:數值型欄位是否超過 75%
- 均衡型態:類別和數值欄位的分布是否均衡
- 極端值:具有極端值的欄位數量
- 高基數:具有高基數的類別欄位數量
校驗機制
SHA256 校驗流程
基準資料集使用 SHA256 進行檔案完整性校驗:
校驗工具
from petsard.util import digest_sha256 hasher = digest_sha256(filepath) hash_value = hasher.hexdigest()
校驗比對
- 取前七碼進行比對
- 校驗失敗時發出警告
- 確保資料集完整性
快取管理
基準資料集採用本地快取機制:
快取策略
- 存在且校驗通過:直接使用
- 不存在:下載新檔案
- 校驗失敗:發出警告並停止
快取清理
- 使用者可手動刪除快取
- 校驗失敗時建議重新下載
最佳實踐
資料集選擇
選擇資料集時應考慮:
- 來源可靠性與穩定性
- 授權條款明確性
- 資料量適中性
- 資料品質一致性
維護建議
文件維護
- 及時更新資料集清單
- 確保資訊正確性
- 標注重要變更
資料品質
- 定期檢查資料集可用性
- 更新失效的下載連結
- 維護校驗碼清單
使用者體驗
- 提供清晰的錯誤訊息
- 改進使用說明
- 處理相容性問題