데이터 정규화 방법 (avg, std, normalization)

2024. 6. 4. 21:33잡기술

1. Min-Max Normalization (이미 사용 중인 방법)

  • 방법: normalized value = (original value - min value) / (max value - min value)
  • 장점: 데이터의 모든 값이 [0, 1] 범위로 변환됩니다.
  • 단점: outlier에 민감하며, 새로운 데이터가 기존의 min-max 범위를 벗어나면 문제가 발생할 수 있습니다.

2. Z-Score Normalization (Standardization)

  • 방법: normalized value = (original value - mean) / standard deviation
  • 장점: 데이터의 평균을 0, 표준 편차를 1로 맞춥니다. 이는 데이터의 분포를 유지하면서 각 데이터 포인트의 상대적 위치를 유지합니다.
  • 단점: 데이터의 분포가 정상 분포를 따르지 않는 경우 효과가 덜할 수 있습니다.

3. Robust Scaler

  • 방법: 중위수와 IQR(Interquartile Range, 1사분위수와 3사분위수의 차이)을 사용하여 스케일링
    normalized value = (original value - median) / IQR
  • 장점: outlier에 덜 민감하며, 데이터의 중위수 중심으로 스케일링됩니다.
  • 단점: 데이터의 분포에 따라 성능이 다를 수 있습니다.

Fluorescence molecule (FITC) 을 이용한 정규화 방법으로는 Min-Max Normalization이 적당함.

 

e.g. n=4 인 raw 데이터에 대해 평균(average), 표준편차(std)를 구한 뒤, (avg - min value) / (max value - min value)로 정규화 된 데이터로 변환. 이후 std는 (max value - min value)로 나누어 주면 함께 사용 가능함.