데이터 전처리
2023. 11. 9. 22:07ㆍ개발 문서/Python
728x90
반응형
데이터 전처리는 데이터를 분석하거나 머신러닝 모델에 입력으로 사용하기 전에 데이터를 정리하고 가공하는 과정을 말합니다. 좋은 품질의 데이터를 가진다면 모델의 성능을 향상시키고 결과를 더 신뢰할 수 있게 만들 수 있습니다. 아래는 데이터 전처리의 주요 단계와 기법들입니다.
1. 결측값 처리:
- 제거 (Drop): 결측값이 포함된 행 또는 열을 삭제합니다.
- 대체 (Imputation): 평균, 중간값, 최빈값 등으로 결측값을 대체합니다.
2. 이상치 처리:
- 식별 (Identification): 이상치를 찾아내고 기준을 정합니다.
- 제거 또는 대체 (Removal or Imputation): 이상치를 제거하거나 다른 값으로 대체합니다.
3. 범주형 데이터 처리:
- 원-핫 인코딩 (One-Hot Encoding): 범주형 변수를 이진형 변수로 변환합니다.
- 라벨 인코딩 (Label Encoding): 범주형 변수를 정수 형태로 변환합니다.
4. 데이터 스케일링:
- 표준화 (Standardization): 평균을 0, 표준편차를 1로 만들어 데이터를 정규분포에 가깝게 만듭니다.
- 정규화 (Normalization): 최소값과 최대값을 이용하여 데이터를 0과 1 사이의 범위로 변환합니다.
5. 특성 공학 (Feature Engineering):
- 새로운 특성 생성: 기존의 특성을 조합하거나 변형하여 새로운 특성을 만듭니다.
- 다항 특성 추가: 특성의 차수를 높여서 모델의 복잡성을 증가시킬 수 있습니다.
6. 데이터 분할 (Data Splitting):
- 훈련 데이터와 테스트 데이터 분리: 모델을 훈련시키고 평가하기 위해 데이터를 훈련 세트와 테스트 세트로 나눕니다.
7. 날짜 및 시간 처리:
- 날짜 파싱: 날짜 및 시간 정보를 추출하고 이를 새로운 특성으로 변환합니다.
- 주기성 변환: 계절성이나 주기성을 고려하여 데이터를 변환합니다.
8. 텍스트 데이터 처리:
- 토큰화 (Tokenization): 문장이나 단어를 토큰으로 분리합니다.
- 임베딩 (Embedding): 단어를 숫자로 변환하여 모델에 입력으로 사용합니다.
9. 불필요한 특성 제거:
- 상관 분석: 상관 관계가 낮거나 중복된 특성을 제거합니다.
- 변수 선택: 유의미한 변수만 선택하여 사용합니다.
10. 데이터 시각화:
- 시각적 탐색: 데이터를 시각적으로 탐색하고 패턴을 파악합니다.
- 분포 확인: 히스토그램 등을 사용하여 데이터 분포를 확인합니다.
11. 데이터 정규화 및 변환:
- 로그 변환: 데이터의 왜도(skewness)를 줄이기 위해 로그 변환을 수행합니다.
- 박스-콕스 변환 (Box-Cox Transformation): 데이터를 정규분포에 가깝게 만들기 위한 변환 방법 중 하나입니다.
12. 자동화:
- 파이프라인 구축: 여러 전처리 단계를 순서대로 자동
'개발 문서 > Python' 카테고리의 다른 글
데이터 시각화 (Plotly) (1) | 2023.11.09 |
---|---|
데이터 분석 라이브러리 (Pandas, NumPy) (1) | 2023.11.09 |
데이터 분석과 머신러닝 (0) | 2023.11.09 |
웹 프레임워크 (Django, Flask) (0) | 2023.11.09 |
RESTful API와 JSON 처리 (0) | 2023.11.09 |