Copg블로그

데이터 전처리

2023. 11. 9. 22:07ㆍ개발 문서/Python

728x90

데이터 전처리는 데이터를 분석하거나 머신러닝 모델에 입력으로 사용하기 전에 데이터를 정리하고 가공하는 과정을 말합니다. 좋은 품질의 데이터를 가진다면 모델의 성능을 향상시키고 결과를 더 신뢰할 수 있게 만들 수 있습니다. 아래는 데이터 전처리의 주요 단계와 기법들입니다.

1. 결측값 처리:

제거 (Drop): 결측값이 포함된 행 또는 열을 삭제합니다.
대체 (Imputation): 평균, 중간값, 최빈값 등으로 결측값을 대체합니다.

2. 이상치 처리:

식별 (Identification): 이상치를 찾아내고 기준을 정합니다.
제거 또는 대체 (Removal or Imputation): 이상치를 제거하거나 다른 값으로 대체합니다.

3. 범주형 데이터 처리:

원-핫 인코딩 (One-Hot Encoding): 범주형 변수를 이진형 변수로 변환합니다.
라벨 인코딩 (Label Encoding): 범주형 변수를 정수 형태로 변환합니다.

4. 데이터 스케일링:

표준화 (Standardization): 평균을 0, 표준편차를 1로 만들어 데이터를 정규분포에 가깝게 만듭니다.
정규화 (Normalization): 최소값과 최대값을 이용하여 데이터를 0과 1 사이의 범위로 변환합니다.

5. 특성 공학 (Feature Engineering):

새로운 특성 생성: 기존의 특성을 조합하거나 변형하여 새로운 특성을 만듭니다.
다항 특성 추가: 특성의 차수를 높여서 모델의 복잡성을 증가시킬 수 있습니다.

6. 데이터 분할 (Data Splitting):

훈련 데이터와 테스트 데이터 분리: 모델을 훈련시키고 평가하기 위해 데이터를 훈련 세트와 테스트 세트로 나눕니다.

7. 날짜 및 시간 처리:

날짜 파싱: 날짜 및 시간 정보를 추출하고 이를 새로운 특성으로 변환합니다.
주기성 변환: 계절성이나 주기성을 고려하여 데이터를 변환합니다.

8. 텍스트 데이터 처리:

토큰화 (Tokenization): 문장이나 단어를 토큰으로 분리합니다.
임베딩 (Embedding): 단어를 숫자로 변환하여 모델에 입력으로 사용합니다.

9. 불필요한 특성 제거:

상관 분석: 상관 관계가 낮거나 중복된 특성을 제거합니다.
변수 선택: 유의미한 변수만 선택하여 사용합니다.

10. 데이터 시각화:

시각적 탐색: 데이터를 시각적으로 탐색하고 패턴을 파악합니다.
분포 확인: 히스토그램 등을 사용하여 데이터 분포를 확인합니다.

11. 데이터 정규화 및 변환:

로그 변환: 데이터의 왜도(skewness)를 줄이기 위해 로그 변환을 수행합니다.
박스-콕스 변환 (Box-Cox Transformation): 데이터를 정규분포에 가깝게 만들기 위한 변환 방법 중 하나입니다.

12. 자동화:

파이프라인 구축: 여러 전처리 단계를 순서대로 자동

'개발 문서 > Python' 카테고리의 다른 글

데이터 시각화 (Plotly) (1)	2023.11.09
데이터 분석 라이브러리 (Pandas, NumPy) (1)	2023.11.09
데이터 분석과 머신러닝 (0)	2023.11.09
웹 프레임워크 (Django, Flask) (0)	2023.11.09
RESTful API와 JSON 처리 (0)	2023.11.09

관련글

티스토리툴바