데이터 분석 라이브러리 (Pandas, NumPy)

2023. 11. 9. 22:08개발 문서/Python

728x90
반응형

PandasNumPy는 Python에서 데이터 분석과 관련된 작업을 수행하는 데 사용되는 핵심 라이브러리입니다. 두 라이브러리는 각자의 특징과 역할이 있으며, 데이터를 다루고 처리하는 데 필수적인 역할을 합니다.

NumPy:

주요 특징:

  1. 다차원 배열 (N-dimensional array): NumPy는 다차원 배열 객체인 ndarray를 제공하며, 이를 사용하여 효율적으로 데이터를 저장하고 다룰 수 있습니다.
  2. 브로드캐스팅 (Broadcasting): 서로 다른 모양의 배열 간에 연산을 수행할 수 있게 해주는 강력한 기능을 제공합니다.
  3. 수학 및 통계 함수: 선형 대수, 통계, 난수 생성 등 다양한 수학적 연산을 지원합니다.
  4. 메모리 효율성: C로 구현되어 있어서 메모리 사용이 효율적이며, 대용량 데이터 처리에 용이합니다.

사용 예:

import numpy as np

# 1차원 배열 생성
arr1 = np.array([1, 2, 3])

# 2차원 배열 생성
arr2 = np.array([[1, 2, 3], [4, 5, 6]])

# 배열 연산
result = arr1 + arr2

Pandas:

주요 특징:

  1. 데이터프레임 (DataFrame): Pandas는 데이터를 효과적으로 다룰 수 있는 표 형태의 데이터 구조인 DataFrame을 제공합니다.
  2. 라벨링된 축 (Labelled axes): 행과 열은 사용자가 정의한 라벨로 인덱싱되어 편리한 데이터 조작을 가능하게 합니다.
  3. 데이터 정렬 및 필터링: 데이터를 정렬하고 조건에 맞게 필터링하는 기능을 제공합니다.
  4. 누락된 데이터 처리: 누락된 데이터를 쉽게 처리할 수 있도록 지원합니다.

사용 예:

import pandas as pd

# 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'San Francisco', 'Los Angeles']}
df = pd.DataFrame(data)

# 데이터프레임 출력
print(df)

데이터 과학 및 머신러닝 프로젝트에서는 주로 NumPy와 Pandas가 함께 사용되며, NumPy는 배열 연산 및 수학적 기능에, Pandas는 데이터 조작 및 분석에 특화되어 있습니다. 이들 라이브러리를 적절히 조합하여 데이터를 효과적으로 다루고 분석할 수 있습니다.

'개발 문서 > Python' 카테고리의 다른 글

선형 회귀 분석  (0) 2023.11.09
데이터 시각화 (Plotly)  (1) 2023.11.09
데이터 전처리  (0) 2023.11.09
데이터 분석과 머신러닝  (0) 2023.11.09
웹 프레임워크 (Django, Flask)  (0) 2023.11.09