데이터 분석 라이브러리 (Pandas, NumPy)
2023. 11. 9. 22:08ㆍ개발 문서/Python
728x90
반응형
Pandas와 NumPy는 Python에서 데이터 분석과 관련된 작업을 수행하는 데 사용되는 핵심 라이브러리입니다. 두 라이브러리는 각자의 특징과 역할이 있으며, 데이터를 다루고 처리하는 데 필수적인 역할을 합니다.
NumPy:
주요 특징:
- 다차원 배열 (N-dimensional array): NumPy는 다차원 배열 객체인
ndarray
를 제공하며, 이를 사용하여 효율적으로 데이터를 저장하고 다룰 수 있습니다. - 브로드캐스팅 (Broadcasting): 서로 다른 모양의 배열 간에 연산을 수행할 수 있게 해주는 강력한 기능을 제공합니다.
- 수학 및 통계 함수: 선형 대수, 통계, 난수 생성 등 다양한 수학적 연산을 지원합니다.
- 메모리 효율성: C로 구현되어 있어서 메모리 사용이 효율적이며, 대용량 데이터 처리에 용이합니다.
사용 예:
import numpy as np
# 1차원 배열 생성
arr1 = np.array([1, 2, 3])
# 2차원 배열 생성
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
# 배열 연산
result = arr1 + arr2
Pandas:
주요 특징:
- 데이터프레임 (DataFrame): Pandas는 데이터를 효과적으로 다룰 수 있는 표 형태의 데이터 구조인
DataFrame
을 제공합니다. - 라벨링된 축 (Labelled axes): 행과 열은 사용자가 정의한 라벨로 인덱싱되어 편리한 데이터 조작을 가능하게 합니다.
- 데이터 정렬 및 필터링: 데이터를 정렬하고 조건에 맞게 필터링하는 기능을 제공합니다.
- 누락된 데이터 처리: 누락된 데이터를 쉽게 처리할 수 있도록 지원합니다.
사용 예:
import pandas as pd
# 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'San Francisco', 'Los Angeles']}
df = pd.DataFrame(data)
# 데이터프레임 출력
print(df)
데이터 과학 및 머신러닝 프로젝트에서는 주로 NumPy와 Pandas가 함께 사용되며, NumPy는 배열 연산 및 수학적 기능에, Pandas는 데이터 조작 및 분석에 특화되어 있습니다. 이들 라이브러리를 적절히 조합하여 데이터를 효과적으로 다루고 분석할 수 있습니다.
'개발 문서 > Python' 카테고리의 다른 글
선형 회귀 분석 (0) | 2023.11.09 |
---|---|
데이터 시각화 (Plotly) (1) | 2023.11.09 |
데이터 전처리 (0) | 2023.11.09 |
데이터 분석과 머신러닝 (0) | 2023.11.09 |
웹 프레임워크 (Django, Flask) (0) | 2023.11.09 |