본문 바로가기
파이썬/파이썬 기초

[파이썬 Python] Pandas 기본 명령어 (판다스, 데이터 프레임)

by SMCon 2023. 8. 27.
728x90
반응형

Pandas의 데이터프레임은 데이터 조작과 분석을 위한 매우 유용한 도구입니다. 아래에는 데이터프레임을 활용하기 위해 알아두면 좋은 명령어들을 몇 가지 소개해드리겠습니다.

 

1. 데이터 불러오기 및 생성

pd.read_csv("filename.csv"): CSV 파일 불러오기.

pd.DataFrame(data): 딕셔너리나 리스트 데이터로 데이터프레임 생성.

 

2. 기본 정보 확인

df.head(): 처음 5개 행 출력.

df.tail(): 마지막 5개 행 출력.

df.info(): 데이터프레임의 정보 출력 (열 타입, 누락된 값 등).

df.shape: 데이터프레임의 행과 열 개수 확인.

 

3. 열 선택 및 필터링

df['column_name']: 특정 열 선택.

df[['col1', 'col2']]: 여러 열 선택.

df[df['column_name'] > value]: 조건에 맞는 행 필터링.

 

4. 행 선택 및 필터링

df.loc[row_label]: 특정 레이블의 행 선택.

df.iloc[row_index]: 특정 인덱스의 행 선택.

df.query("condition"): 조건에 맞는 행 필터링.

 

5. 데이터 수정 및 추가

df['column_name'] = new_values: 열 값 수정.

df['new_column'] = values: 새로운 열 추가.

df.drop(columns=['col1', 'col2']): 열 삭제.

df.drop(index=row_index): 행 삭제.

df.drop_duplicates(): 중복 행 제거.

 

6. 통계 정보 확인

df.describe(): 숫자형 열의 기술 통계 정보 출력.

df['column_name'].mean(): 열의 평균 계산.

df['column_name'].max(): 열의 최댓값 계산.

df['column_name'].min(): 열의 최솟값 계산.

 

7. 그룹화와 집계

df.groupby('column_name').mean(): 그룹별 평균 계산.

df.groupby('column_name').sum(): 그룹별 합계 계산.

df.groupby('column_name').agg({'col1': 'sum', 'col2': 'mean'}): 여러 열에 대한 집계 계산.

 

8. 정렬

df.sort_values(by='column_name'): 특정 열을 기준으로 오름차순 정렬.

df.sort_values(by='column_name', ascending=False): 내림차순 정렬.

 

9. 결측값 처리

df.dropna(): 결측값이 있는 행 제거.

df.fillna(value): 결측값을 특정 값으로 대체.

 

10. 파일 저장

df.to_csv("filename.csv", index=False): 데이터프레임을 CSV 파일로 저장.

 

 

위의 명령어들은 pandas 데이터프레임을 다룰 때 유용한 기능들을 나타냅니다. 데이터를 분석하거나 가공할 때 이러한 명령어들을 적절하게 활용하면 작업이 훨씬 용이해집니다.

728x90
반응형