Pandas의 데이터프레임은 데이터 조작과 분석을 위한 매우 유용한 도구입니다. 아래에는 데이터프레임을 활용하기 위해 알아두면 좋은 명령어들을 몇 가지 소개해드리겠습니다.
1. 데이터 불러오기 및 생성
pd.read_csv("filename.csv"): CSV 파일 불러오기.
pd.DataFrame(data): 딕셔너리나 리스트 데이터로 데이터프레임 생성.
2. 기본 정보 확인
df.head(): 처음 5개 행 출력.
df.tail(): 마지막 5개 행 출력.
df.info(): 데이터프레임의 정보 출력 (열 타입, 누락된 값 등).
df.shape: 데이터프레임의 행과 열 개수 확인.
3. 열 선택 및 필터링
df['column_name']: 특정 열 선택.
df[['col1', 'col2']]: 여러 열 선택.
df[df['column_name'] > value]: 조건에 맞는 행 필터링.
4. 행 선택 및 필터링
df.loc[row_label]: 특정 레이블의 행 선택.
df.iloc[row_index]: 특정 인덱스의 행 선택.
df.query("condition"): 조건에 맞는 행 필터링.
5. 데이터 수정 및 추가
df['column_name'] = new_values: 열 값 수정.
df['new_column'] = values: 새로운 열 추가.
df.drop(columns=['col1', 'col2']): 열 삭제.
df.drop(index=row_index): 행 삭제.
df.drop_duplicates(): 중복 행 제거.
6. 통계 정보 확인
df.describe(): 숫자형 열의 기술 통계 정보 출력.
df['column_name'].mean(): 열의 평균 계산.
df['column_name'].max(): 열의 최댓값 계산.
df['column_name'].min(): 열의 최솟값 계산.
7. 그룹화와 집계
df.groupby('column_name').mean(): 그룹별 평균 계산.
df.groupby('column_name').sum(): 그룹별 합계 계산.
df.groupby('column_name').agg({'col1': 'sum', 'col2': 'mean'}): 여러 열에 대한 집계 계산.
8. 정렬
df.sort_values(by='column_name'): 특정 열을 기준으로 오름차순 정렬.
df.sort_values(by='column_name', ascending=False): 내림차순 정렬.
9. 결측값 처리
df.dropna(): 결측값이 있는 행 제거.
df.fillna(value): 결측값을 특정 값으로 대체.
10. 파일 저장
df.to_csv("filename.csv", index=False): 데이터프레임을 CSV 파일로 저장.
위의 명령어들은 pandas 데이터프레임을 다룰 때 유용한 기능들을 나타냅니다. 데이터를 분석하거나 가공할 때 이러한 명령어들을 적절하게 활용하면 작업이 훨씬 용이해집니다.
'파이썬 > 파이썬 기초' 카테고리의 다른 글
파이썬 csv 파일 저장하기 (python, csv, pandas) (1) | 2023.09.13 |
---|---|
[파이썬 python] 패키지 버전 확인 방법 (package pip) (0) | 2023.08.27 |
[파이썬 Python] csv 파일 불러오기 (pandas) (0) | 2023.08.27 |
[파이썬 Python] 텍스트 파일로 저장하기 (text, open) (0) | 2023.08.27 |
[파이썬 python] 텍스트 파일 불러오기 (Open, text) (0) | 2023.08.27 |