Pandas란? 파이썬에서 데이터를 조작/분석하기 위한 라이브러리
- 행/열로 이루어진 테이블 형태의 데이터를 다룬다.
- 엑셀로 다루지 못하는 대용량 데이터를 다룰 수 있다.
- Matplotlib, Seaborn 등 다양한 시각화 도구와 함께 사용할 수 있다.
▶ 판다스에서 다루는 데이터 형태
판다스에서는 Series와 DataFrame의 형태로 데이터를 다룬다.
▶ 데이터프레임
DataFrame : 행, 열로 이루어진 2차원 표 형태
¤ 행(row) : index로 구분
¤ 열(series, column) : column_name으로 구분
▶ 데이터프레임 생성(row단위-list)
① 표의 데이터를 2차원 리스트로 표현하기
② 데이터프레임으로 만들기
③ 인덱스 추가하기
④ 컬럼명 추가하기
pd.DataFrame(2차원리스트, columns=컬럼리스트, index=인덱스리스트)
※ 컬럼, 인덱스를 지정하지 않으면 디폴트로 0부터 시작하는 숫자가 지정된다.
▶ 데이터프레임 생성(column단위-dic)
pd.DataFrame(딕셔너리, index=인덱스리스트)
딕셔너리는 {컬럼명1:컬럼값리스트, 컬럼명2:컬럼값리스트...}
▶ 데이터프레임 생성(파일)
① 데이터 파일 준비하기 ★UTF-8 형식의 csv파일
② 데이터 파일을 읽어와 데이터프레임으로 만들기
df = pd.read_csv('scores.csv')
'Python > 파이썬_데이터분석' 카테고리의 다른 글
#6 기본 그래프 그리기 (0) | 2023.02.09 |
---|---|
#5 행 번호, 열 번호로 데이터 추출하기 (0) | 2023.02.09 |
#4 인덱스, 컬럼명으로 데이터 추출하기 (0) | 2023.02.09 |
#3 시리즈 다루기 / 컬럼명으로 데이터 추출하기 (0) | 2023.02.09 |
#2 데이터 확인하기 (0) | 2023.02.08 |