[STARTERS 4기 TIL] #3일차(23.02.08)


 오늘 내가 배운 것 

오늘은 판다스를 이용한 데이터 분석 과정에서 사용되는 다양한 함수 사용법에 대해 배웠습니다!

자세한 내용은 주제 별로 정리하여 게시글 하단에 링크 걸어두었습니다 :)

 

 오늘 기억해야 할 내용 

· 데이터프레임에서 행 또는 열을 추출하는 방법

· 결측치를 처리하는 방법

· 데이터 프레임을 연결하는 방법

· 그룹별로 데이터를 집계하는 방법

 

 앞으로 ! 

오늘 정말 많은 함수를 배워서 사실 잘 정리가 안되었습니다 :(

주제 별로 수시로 복습해보려고 합니다 !!

 


 

 

#1 판다스 데이터의 구조

Pandas란? 파이썬에서 데이터를 조작/분석하기 위한 라이브러리 - 행/열로 이루어진 테이블 형태의 데이터를 다룬다. - 엑셀로 다루지 못하는 대용량 데이터를 다룰 수 있다. - Matplotlib, Seaborn 등 다

baekupdata.tistory.com

 

 

#2 데이터 확인하기

▶ 데이터 미리보기 ▷ 가장 앞의 n행 보기 데이터프레임.head(n) 시리즈.head(n) ※ n을 생략하면 5개의 행을 출력한다 ▷ 가장 뒤의 n행 보기 데이터프레임.tail(n) ※ n을 생략하면 5개의 행을 출력한

baekupdata.tistory.com

 

 

#3 시리즈 다루기 / 컬럼명으로 데이터 추출하기

▶ 시리즈 만들기 pd.Series(리스트) 시리즈 : 엑셀시트의 열 1개를 의미한다.(1차원 리스트형태) ▶ 시리즈의 index와 value 가져오기 시리즈의 index 가져오기 : 시리즈.index 시리즈의 value 가져오기 : 시

baekupdata.tistory.com

 

 

 

 

#4 인덱스, 컬럼명으로 데이터 추출하기

인덱스란? 인덱스는 '행 이름'으로, '행 번호'와는 다르다! (*행 번호는 행 위치로 이해하면 됨.) 인덱스를 별도로 지정하지 않으면 0부터 1씩 증가하는 정수로 자동 지정 ▶ 인덱스로 행 데이터 추

baekupdata.tistory.com

 

 

#5 행 번호, 열 번호로 데이터 추출하기

행 번호, 열 번호란? 행의 위치, 열의 위치를 나타내는 것으로, 각각 인덱스, 컬럼명과는 구분된다. ▶ 행 번호로 행 추출하기 데이터프레임명.iloc[행 번호] : 시리즈 형태로 추출 데이터프레임명.

baekupdata.tistory.com

 

 

#6 기본 그래프 그리기

▶ 멧플롯립 라이브러리 임포트 matplotlib 패키지의 pyplot 모듈을 사용! ▶ x축, y축 데이터 준비 ▶ 그래프 그리기 라이브러리의 메소드에 데이터를 전달하여 그리기 ※ 여러 그래프를 겹쳐서 그릴

baekupdata.tistory.com

 

 

#7 열 변경하기

▶ 열 추가/수정하기 데이터프레임[컬럼명] = 추가/수정할데이터 데이터프레임[컬럼명] = 컬럼 간 연산 ※ 컬럼이 존재하면 수정, 존재하지 않으면 추가된다. ▶ 열 삭제하기 데이터프레임.drop(col

baekupdata.tistory.com

 

 

#8 행 변경하기

▶ 인덱스 지정하여 행 추가/수정 데이터프레임.loc[인덱스] = 추가/수정할 데이터 ※ 인덱스가 존재하지 않으면 데이터프레임의 끝에 행 추가 데이터프레임.append(추가할 데이터, ignore_index=True)

baekupdata.tistory.com

 

 

#9 데이터에 함수 적용하기

▶ 함수로 데이터 변경하기 데이터프레임명[컬럼].apply(함수명) 데이터프레임명[컬럼].apply(함수명, 매개변수=값) ▶ 함수로 행/열의 데이터 집계하기 데이터프레임명.apply(함수명, axis=0) : 열 단위

baekupdata.tistory.com

 

 

#10 결측치 처리하기

결측치란? 비어있는 값 = null = 데이터가 없음 ≠ 공백 ▶ 결측치 확인하기 데이터프레임명.isnull().sum() 데이터프레임명.info() ▶ 결측치 처리하기 ① 특정 값으로 채우기 ② 주변 값으로 채우기 ③

baekupdata.tistory.com

 

#11 자료형 변환하기

▶ 판다스 자료형 데이터 타입 설명 int64 정수형 float64 실수형 bool 부울형 object 문자열 category 카테고리 datetime64 날짜, 시간 ▶ 판다스 자료형 확인하기 데이터프레임.dtypes 시리즈.dtype ※ 한 시리

baekupdata.tistory.com

 

 

#12 카테고리형 자료 다루기

Category란? 특정 값들로만 이루어지는 자료형 성별 남자 여자 ▶ 카테고리형 다루기 컬럼.astype('category') : 카테고리형으로 변환하기 컬럼.cat.categories = 카테고리 리스트 : 카테고리 이름 바꾸기 컬

baekupdata.tistory.com

 

 

#13 시계열 자료 다루기

▶ datetime 자료형 변환하기 pd.to_datetime(컬럼) ▶ 연, 월, 일, 분기 / 요일, 월 이름 추출하기 컬럼.dt.year 연 컬럼.dt.strftime('%a') 요약요일명(Sun, Mon, ... ) 컬럼.dt.month 월 컬럼.dt.strftime('%A') 긴요일명(Sun

baekupdata.tistory.com

 

 

#14 데이터프레임 연결하기(concat, merge)

▶ 컬럼명 기준으로 연결 pd.concat(데이터프레임 리스트) ▶ 인덱스 기준으로 연결 pd.concat(데이터프레임 리스트, axis=1) ▶ 공통된 컬럼을 기준으로 열 방향으로 연결 pd.merge(left, right, on=기준컬럼,

baekupdata.tistory.com

 

 

#15 행과 열의 형태 변경하기(melt, pivot)

▶ 열을 행으로 보내기(column → row) 데이터프레임.melt() ▶ 고정할 칼럼 지정하여 melt id_vars = [열 리스트] : 위치를 그대로 유지할 열 리스트 ▶ 행으로 위치를 변경할 열 지정 value_var = [열 리스트]

baekupdata.tistory.com

 

 

#16 피봇테이블로 데이터 집계하기(pIvot_table)

▶ 행을 열로 보내기 (row -> column) 데이터프레임.pivot_table(index=, columns=, values=, aggfunc=)

baekupdata.tistory.com

 

 

#17 그룹별 데이터 집계하기(groupby)

▶ 그룹화하여 그룹별 데이터 집계하기 데이터프레임.groupby(그룹화 기준컬럼).통계 적용 컬럼.통계 함수() count() : 누락값을 제외한 데이터 수 size() : 누락값을 포함한 데이터 수 mean() : 평균 sum()

baekupdata.tistory.com