인덱스란? 인덱스는 '행 이름'으로, '행 번호'와는 다르다! (*행 번호는 행 위치로 이해하면 됨.) ☆ 인덱스를 별도로 지정하지 않으면 0부터 1씩 증가하는 정수로 자동 지정 ▶ 인덱스로 행 데이터 추출하기 데이터프레임명.loc[인덱스] : 시리즈 형태로 추출한다. 하나의 인덱스만 사용 가능하다. 데이터프레임명.loc[인덱스리스트] : 데이터프레임 형태로 추출한다. 한개 이상의 인덱스를 사용할 수 있다. ☆ 하나의 행을 추출하더라도, '[]'으로 묶어주면 데이터프레임 형식으로 추출할 수 있음 ! ☆ 인덱스에 없는 값을 사용하면 KeyError 발생 ! ▶ 인덱스로 행, 열 데이터 추출하기 데이터프레임명.loc[인덱스, 컬럼명] : 한 개의 데이터 추출 데이터프레임명.loc[인덱스, 컬럼리스트] : 한..
▶ 시리즈 만들기 pd.Series(리스트) 시리즈 : 엑셀시트의 열 1개를 의미한다.(1차원 리스트형태) ▶ 시리즈의 index와 value 가져오기 시리즈의 index 가져오기 : 시리즈.index 시리즈의 value 가져오기 : 시리즈.values ※ 시리즈의 인덱스는 리스트의 인덱스와 다른 개념이다. ※ 시리즈의 인덱스는 데이터의 이름이고, 행 번호는 따로 있다. ▶ 시리즈의 index 지정하기 시리즈.index = 인덱스리스트 ※ 시리즈의 인덱스는 숫자, 문자열 모두 가능하다. ▶ 시리즈의 통계값 사용하기 평균 : 시리즈.mean() 최소값 : 시리즈.min() 최대값 : 시리즈.max() 중간값 : 시리즈.median() 표준편차 : 시리즈.std() ※ 시리즈의 통계값은 시리즈의 value가..
▶ 데이터 미리보기 ▷ 가장 앞의 n행 보기 데이터프레임.head(n) 시리즈.head(n) ※ n을 생략하면 5개의 행을 출력한다 ▷ 가장 뒤의 n행 보기 데이터프레임.tail(n) ※ n을 생략하면 5개의 행을 출력한다 ▷ 랜덤 n개 데이터 보기 데이터프레임.sample(n) ※ n을 생략하면 1개의 샘플을 출력한다 ▷ 랜덤 샘플 비율로 보기 데이터프레임.sample(frac=0.2) ▷ 높은 순 보기 데이터프레임.nlargest(갯수,컬럼명) ※ 컬럼의 데이터가 숫자형일 때 사용할 수 있다. ▷ 낮은순 보기 데이터프레임.nsmallest(갯수,컬럼명) ※ 컬럼의 데이터가 숫자형일 때 사용할 수 있다. ▶ 데이터 요약 보기 ▷ (행,열)의 크기 보기 데이터프레임.shape ▷ 데이터의 갯수 보기 le..
Pandas란? 파이썬에서 데이터를 조작/분석하기 위한 라이브러리 - 행/열로 이루어진 테이블 형태의 데이터를 다룬다. - 엑셀로 다루지 못하는 대용량 데이터를 다룰 수 있다. - Matplotlib, Seaborn 등 다양한 시각화 도구와 함께 사용할 수 있다. ▶ 판다스에서 다루는 데이터 형태 판다스에서는 Series와 DataFrame의 형태로 데이터를 다룬다. ▶ 데이터프레임 DataFrame : 행, 열로 이루어진 2차원 표 형태 ¤ 행(row) : index로 구분 ¤ 열(series, column) : column_name으로 구분 ▶ 데이터프레임 생성(row단위-list) ① 표의 데이터를 2차원 리스트로 표현하기 ② 데이터프레임으로 만들기 ③ 인덱스 추가하기 ④ 컬럼명 추가하기 pd.Da..