๐ ์ค๋ ๋ด๊ฐ ๋ฐฐ์ด ๊ฒ
์ค๋์ ์ด์ ์ ๋ฐฐ์ด ๋ด์ฉ๋ค์ ํ์ฉํ์ฌ 4๊ฐ์ง ์ฃผ์ ์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ๋ถ์ ๊ณผ์ ์ ์งํํด๋ณด์์ต๋๋ค !
โ ์์ธ์ ์ฝ๋ก๋19 ํํฉ ๋ถ์
โก ์์ธ์ ๊ณต๊ณต์์ ๊ฑฐ ์ด์ฉ ํํฉ ๋ถ์
โข ์์ธ์ ๋ฌผ๊ฐ ์ ๋ณด ๋ถ์
โฃ ์งํ์ฒ ์นํ์ฐจ ํํฉ ๋ถ์
์์ธํ ๋ถ์ ๊ณผ์ ์ ์ฃผ์ ๋ณ๋ก ์ ๋ฆฌํ์ฌ ๊ฒ์๊ธ ํ๋จ์ ๋งํฌ ๊ฑธ์ด๋์์ต๋๋ค :)
๐ญ ์ค๋ ๊ธฐ์ตํด์ผ ํ ๋ด์ฉ
โ ๋ฌธ์์ด ๊ณต๋ฐฑ ์ ๊ฑฐ df['column'].str.strip()
โก ์ซ์ํ ์๋ฃํ์ผ๋ก ๋ณํํ ๋ ์๋ฌ์ฒ๋ฆฌ ์ต์
pd.to_numeric(์๋ฆฌ์ฆ, errors=์๋ฌ์ฒ๋ฆฌ์ต์ )
- ignore : ์ซ์๋ก ๋ณ๊ฒฝํ ์ ์๋ ๊ฐ์ด ์์ผ๋ฉด ์์ ํ์ง ์์
- coerce : ์ซ์๋ก ๋ณ๊ฒฝํ ์ ์๋ ๊ฐ์ NaN์ผ๋ก ์ค์
- raise : ์ซ์๋ก ๋ณ๊ฒฝํ ์ ์๋ ๊ฐ์ด ์์ผ๋ฉด ์๋ฌ ๋ฐ์(default)
โข ์ค๋ณต ์์๋ฅผ ์ญ์ df['column'].drop_duplicates()
โฃ ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์/๋ด๋ฆผ์ฐจ์ ์ ๋ ฌ ํ, ์์์ n๊ฐ์ ํ์ ์ถ๋ ฅ
df.nlargest(n, columns, keep='first')
df.nsmallest(n, columns, keep='first')
keep : {first, last, all} ๋์ผํ ๊ฐ์ผ๊ฒฝ์ฐ ์ด๋ ํ์ ์ถ๋ ฅํ ์ง ์ ํจ (first : ์, last : ์๋, all : ๋ชจ๋ ์ถ๋ ฅ)
๐ฆพ๊ฐ์ ํด์ผ ํ ์
TIL์ 1์ผ์ฐจ๋ถํฐ ์ฐจ๋ก๋๋ก ์ฐ๋ ค๊ณ ํ๋ ์ ์ ๋ฐ๋ฆฐ๋ค ..๐
๊ฐ๋ฅํ ๋ฐ๋ฆฌ์ง ์๊ณ ์์ฑํ ์ ์๋๋ก.. ํ์ ๋ด์ ..!!!
'STARTERS 4๊ธฐ > [STARTERS] TIL' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[STARTERS 4๊ธฐ TIL] #6์ผ์ฐจ(23.02.13) (0) | 2023.02.19 |
---|---|
[STARTERS 4๊ธฐ TIL] #5์ผ์ฐจ(23.02.10) (1) | 2023.02.17 |
[STARTERS 4๊ธฐ TIL] #3์ผ์ฐจ(23.02.08) (0) | 2023.02.13 |
[STARTERS 4๊ธฐ TIL] #2์ผ์ฐจ(23.02.07) (0) | 2023.02.12 |
[STARTERS 4๊ธฐ TIL] #1์ผ์ฐจ(23.02.06) (0) | 2023.02.12 |