위의 csv 파일은 판다스 라이브러리 활용해보기 위한 데이터 파일입니다.
데이터 분석을 위해 정말 자주 쓰이는 라이브러리 '판다스'가 있습니다. 판다스는 표 형태의 데이터과 같은 데이터 프레임을 활용할 수 있습니다.
오늘은 판다스 라이브러리에 대해 알아보겠습니다.
1. 판다스(Pandas)
- 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석
- 데이터프레임(DataFrame)이라는 자료구조를 제공
2. Series와 DataFrame
2-1. Series
- Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냄
- Series의 각 요소는 인덱스(index)와 값(value)으로 구성되어 있음
- 값은 넘파이의 ndarray 기반으로 저장됨
- Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있음
2-2. DataFrame
- 데이터프레임은 판다스 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로 2차원의 테이블 형태 데이터를 다룸
- 데이터프레임의 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있음
- 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있음
- 값은 넘파이의 ndarray 기반으로 저장
2-3. 딕셔너리를 사용하여 데이터프레임을 생성하기
3. CSV 파일 읽어오기
- csv(Comma Separated Value)의 약자로 데이터를 쉼표로 구분한 파일
4. 데이터프레임 기본정보 알아보기
5. 데이터 다루기
예제를 통해 익혀보겠습니다.
문제
- 키가 180cm 이상인 연예인의 이름, 성별, 키, 브랜드평판지수를 출력
- 단, loc를 사용
6. 결측값(Null, NaN)
- 비어있는 값, 판다스에서는 NaN(Not a Number)로 표기 된 것은 모두 결측값으로 취급
loc을 사용하여 예제를 풀어보도록 하겠습니다.
문제
- 회사가 있는 연예인의 이름, 회사, 키를 출력
- 단, loc를 사용
7. 행, 열 추가 및 삭제하기
- 행을 추가할 때 dict 형태의 데이터를 만들고 append() 메서드를 사용하여 데이터를 추가
- ignore_index=True 옵션을 추가해야 에러가 발생하지 않음
문제
- '김사과'님의 국적을 '미국'으로 변경
- 단, loc를 사용
8. 통계 함수
9. 그룹
문제1
문제2
- 혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈 후 키의 평균값을 확인
10. 중복값 제거하기