상세 컨텐츠

본문 제목

판다스 - 01 (Pandas)

데이터분석

by 아리벱 2024. 5. 28. 15:06

본문

idol2.csv
0.00MB

 

idol.csv
0.00MB

 

위의 csv 파일은 판다스 라이브러리 활용해보기 위한 데이터 파일입니다.

 

데이터 분석을 위해 정말 자주 쓰이는 라이브러리 '판다스'가 있습니다. 판다스는 표 형태의 데이터과 같은 데이터 프레임을 활용할 수 있습니다. 

 

오늘은 판다스 라이브러리에 대해 알아보겠습니다.

 

1. 판다스(Pandas)

  • 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석
  • 데이터프레임(DataFrame)이라는 자료구조를 제공

 

 

 

2. Series와 DataFrame

2-1. Series

  • Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냄
  • Series의 각 요소는 인덱스(index)와 값(value)으로 구성되어 있음
  • 값은 넘파이의 ndarray 기반으로 저장됨
  • Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있음

 

 

2-2. DataFrame

  • 데이터프레임은 판다스 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로 2차원의 테이블 형태 데이터를 다룸
  • 데이터프레임의 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있음
  • 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있음
  • 값은 넘파이의 ndarray 기반으로 저장

2-3. 딕셔너리를 사용하여 데이터프레임을 생성하기

 

3. CSV 파일 읽어오기

  • csv(Comma Separated Value)의 약자로 데이터를 쉼표로 구분한 파일

 

 

4. 데이터프레임 기본정보 알아보기

5. 데이터 다루기

 

 

예제를 통해 익혀보겠습니다.

문제

  • 키가 180cm 이상인 연예인의 이름, 성별, 키, 브랜드평판지수를 출력
  • 단, loc를 사용

6. 결측값(Null, NaN)

  • 비어있는 값, 판다스에서는 NaN(Not a Number)로 표기 된 것은 모두 결측값으로 취급

 

 

loc을 사용하여 예제를 풀어보도록 하겠습니다.

문제

  • 회사가 있는 연예인의 이름, 회사, 키를 출력
  • 단, loc를 사용

7. 행, 열 추가 및 삭제하기

  • 행을 추가할 때 dict 형태의 데이터를 만들고 append() 메서드를 사용하여 데이터를 추가
  • ignore_index=True 옵션을 추가해야 에러가 발생하지 않음

문제

  • '김사과'님의 국적을 '미국'으로 변경
  • 단, loc를 사용

 

8. 통계 함수

 

 

9. 그룹

 

 

문제1

  • 혈액형별로 그룹을 맺어, 키의 평균값을 확인

문제2

  • 혈액형별로 그룹을 맺고, 성별로 또 그룹을 나눈 후 키의 평균값을 확인

10. 중복값 제거하기

 

'데이터분석' 카테고리의 다른 글

가상 온라인 쇼핑몰 데이터  (0) 2024.05.31
Matplotlib  (0) 2024.05.28
판다스 - 02 (Pandas)  (0) 2024.05.28
크롤링(Crawling)  (0) 2024.05.27
Numpy(넘파이)  (0) 2024.05.24

관련글 더보기