1. 판다스(pandas)란?

데이터셰프
2020-12-21
조회수 2529

1. 판다스(Pandas)란?

판다스에 대한 소개는 나무위키의 내용으로 대체합니다.

‘판다스(pandas)는 파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 소프트웨어 라이브러리이다. 판다스는 수치형 테이블과 시계열 데이터를 조작하고 운영하기 위한 데이터를 제공하는데, 3조항 BSD 라이선스 조건 하에서 무료로 사용 가능하다. 판다스의 이름은 계량 경제학에서 사용되는 용어인 'PANel DAta'의 앞 글자를 따서 지어졌다. 당연히 실제 동물인 판다와는 아무런 관련이 없지만, 이름이 이름이니만큼 각종 개발 관련 사이트에서 판다 이미지를 활용하여 판다스를 소개하곤 한다. 판다스는 R에서 사용되던 data.frame 구조를 본뜬 DataFrame이라는 구조를 사용하기 때문에, R의 data.frame에서 사용하던 기능 상당수를 무리없이 사용할 수 있도록 만들었다. 더욱이 파이썬이라는 접근성이 좋은 언어 기반으로 동작하기 때문에 데이터 분석을 파이썬으로 입문하는 사람들이 필수적으로 사용하는 라이브러리가 되었다.’


한마디로 파이썬에서 데이터를 조작하고 분석하기 쉽게하기 위한 라이브러리 입니다. (R에서는 패키지 = 꾸러미라고 부르는데 파이썬에서는 라이브러리라고 부르네요.)


2. 판다스를 사용하는 이유?

1. 파이썬의 데이터 조작 기능을 강화

 파이썬은 범용 프로그래밍 랭귀지입니다. 소프트웨어 개발을 위해서는 익히기도, 이해하기도 쉽게 제작되었지만, 본격적인 데이터 조작과 분석을 위해서는 어려움이 많습니다. 하지만 파이썬에 판다스를 붙여서 사용하게 되면 데이터 조작에 특화된 함수를 사용하여 데이터 조작과 분석이 한결 쉬워지게 됩니다. 또한 파이썬 만으로는 구현하기 어려운 조인(join)이나 그룹핑(group-by) 기법 등도 사용할 수 있습니다.


2. 대표적 데이터 관련 라이브러리

판다스는 파이썬에서 데이터를 조작함에 있어 대표적인 라이브러리로 자리잡았습니다. 그렇기 때문에 다른 사람이 판다스로 작성한 코드를 공유하여 쉽게 활용할 수도 있습니다.


3. 데이터 프레임 조작에 특화

데이터 프레임(dataframe)은 데이터 조작과 분석에는 표준과 같은 구조입니다. 판다스는 R의 데이터 프레임 구조를 차용하여 사용합니다. 데이터 프레임을 인덱싱(indexing)하여 사용하면 데이터 조작과 분석이 보다 용이하게 됩니다.


다음 그림은 판다스 치트시트(cheat sheet) 입니다. 치트시트란 자주 사용되는 내용을 빠르게 사용할 수 있게 요약해 놓은 요약 문서 같은 것입니다. 앞으로 치트 시트의 내용 위주로 포스트를 정리해 나가겠습니다. R dplyr 과 문법 비교도 진행하겠습니다.

또, 실습용 데이터는 '모두의 R 데이터 분석'에서 사용하는 레스토랑 예약/매출 비즈니스 데이터를 사용하겠습니다.


0 0

Data Chef.

datachef00@gmail.com

ⓒ 2020 Data Chef.

Hosting by I'M Datachef

Data Chef.
e-Mail

datachef00@gmail.com


Seoul, Korea  ㅣ  Biz License 000-00-00000  ㅣ Hosting by Datachef.