분석 결과는 잘 알겠어, 하지만 어떤 과정을 거쳐야 이런 결과를 얻을 수 있는 건데?
‘모두의 R 데이터 분석’ 서문에서도 밝혔듯이 본 책은 입문자 시절의 나에게 스스로에게 답을 하는 책입니다.
"분석 결과는 잘 알겠어, 하지만 어떤 과정을 거쳐야 이런 결과를 얻을 수 있는 건데?"
이란 물음에 말이죠. 안타깝게도 과거에도 그리고 지금도 제 물음에 명쾌하게 답을 주는 책은 많지 않았습니다. 이상하죠? 데이터 분석 서적이라고 출간된 대다수의 책들이 분석 기법과 이론은 자세히 다루지만, 어떤 상황에서 어떻게 사용해야 한다는 내용을 다루는 책은 찾아보기 어려우니 말이죠. 사실 기법이나 이론 보다는 이런 과정이 어찌 보면 입문자들이 더 알고 싶은 내용일텐데 말입니다. 그래서 집필 방향을 정했습니다. ‘입문서지만 분석 과정도 함께 다루자. 그래야 입문자들을 위한 입문서다’. R 데이터 분석은 R을 사용하지만 굳이 R이 아니더라도 사용자의 상황에 맞게 응용이 가능하게 구성되어 있습니다. 또한 실무에서 자주 사용하는 패턴인 1.처리하고 → 2.그려보며 → 3.이해한다는 내용으로 구성했습니다.
<처리하고 그려보며 이해한다>
데이터 분석과정은 요리하는 과정과 비슷하다
데이터 분석 과정은 요리하는 과정과 상당히 유사합니다. 요리하는 과정은 상식적으로 많은 사람들이 알고 있습니다. 그렇다면 데이터 분석 과정을 요리하는 과정에 비유하면 어떨까요? 기존작 ‘모두의 SQL’도 그랬지만 모두의 R 데이터 분석도 ‘실무적으로, 핵심만, 쉽게’라는 집필 의도가 바닥에 깔린 책입니다. 모두의 R 데이터 분석은 다음 처럼 데이터 분석을 요리하는 과정에 비유합니다.
<변수와 함수 설명>
<변수에 담는 과정 표현>
물론 데이터 분석과 요리하는 과정의 모든 것이 딱 들어 맞는 것은 아니지만, 사실을 왜곡하지 않는 선에서 최대한 들어맞게 비유했습니다. 구글에서 데이터 프레임 구조 설명과 모두의 R 데이터 분석의 데이터 프레임 데이터 구조 설명을 비교해 보시기 바랍니다.
<데이터 프레임 : 구글에서>
“데이터 프레임은 R에서 사용하는 2 차원 데이터 구조이며, 구성 요소의 길이가 같은 리스트의 특수한 구조라 할 수 있습니다. 각 구성 요소는 열을 형성하고 구성 요소의 내용은 행을 형성합니다."
<데이터 프레임 : 모두의 R 데이터 분석에서>
"엑셀(excel)의 데이터 시트를 생각하면 됩니다. 각 열에는 데이터 값을 대표하는 열이름이 정해지고, 각 행에는 매번 관측해서 얻은 실제 데이터 값이 존재합니다."
적절한 넓이로, 약간의 깊이도 있으면서……어찌되었든 큰 그림은 다 보여줬다
'모두의 SQL’이 SQL 기능과 SQL의 활용한 데이터 분석 방법에 집중했다면, 모두의 R 데이터 분석은 R의 기능과 활용을 넘어서서, 데이터 분석 과정에도 촛점을 맞춘 책입니다. 과거 저의 의문에 답을 하기 위해서 필수적인 것들을 책에 담다 보니, 모두의 R 데이터 분석은 적절한 넓이의 지식과 적절한 깊이를 갖게 되었습니다. 다시 말하면 집필시 의도했던 데이터 분석의 큰 그림은 모두 담았다고 생각합니다. 실제로 중간 중간 실제로 현장에서 쓰이는 마케팅 분석 기법도 포함시켰습니다.
사실 쓸 내용이 너무나 많았지만, 많은 내용을 쳐내고 다이어트 해서 나온 것이 모두의 R 데이터 분석입니다. 분량도 어떻게든 더 줄여보려고 했지만 줄일 내용이 없었습니다. 412 페이지이지만 쉽게 설명하다 보니 늘어난 분량이니 만큼, 독자분들에게는 크게 부담스럽게 느껴지진 않을 것이라 생각합니다.
<RFM 기법 설명>
<데이터 분석 결과>
이번에도 스토리텔링이다
모두의 R 데이터 분석에서 김아루 과장은 전작인 ‘모두의 SQL’의 최분석 과장의 스토리를 이어받아 R을 사용해 데이터 분석을 진행하게 됩니다. 그 과정에서 의미있는 것을 찾아내기도 하고, 또 가설이 틀리기도 합니다. 우리가 실무를 할 때와 유사하다고 할까요? 실제 이야기 처럼 꾸민 데이터 분석 과정은 아무래도 독자들에게 더 잘 와 닿습니다. (참고로 김아루 과장의 ‘아루’는 R → 알 → 아르 → 아루 입니다.)
<스토리를 담은 구성>
‘모두의 R 데이터 분석’과 ‘모두의 SQL’은 이어진다
모두의 R 데이터 분석은 지식의 확장 측면이나, 분석 프로젝트 스토리 상으로나 모두의 SQL의 속편과 같은 느낌의 책입니다. 그래서 모두의 SQL을 먼저 접하고 모두의 R 데이터 분석을 접하면 데이터 분석에 대한 이해도가 훨씬 높아질 것입니다. 아, 물론 두 서적은 사용 랭귀지도, 접근 방법도 완전히 다르기 때문에 어느 한 쪽만 봐도 전혀 문제 없도록 구성했습니다.
작중에 나오는 씨퀄 에프엔비의 씨퀄이라는 의미가 속편이라는 의미도 가지고 있는 것을 알고 계시나요? 어쩌면 모두의 SQL이 속편으로 계속 이어질 것을 암시하는 회사 이름이었을지도요.
#R #R분석 #데이터분석 #R통계 #R프로그래밍 #모두의SQL #데이터 #셰프 #데이터셰프
목차
1장. 데이터 분석과 요리
UNIT 1 처리하고 그려 보며 이해하기
UNIT 2 데이터 분석 = 맛있는 요리하기
정리
2장. R 알아보기
UNIT 1 R이란
UNIT 2 R과 비슷한 분석 프로그램들
UNIT 3 R과 데이터 마이닝
정리
3장. R 설치 및 기본 사용 방법 익히기
UNIT 1 R 설치
UNIT 2 RStudio 설치
UNIT 3 RStudio와 R의 기본 사용 방법 이해
정리
4장. 요리 재료 특성 알기: 데이터의 종류, 구조, 형태
UNIT 1 데이터 종류
UNIT 2 데이터 구조
UNIT 3 데이터 형태
정리
5장. 요리 도구 준비: 변수와 함수, 그리고 패키지
UNIT 1 변수: 요리 그릇
UNIT 2 함수: 요리 도구
UNIT 3 패키지: 요리 도구 세트
정리
6장. 기초 요리법 익히기: R 연산자와 함수
UNIT 1 R 연산자와 함수
UNIT 2 연산자
UNIT 3 데이터 가져오기와 내보내기
UNIT 4 데이터 확인
UNIT 5 데이터 조작
UNIT 6 데이터 계산
UNIT 7 데이터 그리기
UNIT 8 그 외 반복문과 사용자 정의 함수
정리
잠깐만요: 필독! 7~9장 비즈니스 데이터 실습을 하기 전 사전 작업
7장. 재료 다루는 법 익히기: 데이터 처리를 위한 dplyr 패키지
UNIT 1 dplyr 패키지 설치와 파이프 연산자
UNIT 2 행 요약과 그룹화
UNIT 3 행 조작
UNIT 4 열 조작
UNIT 5 테이블 조작
UNIT 6 dplyr 패키지 함수를 잘 사용하는 법
정리
8장. 데커레이션 익히기: 데이터 그리기, ggplot2 패키지
UNIT 1 ggplot2 패키지
UNIT 2 ggplot2 패키지 설치와 기본 문법
UNIT 3 산점도: 흩어진 정도 확인
UNIT 4 막대 그래프: 데이터 크기 비교
UNIT 5 히스토그램: 도수 분포 확인
UNIT 6 파이 차트: 상대적 크기 확인
UNIT 7 선 그래프: 추세 확인
UNIT 8 상자 그림: 데이터 분포 확인
UNIT 9 ggplot2 그래프를 잘 활용하는 방법
정리
잠깐만요: 기초 통계 이론과 통계적 가설 검정
9장. 더 맛있는 요리하기: 멤버십 기획 프로젝트
UNIT 1 김아루 과장과 함께 멤버십 기획 프로젝트 시작
UNIT 2 빈도 분석: 지점별 예약 건수와 매출은 어떻게 될까?
UNIT 3 교차 빈도 분석: 지점별 메뉴 아이템 주문 비율은?
UNIT 4 RFM 분석: 우리 회사의 고객 현황은 어떨까?
UNIT 5 상관 분석: 스테이크와 와인은 관계가 있을까?
UNIT 6 의사 결정 나무: 어떤 고객이 스테이크를 주문할까?
UNIT 7 분석 결론: 최종 멤버십 프로그램 결정
분석 결과는 잘 알겠어, 하지만 어떤 과정을 거쳐야 이런 결과를 얻을 수 있는 건데?
‘모두의 R 데이터 분석’ 서문에서도 밝혔듯이 본 책은 입문자 시절의 나에게 스스로에게 답을 하는 책입니다.
"분석 결과는 잘 알겠어, 하지만 어떤 과정을 거쳐야 이런 결과를 얻을 수 있는 건데?"
이란 물음에 말이죠. 안타깝게도 과거에도 그리고 지금도 제 물음에 명쾌하게 답을 주는 책은 많지 않았습니다. 이상하죠? 데이터 분석 서적이라고 출간된 대다수의 책들이 분석 기법과 이론은 자세히 다루지만, 어떤 상황에서 어떻게 사용해야 한다는 내용을 다루는 책은 찾아보기 어려우니 말이죠. 사실 기법이나 이론 보다는 이런 과정이 어찌 보면 입문자들이 더 알고 싶은 내용일텐데 말입니다. 그래서 집필 방향을 정했습니다. ‘입문서지만 분석 과정도 함께 다루자. 그래야 입문자들을 위한 입문서다’. R 데이터 분석은 R을 사용하지만 굳이 R이 아니더라도 사용자의 상황에 맞게 응용이 가능하게 구성되어 있습니다. 또한 실무에서 자주 사용하는 패턴인 1.처리하고 → 2.그려보며 → 3.이해한다는 내용으로 구성했습니다.
<처리하고 그려보며 이해한다>
데이터 분석과정은 요리하는 과정과 비슷하다
데이터 분석 과정은 요리하는 과정과 상당히 유사합니다. 요리하는 과정은 상식적으로 많은 사람들이 알고 있습니다. 그렇다면 데이터 분석 과정을 요리하는 과정에 비유하면 어떨까요? 기존작 ‘모두의 SQL’도 그랬지만 모두의 R 데이터 분석도 ‘실무적으로, 핵심만, 쉽게’라는 집필 의도가 바닥에 깔린 책입니다. 모두의 R 데이터 분석은 다음 처럼 데이터 분석을 요리하는 과정에 비유합니다.
<변수와 함수 설명>
<변수에 담는 과정 표현>
물론 데이터 분석과 요리하는 과정의 모든 것이 딱 들어 맞는 것은 아니지만, 사실을 왜곡하지 않는 선에서 최대한 들어맞게 비유했습니다. 구글에서 데이터 프레임 구조 설명과 모두의 R 데이터 분석의 데이터 프레임 데이터 구조 설명을 비교해 보시기 바랍니다.
<데이터 프레임 : 구글에서>
“데이터 프레임은 R에서 사용하는 2 차원 데이터 구조이며, 구성 요소의 길이가 같은 리스트의 특수한 구조라 할 수 있습니다. 각 구성 요소는 열을 형성하고 구성 요소의 내용은 행을 형성합니다."
<데이터 프레임 : 모두의 R 데이터 분석에서>
"엑셀(excel)의 데이터 시트를 생각하면 됩니다. 각 열에는 데이터 값을 대표하는 열이름이 정해지고, 각 행에는 매번 관측해서 얻은 실제 데이터 값이 존재합니다."
적절한 넓이로, 약간의 깊이도 있으면서……어찌되었든 큰 그림은 다 보여줬다
'모두의 SQL’이 SQL 기능과 SQL의 활용한 데이터 분석 방법에 집중했다면, 모두의 R 데이터 분석은 R의 기능과 활용을 넘어서서, 데이터 분석 과정에도 촛점을 맞춘 책입니다. 과거 저의 의문에 답을 하기 위해서 필수적인 것들을 책에 담다 보니, 모두의 R 데이터 분석은 적절한 넓이의 지식과 적절한 깊이를 갖게 되었습니다. 다시 말하면 집필시 의도했던 데이터 분석의 큰 그림은 모두 담았다고 생각합니다. 실제로 중간 중간 실제로 현장에서 쓰이는 마케팅 분석 기법도 포함시켰습니다.
사실 쓸 내용이 너무나 많았지만, 많은 내용을 쳐내고 다이어트 해서 나온 것이 모두의 R 데이터 분석입니다. 분량도 어떻게든 더 줄여보려고 했지만 줄일 내용이 없었습니다. 412 페이지이지만 쉽게 설명하다 보니 늘어난 분량이니 만큼, 독자분들에게는 크게 부담스럽게 느껴지진 않을 것이라 생각합니다.
<RFM 기법 설명>
<데이터 분석 결과>
이번에도 스토리텔링이다
모두의 R 데이터 분석에서 김아루 과장은 전작인 ‘모두의 SQL’의 최분석 과장의 스토리를 이어받아 R을 사용해 데이터 분석을 진행하게 됩니다. 그 과정에서 의미있는 것을 찾아내기도 하고, 또 가설이 틀리기도 합니다. 우리가 실무를 할 때와 유사하다고 할까요? 실제 이야기 처럼 꾸민 데이터 분석 과정은 아무래도 독자들에게 더 잘 와 닿습니다. (참고로 김아루 과장의 ‘아루’는 R → 알 → 아르 → 아루 입니다.)
<스토리를 담은 구성>
‘모두의 R 데이터 분석’과 ‘모두의 SQL’은 이어진다
모두의 R 데이터 분석은 지식의 확장 측면이나, 분석 프로젝트 스토리 상으로나 모두의 SQL의 속편과 같은 느낌의 책입니다. 그래서 모두의 SQL을 먼저 접하고 모두의 R 데이터 분석을 접하면 데이터 분석에 대한 이해도가 훨씬 높아질 것입니다. 아, 물론 두 서적은 사용 랭귀지도, 접근 방법도 완전히 다르기 때문에 어느 한 쪽만 봐도 전혀 문제 없도록 구성했습니다.
작중에 나오는 씨퀄 에프엔비의 씨퀄이라는 의미가 속편이라는 의미도 가지고 있는 것을 알고 계시나요? 어쩌면 모두의 SQL이 속편으로 계속 이어질 것을 암시하는 회사 이름이었을지도요.
#R #R분석 #데이터분석 #R통계 #R프로그래밍 #모두의SQL #데이터 #셰프 #데이터셰프
목차
1장. 데이터 분석과 요리
UNIT 1 처리하고 그려 보며 이해하기
UNIT 2 데이터 분석 = 맛있는 요리하기
정리
2장. R 알아보기
UNIT 1 R이란
UNIT 2 R과 비슷한 분석 프로그램들
UNIT 3 R과 데이터 마이닝
정리
3장. R 설치 및 기본 사용 방법 익히기
UNIT 1 R 설치
UNIT 2 RStudio 설치
UNIT 3 RStudio와 R의 기본 사용 방법 이해
정리
4장. 요리 재료 특성 알기: 데이터의 종류, 구조, 형태
UNIT 1 데이터 종류
UNIT 2 데이터 구조
UNIT 3 데이터 형태
정리
5장. 요리 도구 준비: 변수와 함수, 그리고 패키지
UNIT 1 변수: 요리 그릇
UNIT 2 함수: 요리 도구
UNIT 3 패키지: 요리 도구 세트
정리
6장. 기초 요리법 익히기: R 연산자와 함수
UNIT 1 R 연산자와 함수
UNIT 2 연산자
UNIT 3 데이터 가져오기와 내보내기
UNIT 4 데이터 확인
UNIT 5 데이터 조작
UNIT 6 데이터 계산
UNIT 7 데이터 그리기
UNIT 8 그 외 반복문과 사용자 정의 함수
정리
잠깐만요: 필독! 7~9장 비즈니스 데이터 실습을 하기 전 사전 작업
7장. 재료 다루는 법 익히기: 데이터 처리를 위한 dplyr 패키지
UNIT 1 dplyr 패키지 설치와 파이프 연산자
UNIT 2 행 요약과 그룹화
UNIT 3 행 조작
UNIT 4 열 조작
UNIT 5 테이블 조작
UNIT 6 dplyr 패키지 함수를 잘 사용하는 법
정리
8장. 데커레이션 익히기: 데이터 그리기, ggplot2 패키지
UNIT 1 ggplot2 패키지
UNIT 2 ggplot2 패키지 설치와 기본 문법
UNIT 3 산점도: 흩어진 정도 확인
UNIT 4 막대 그래프: 데이터 크기 비교
UNIT 5 히스토그램: 도수 분포 확인
UNIT 6 파이 차트: 상대적 크기 확인
UNIT 7 선 그래프: 추세 확인
UNIT 8 상자 그림: 데이터 분포 확인
UNIT 9 ggplot2 그래프를 잘 활용하는 방법
정리
잠깐만요: 기초 통계 이론과 통계적 가설 검정
9장. 더 맛있는 요리하기: 멤버십 기획 프로젝트
UNIT 1 김아루 과장과 함께 멤버십 기획 프로젝트 시작
UNIT 2 빈도 분석: 지점별 예약 건수와 매출은 어떻게 될까?
UNIT 3 교차 빈도 분석: 지점별 메뉴 아이템 주문 비율은?
UNIT 4 RFM 분석: 우리 회사의 고객 현황은 어떨까?
UNIT 5 상관 분석: 스테이크와 와인은 관계가 있을까?
UNIT 6 의사 결정 나무: 어떤 고객이 스테이크를 주문할까?
UNIT 7 분석 결론: 최종 멤버십 프로그램 결정