메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

데이터 과학을 위한 통계(2판)

데이터 분석에서 머신러닝까지 파이썬과 R로 살펴보는 50가지 핵심 개념

한빛미디어

번역서

판매중

  • 저자 : 피터 브루스 , 앤드루 브루스 , 피터 게데크
  • 번역 : 이준용
  • 출간 : 2021-05-07
  • 페이지 : 380 쪽
  • ISBN : 9791162244180
  • 물류코드 :10418
  • 구판정보 :이 도서는 <데이터 과학을 위한 통계>의 개정판입니다. 구판 정보 보기
  • 초급 초중급 중급 중고급 고급
4.8점 (16명)
좋아요 : 13

파이썬과 R로 필요한 만큼만 배우는 실용주의 통계학

 

통계 기법은 데이터 과학의 핵심이지만, 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 데이터 과학의 관점에서 통계 핵심 개념과 기법을 필요한 것만 골라 소개한다. 50가지 개념을 차근차근 정리하고 코드를 실행해보면, 필수 통계 지식을 빠르게 흡수할 수 있다. 2판에는 기존 R 코드와 호응하는 파이썬 코드를 새롭게 추가했다. 이 책으로 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭나길 바란다.

 

 

주요 내용 

  • 데이터 과학의 초석인 탐색적 데이터 분석 시작하기
  • 임의표본추출로 편향을 줄이고 고품질 데이터셋을 얻는 방법
  • 실험설계 원칙을 적용해 타당한 결론을 도출하고 명확한 답을 찾는 방법
  • 회귀분석으로 결과를 추정하고 이상을 탐지하는 방법
  • 범주를 예측하고 찾아내는 주요 분류 기법
  • 데이터로 학습하는 통계적 머신러닝 기법
  • 레이블 없는 데이터에서 의미를 추출하는 비지도 학습 기법

 

 

추천사

다른 통계 교과서나 머신러닝 매뉴얼과는 차별되는 책이다. 통계 용어와 오늘날 데이터 마이닝 용어를 연결해 설명한다는 점에서 훨씬 낫다. 설명은 간명하고 예제도 많다. 데이터 과학 입문자와 숙련자 모두에게 권할 만한 레퍼런스다.

_갈리트 시뮤엘리, 『비즈니스 애널리틱스를 위한 데이터마이닝』 주 저자

 

상세이미지_데이터 과학을 위한 통계(2판).jpg

 

피터 브루스 저자

피터 브루스

통계 교육기관 Statistics.com 설립자. Statistics.com은 100여 개 통계 강의를 제공하며 그중 3할은 데이터 과학자가 대상이다. 치밀한 마케팅 전략을 수립해 최고 수준의 전문 데이터 과학자들을 강사로 모집해왔다. 이 과정에서 데이터 과학자를 위한 통계라는 주제에 대해 폭넓은 시야와 전문적 식견을 쌓았다.

 

앤드루 브루스 저자

앤드루 브루스

데이터 과학 실무 전문가. 30년 이상 학계, 정부, 기업계에서 통계학과 데이터 과학을 연구했다. 워싱턴 대학교에서 통계학 박사학위를 땄고 학술지에 여러 논문을 발표했다. 저명한 금융회사부터 인터넷 스타트업에 이르기까지 업계에서 발생하는 폭넓은 문제에 대해 통계 기반 솔루션을 개발했고, 데이터 과학의 실무 활용 측면에서 전문가로 인정받고 있다.

 

피터 게데크 저자

피터 게데크

데이터 과학자. 과학 계산과 데이터 과학 분야에서 30년 이상의 경험을 가지고 있다. 노바티스(Novartis)에서 계산화학자로 20년 동안 근무했고, 현재 컬래버레이티브 드러그 디스커버리(Collaborative Drug Discovery)에서 선임 데이터 과학자로 근무하며 약물 후보 물질의 생물학적, 물리화학적 특성을 예측하기 위한 머신러닝 알고리즘을 개발하는 일을 전문적으로 한다. 『Data Mining for Business Analytics』(Wiley, 2019)의 공동 저자이다. 프리드리히 알렉산더 대학교에서 화학 박사학위를 받았으며 독일 하겐 통신대학교(Fernuniversität in Hagen)에서 수학을 전공했다.

이준용 역자

이준용

인공지능과 빅데이터 기술에 관심이 많은 연구원. 한국과학기술원(KAIST)에서 전자공학 박사학위를 받고, 일본 ATR IRC 연구소에서 인간-로봇 상호작용에 대해 연구했으며, 미국 아이오와 주립대학교에서 대사회로 관련 데이터베이스를 구축했습니다. 2014년부터 2021년까지 미국 퍼시픽 노스웨스트 국립연구소에서 다양한 생명과학 연구에 참여했습니다. 현재는 한 바이오텍 기업에서 수석 데이터 과학자로 암 진단과 관련된 일을 하고 있습니다.

CHAPTER 1 탐색적 데이터 분석

1.1 정형화된 데이터의 요소

1.2 테이블 데이터

1.3 위치 추정

1.4 변이 추정

1.5 데이터 분포 탐색하기

1.6 이진 데이터와 범주 데이터 탐색하기

1.7 상관관계

1.8 두 개 이상의 변수 탐색하기

1.9 마치며

 

CHAPTER 2 데이터와 표본분포

2.1 임의표본추출과 표본편향

2.2 선택편향

2.3 통계학에서의 표본분포

2.4 부트스트랩

2.5 신뢰구간

2.6 정규분포

2.7 긴 꼬리 분포

2.8 스튜던트의 t 분포

2.9 이항분포

2.10 카이제곱분포

2.11 F 분포

2.12 푸아송 분포와 그 외 관련 분포들

2.13 마치며

 

CHAPTER 3 통계적 실험과 유의성검정

3.1 A/B 검정

3.2 가설검정

3.3 재표본추출

3.4 통계적 유의성과 p 값

3.5 t 검정

3.6 다중검정

3.7 자유도

3.8 분산분석

3.9 카이제곱검정

3.10 멀티암드 밴딧 알고리즘

3.11 검정력과 표본크기

3.12 마치며

 

CHAPTER 4 회귀와 예측

4.1 단순선형회귀

4.2 다중선형회귀

4.3 회귀를 이용한 예측

4.4 회귀에서의 요인변수

4.5 회귀방정식 해석

4.6 회귀진단

4.7 다항회귀와 스플라인 회귀

4.8 마치며

 

CHAPTER 5 분류

5.1 나이브 베이즈

5.2 판별분석

5.3 로지스틱 회귀

5.4 분류 모델 평가하기

5.5 불균형 데이터 다루기

5.6 마치며

 

CHAPTER 6 통계적 머신러닝

6.1 k-최근접 이웃

6.2 트리 모델

6.3 배깅과 랜덤 포레스트

6.4 부스팅

6.5 마치며

 

CHAPTER 7 비지도 학습

7.1 주성분분석

7.2 k-평균 클러스터링

7.3 계층적 클러스터링

7.4 모델 기반 클러스터링

7.5 스케일링과 범주형 변수

7.6 마치며

데이터 분석에서 머신러닝까지 50가지 핵심 개념

파이썬과 R 코드를 실행해보며, 필요한 만큼만 배운다!

 

많은 데이터 과학자가 통계 개념을 이해하지 못해 한계에 부딪힌다. 문제가 조금만 복잡해도 어디서부터 어떻게 해결해야 할지 몰라 당황하거나, 출력한 결과를 이해하지 못해 난감해하기 일쑤다. 이 책은 통계 지식에 목마른 현업 데이터 과학자와 인공지능 개발자를 위해 쓰였다. 목표는 다음 두 가지다. 

  • 첫째, 데이터 과학과 관련된 통계의 핵심 개념을 소화하기 쉽고 따라 하기 쉽게 소개한다.
  • 둘째, 데이터 과학의 관점에서 어떤 개념이 정말 중요하고 유용한지, 어떤 개념이 덜 중요한지 구분해 알게 한다. 

 

EDA, 표본분포, 유의성 검정, 회귀분석, 분류, 통계적 머신러닝, 비지도 학습 등 오늘날 데이터 분석과 머신러닝 분야에서 널리 사용하는 주제로 구성했고, 데이터 과학자가 꼭 알아야 하는 개념을 50여 가지만 ‘콕’ 집어 정리했다. 자유도, p 값, 상관계수 등 고전 통계에서 중요하게 생각하는 개념 중, 빅데이터를 다루는 데이터 과학자가 세부 사항까지 자세히 알 필요가 없는 것은 그에 맞게 안내한다. 주요 절마다 ‘용어 정리’와 ‘주요 개념’을 정리해 학습 편의를 높이고, 같은 용어라도 통계학, 데이터 과학, 컴퓨터 과학에서 저마다 다르게 쓰는 경우에는 그 차이점을 정리했다.

 

2판의 가장 큰 특징은 새로 제공하는 파이썬 코드다. 파이썬 코드를 싣기 위해 과학 계산과 데이터 과학 분야에서 30년 이상의 경력을 갖춘 저자가 새로 투입됐다. 파이썬이나 R, 둘 중 하나만 다룰 줄 알아도 책의 내용을 이해하고 코드를 실행해볼 수 있다. 모두 다룰 줄 안다면 두 언어 간의 구현 차이를 비교하는 재미가 쏠쏠할 것이다.

 

일반인 대상의 통계책은 시시하고 전공 수준의 통계학 교과서는 어려워 엄두가 안 난다면, 이 책을 징검다리 삼아 통계 지식과 통계적 사고력을 키워보길 바란다. 누구든 이 책을 끝까지 잘 마치면, 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭날 수 있다.

R이나 파이썬 프로그래밍 언어에 익숙하고 통계학을 접해본 경험이 있는 데이터 과학자들을 대상으로 한다.

이 책에서 소개하는 모든 방법은 통계학과 어느 정도 연관되어 있다.

신경망과 같이 주로 컴퓨터 과학에서 진화한 방법은 다루지 않는다.

이 책의 기본 목표는 다음과 같다.

- 데이터 과학과 관련된 통계의 핵심 개념들을 소화하기 쉽고, 따라 하기 쉽게 소개하며, 참조할 만한 읽을거리를 정리한다.

- 데이터 과학의 관점에서 어떤 개념들이 정말 중요하고 유용한지, 어떤 개념들이 덜 중요하고 그 이유는 무엇인지 설명한다.

 

- 대학교 때 통계와 관련된 과목들을 몇 학기 동안 들었던 경험 덕분에 이 책에 나오는 통계와 관련된 대부분의 용어들이 낯설지가 않아서 책을 보는 데 큰 어려움은 없었다. 추억이 소환 되는 짧은 시간이었다.

- 독자들에 대한 지은이들과 옮긴이의 세심한 배려와 꼼꼼한 구성이 매우 감동적이었다.

- 요즘의 시대에 데이터 과학과 빅데이터 분석에 대한 관심이 폭발적인 트랜드를 반영하여 파이썬과 R 언어에 대한 소스 코드를 동시에 제공한 것도 독자의 한 사람으로써 매우 기분이 좋았다.

- 조금 아쉬운 점은 통계학, 파이썬, R에 대한 기초 지식이 전혀 없는 독자라면 이 책을 보기가 쉽지 않겠다는 개인적인 생각이다.

- 이 책은 전통적인 통계학에 대한 책이 아니기 때문에 데이터 과학의 관점에서 통계 핵심 개념과 기법을 필요한 것만 골라 소개한다.

 

- 이 책에 나오는 50가지 개념을 차근차근 정리하고 코드를 실행해보면, 필수 통계 지식을 빠르게 익힐 수 있는 장점도 있다.

Practical Statistics for Data Scientists

 

한빛미디어에서 낸 해외개발서 번역책이다.

 

데이터 분석에서 러닝머신까지 R과 파이썬을 이용해 핵심 개념을 설명한다.

 

이 책에도 언급되었지만, 파이썬이나 프로그래밍 언어에 익숙하고 통계학을 접해본 사람들에게 유용한 책이다.

 

나는 경제학과 복수전공을 하면서 통계학 과목을 2개 수강했고, 본 전공이 컴퓨터공학 유사학과라 프로그래밍 언어에 익숙하다. 그리고 인공지능 국비과정을 수료해서 많이는 몰라도 머신러닝, 딥러닝을 경험해보았다.

 

아주 기본부터 알려주진 않지만, 하나의 핵심 개념을 자세하게 알려주는 편이다. 예제가 함께 있어서 더욱 이해를 높여준다. 차례를 보니까 통계학, 머신러닝 공부할 때 공부한 개념들이 보인다. 중요한 개념은 모두 포함되어 있어서 다음 단계를 공부하기를 위한 도약 or 스스로의 레벨을 확인하는데 좋을 것 같다.

 

이 책의 장점 중 하나는 R과 파이썬 코드를 제공한다는 것이다.

 

어떤 패키지의 메소드를 사용했다는 설명은 있지만, 자세한 코드 설명은 없다.

 

나는 R이랑 파이썬 데이터 분석을 경험해봐서 눈에 익숙하다.

 

그래프나 이미지를 필수로 넣는다. 자주 노트(note)나 주의(caution)란 메모를 남김으로 기본 설명을 보충한다.

 

이런 구성을 보면서 지식이 있는 상태에서 성장하는, 확인하는 공부를 위한 개념서로 딱이란 생각이 들었다.

 

오랜만에 통계 공부하니까 너무 재밌다. 개념 설명은 춘춘하게 잘 되어있고 목차나 구성 체계가 깔끔해서 더욱 맘에 든 책이다. 그리고 아직 초판이라 그런지 몰라도 오탈부분이 드문드문 보인다.

 

완전 모든 것을 처음부터 설명하는 책은 아니지만, 한 개념에 대해서 꼼꼼하게 설명한다. 그리고 부족한 부분에 대해서 메모가 항상 붙어있고 더 부족하면 읽을 거리를 안내한다.

 

정말 이 책 하나 독파하면 많이 성장할 수 있을 것 같다.

 


[대상 독자]

- 통계학을 전공으로 공부하지 않은 데이터 과학자

- 통계 이론을 몰라 어려움을 겪는 데이터 과학자

- 필요한 이론을 적재적소에 활용하고 싶은 데이터 과학자

- 일반인 대상의 통계책은 너무 쉽게 느껴지는 사람

- 파이썬이나 R언어에 익숙한 사람


[주요 내용]

-데이터 과학의 초석인 탐색적 데이터 분석 시작하기

-임의표본추출로 편향을 줄이고 고품질 데이터셋을 얻는 방법

-실험설계 원칙을 적용해 타당한 결론을 도출하고 명확한 답을 찾는 방법

-회귀분석으로 결과를 추정하고 이상을 탐지하는 방법

-범주를 예측하고 찾아내는 주요 분류 기법

-데이터로 학습하는 통계적 머신러닝 기법

-레이블 없는 데이터에서 의미를 추출하는 비지도 학습 기법


[서평]


각 장의 내용중 어려운 용어에 대해서 따로 찾아 보지 않게 용어 정리 해서 보기가 편하다.


개념 설명부분에서 핵심 개념은 마지막에 정리해서 한눈에 볼수 있다.



책에서 못다룬 내용은 더 읽을 거리로 인터넷에서 찾아 볼수 있게 url을 제공 하고 있다.


비슷한 용어와 혼돈 하기 쉬운 용어를 쉽게 설명 하고 있다.


수식에 대해서 note로 좀더 자세하게 보충 설명을 한다.


저자의 내공이 담겨 있는 노하우 팁을 얻을수 있다.


실습 코드는 R과 파이썬의 코드를 제공 하고 있다.


이 책은 R이나 파이썬 프로그래밍 언어에 익숙하고 이전에 통계학을 잠깐이라도 접해본 경험이 있는 데이터 과학자들이 보면 좋은 책이다. 이 책에서 소개하는 방법은 통계학과 어느 정도 연관되어 있다. 데이터 과학과 관련된 통계의 핵심 개념을 쉽게 배우고, 따라 하기 쉽게 소개하며, 참조할 만한 읽을 거리를 정리한다. 데이터 과학의 관점에서 어떤 개념들이 정말 중요한지 그 이유를 잘 설명 하고 있다.

 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

#데이터과학 #통계핵심 #데이터분석 #머신러닝통계 #통계추천

작년부터 인공지능과 딥러닝을 공부하면서 통계 기초가 정말 중요하다는 것을 절감했다.

데이터 분석과 머신러닝, 더 나아가 딥러닝을 하기 위해서는 통계의 핵심 내용을 이해해야 그다음 단계로 나아갈 수 있기 때문이다. 

특히, 모두의연구소 인공지능혁신학교 AIFFEL 졸업하고 퍼실로 학생들을 코칭하는 입장이 되어보니 더 절실할 수밖에 없었다.

근데, 생각보다 데이터 과학에 정말 필요한 부분만 추려서 핵심 개념을 이해하기 쉽게 정리된 책을 찾기 어려웠다.

최근에 출간된 '데이터 과학을 위한 통계'는 정말 최고의 책이라고 추천할 수 있다. 

캐글 대회라도 나갈 때 가장 기본 중 기본이라 할 수 있는 '탐색적 데이터 분석(EDA, Exploratory Data Analysis)'의 기본 개념과 시각화 부분으로 시작해서, 데이터와 표본 분포, 통계적 실험과 유의성 검정, 회귀와 예측, 분류, 통계적 머신러닝, 비지도 학습으로 목차가 정말 필요한 부분으로 잘 짜여 있다. 

최근에 추천 분야를 공부하면서 '멀티 암드 밴딧(MAB, Multi-armed bandit) 알고리즘'을 스터디 친구들과 함께 파고 있는데, 어쩜 이렇게 쉽게 설명해 주고 있는지 감탄하면서 읽었다. '톰슨 샘플링(Thompson's sampling)'의 '베타 분포(Beta Distribtion)'를 이렇게 짧고 간단하고 명쾌하게 설명해 주다니! 이 개념을 제대로 알고 그때 공부를 했더라면 시간을 얼마나 절약할 수 있었을까? 역시 통계는 기초 공사가 명확해서 그 위에 쌓이는 지식들이 무너지지 않는 것 같다. 

또한 마케팅 그로스 해킹 분야에서 가장 많이 사용되는 A/B 테스트 실험 설정을 위해서 기초적으로 알아야 할 통계 개념과 유의성 검정 방법에 대해서 정말 쉽게 정리되어 있다. 

중간에 필요한 주요 코드들은 파이썬과 R로 제공되고 있으므로, 본인이 적용해 보고 싶은 프로그램 코드에 바로 삽입해서 돌려볼 수도 있다. 

이 책의 뒷부분에도 강조되어 있는데, '파이썬과 R로 필요한 만큼만 배우는 실용주의 통계학'이라는 설명이 정말 딱 들어맞는다고 볼 수 있다. 

데이터 분석가를 지향하거나, 머신러닝이나 딥러닝을 공부하는데 통계적인 기본 지식이 없어서 계속 방해받는다는 느낌이 드신다면 이 책을 통해서 그 답답함을 해소하시길 권해드린다. 

이 책을 6개월 전에 알았더라면 모두연 AIFFEL 퍼실을 진행할 때 훨씬 학생들에게 도움이 많이 줬을 텐데, 지금 알게 되어 좀 미안하다는 생각이 든다. ^^

 



출처: https://yesicakim.tistory.com/entry/서평-데이터-과학을-위한-통계 [또하나의가능성]

# 데이터 과학을 위한 통계(2판)

 

- 숫자를 싫어하고, 수학 및 통계에 대한 지식이 없는 사람이더라도 의사소통이 숫자로 이뤄지는 것을 더 편하다고 생각하는 사람들이 있습니다. 특히 사회생활을 하거나 경제활동을 하는 사람이라면 숫자로 말하고 듣고 하는 것을 중요하게 생각합니다.

- 특히 어떤 결과에 대해 보고를 하거나, 의견을 나눌 때 숫자는 반드시 필요한 요소입니다. 대화에 숫자를 제외하면 다음과 같이 애매모호한 상황이 발생합니다.

  - 이번 프로젝트 성과는 전년도 보다 많이 좋아졌습니다. (그래서 얼마나 좋아졌는지?)

  - 전년도 매출 대비 금년도 매출 실적이 하락하였습니다. (그래서 얼마나 하락했는지?)

- 통계학은 다른 사람에게 명확한 결과를 받아들이고, 불필요한 커뮤니케이션 비용을 줄이는데 효과적입니다. 때로는 부차적인 설명 보단 숫자로 결과를 얘기하는 것이 매우 효과적이고, 사실적입니다.

 

 

- 때로는 통계학은 범람하는 숫자들 속에서 유의미한 요소를 찾을 수 있습니다.

- 사람은 숫자로 얘기하는 것을 추상적인 표현으로 얘기하는 것보다 받아들이기 쉽지만, 단순한 숫자들의 나열은 숫자가 내포하는 핵심을 파악하기는 힘들어합니다. 그래서 주어진 숫자들을 그림으로 표현하는 작업을 수행합니다. 그림은 빠른 시간 내에 생각보다 많은 정보를 획득할 수 있도록 도와줍니다.

 

 

## 데이터 과학이란?

 

- 이제는 데이터 과학, 빅데이터, 머신러닝과 같은 단어들이 상당히 많은 사람들에게 친숙한 상황이 되었습니다.

- 제가 생각하는 데이터 과학이란 주어진 데이터 속에서 유의미한 정보를 찾아내고, 이를 활용하는 것이라고 생각합니다. 그렇기 때문에 데이터 과학은 상당수 많은 부분을 통계학과 공유합니다. (통계학을 다른 말로 표현하거나, 통계학을 사용한 하나의 응용 분야이기도 합니다.)

 

 

## 데이터 과학을 위한 통계(2판)는 어떤 책이었나?

 

- 통계학의 무서운 수학으로부터 안전하다.

  - 파이썬 코드를 기반으로 통계학에서 사용하는 기초적인 개념부터 머신러닝 알고리즘까지 **개념**과 **코드**를 주로 다룹니다. 주로 통계학을 사용한 다양한 사용법을 공부하는 응용에 집중하였습니다.

- 각 예제에 대한 시각화가 매우 잘 되어있다.

  - 개발자가 변수(또는 함수 등) 이름을 어떻게 지으면 좋을까? 하며 고민하는 것과 같이, 시각화는 데이터를 다루는 사람이라면 어떻게 표현하는 것이 좋을까?를 고민합니다. 주어진 결과를 바탕으로 어떤 의사결정을 내릴 자료이기 때문입니다.

  - 이 책을 보면서 '굳이 관련 전공자가 아니어도 읽어봐도 좋겠는데?'라는 생각이 들었습니다. 복잡한 알고리즘을 이해하지 못하더라도(또는 필요하지 않더라도) 데이터의 형식과 이를 그래프로 표현하는 방법을 배우는데 매우 효과적이라 생각합니다.

- `더 읽을 거리`를 제공하여 추가적인 **학습에 대한 방향**을 제시한다.

 

 

## 통계는 정말 필요할까?

 

- 숫자를 잘 다루는 기술은 강력한 무기를 들고 있는 것과 같은 것이라 생각합니다.

- 이러한 무기를 들고 있다면, 필요한 상황에서 긍정적인 부분을 강조할 수 있고, 불필요한 상황에선 부정적인 부분을 감출 수 있습니다.

 

 

- 즉 통계학은 자신이 활용할 때는 예리한 무기로 사용할 수 있고, 상대방이 활용할 때는 단단한 방패가 되어 현혹되지 않도록 도와줍니다. 따라서 강력한 무기와 방패를 사용할 수 있도록, 통계 공부는 가히 필수라고 얘기하고 싶습니다.

 

> 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

'데이터 과학을 위한 통계' 책은 각종 통계 지식을 간단하지만 폭 넓게 설명하고 코드 수준의 예시까지 제공하기에 실무적으로 익히기에도 상당히 유익합니다. 특히 후반부부터는 머신러닝도 다루는데 이 부분은 상당히 괜찮았습니다. 특히 자격증 취득을 위한 시험 준비를 위해서 보는 교과서로는 상당히 괜찮은 책인 것 같습니다. 컴퓨터 관련 기술사부터 TOPCIT(소프트웨어 역량지수)에도 머신러닝 내용이 나오는데 이 교재를 보면 기본적인 답은 서술할 수 있게 됩니다. '데이터 과학을 위한 통계' 책에서는 '1장 탐색적 데이터 분석'을 시작으로 '2장 데이터와 표본분포', '3장 통계적 실험과 유의성검정', '4장 회귀와 예측', '5장 분류', '6장 통계적 머신러닝', '7장 비지도 학습'으로 이루어져 있는데 본인의 경우 용어가 낯설어서 전체 내용을 한번 읽고 여러번 내용을 반복해서 봐야했었습니다. 책의 구성은 참 좋은데 제 전문 분야가 아니다보니 빠르게 뇌로 수용되는 것 같지는 않습니다. 지금도 사실 좀 이해가 된 상태가 아닌데 여러번 더 볼 예정입니다. 구성뿐만 아니라 번역도 잘 되어있어서 읽기가 수월한 편입니다. 빠르게 통계와 머신러닝을 파이썬으로 코딩하면서 알고자하는 분에게 추천하는 책입니다.

 

01.jpg

 

 

통계와 함께 데이터 과학을 맛볼 수 있는 책입니다. 

2판부터 R과 Python 코드를 함께 제공하고 있어 더욱 유용합니다.

 

통계학과 데이터 과학의 만남: 데이터 과학을 위한 통계, 2판

 

데이터의 중요성이 날로강조되는 요즘이다. 최근 화두인 4차 산업 혁명의 핵심 기술은관점에 따라 여러가지로 나눌 수 있지만, 인공지능과 데이터 활용 기술은 핵심 중의 핵심이라는 데 이견이별로 없을 것이다. 인공지능이 21세기에 들어 각광받게 된데에는 컴퓨팅 파워의 급격한 발전, 인터넷 등 초고속 네트워크를 기반으로 하는 통신 기술과 함께 스마트폰 등 다양한 장치로부터 생산되는 대용량의 데이터가 큰 역할을 했다. 머신 러닝으로 대표되는 최근의인공지능 기술은 학습을 위한 대용량의 데이터가 필수적이다. 이렇게만 보면 4차 산업 혁명의 핵심이 데이터라고 해도 과언이 아닐 것이다.

이렇게 데이터, 특히 과거에는 생각할 수도 없을 만큼 대량의 데이터를처리하는 방법은 데이터 과학이라는 분야를 더욱 활발히 발전시키고 있다. 전통적으로 대량의 데이터를 다루는학문은 통계학이었다. 통계학은 현재의 데이터 과학에서도 여전히 유효하며, 데이터 과학을 발전시키는 큰 축을 이루고 있다. 실제로 데이터 과학은통계학, 컴퓨터 과학, 정보 기술, 도메인 특화 영역 등 여러 분야의 융합 학문이라고 할 수 있다.

 

 

001.png

 

 

 

데이터 과학을 위한 통계(2)’은 데이터 과학과 관련된 통계의 핵심 개념들을 알기 쉽게 소개하며, 데이터과학의 관점에서 통계학의 많은 개념 중, 어떤 내용이 중요하고, 유용한지과학적인 이유를 들며 설명하고 있다

이 책은 7개의 챕터()로 구성되어 있다. 1, ‘탐색적데이터 분석에서는 테이블 데이터, 위치 및 변이 추정, 데이터 분포 탐색에 대해 다룬다. 2, ‘데이터와 표본 분포는 임의표본추출과 표본편향, 선택편향과 함께 정규 분포, 긴 꼬리 분포, 이항분포, 푸아송 분포 등 다양한 분포에 대해 소개한다. ‘통계적 실험과 유의성검정이라는 주제의 3장은 A/B검정, 가설검정, 재표본추출, 다중검정, 자유도및 검정력과 표본 크기 등을 이야기하고 있다. 4장의 회귀와예측에서는 단순 선형 회귀, 다중 선형 회귀, 회귀를 이용한 예측 및 회귀방정식 해석, 회귀진단, 다항회귀와 스플라인 회귀에 대해 다룬다. 5분류는 나이브 베이즈, 판별분석, 로지스틱 회귀, 분류 모델 평가 방법과 함께 불균형 데이터를 어떻게다루어야 하는지 소개한다. ‘통계적 머신러닝6장은 k-최근접 이웃, 트리모델, 배깅과 랜덤 포레스트, 부스팅의 소주제를 이용하여 데이터에 따라유연하게 지역적으로 학습하는 분류와 예측방법을 다룬다. 비지도학습은 레이블이 달린 데이터를 이용해 모델을학습하는 과정없이 데이터로부터 의미를 이끌어 내는 통계적 기법을 의미하는데, 7장은 이를 다루고 있다. 7장에서는 수치형 데이터의 차원을 축소하기 위해 주로 사용하는 방법인 주성분분석과 k-평균 클러스터링을 소개하고, 수치형과 범주형이 혼합된 데이터 유형에적용할 수 있는 계층적 클러스터링, 통계 이론에 기초를 두고 더 엄밀한 접근 방식을 제시하는 모델 기반클러스터링의 내용도 포함한다.

 이책은 R이나 파이썬 프로그래밍에 익숙하고, 이전에 통계학을잠깐이라도 접해본 경험이 있는 데이터 과학자를 대상으로 하고 있다. 2판으로 개정되면서 파이썬 코드가추가되어, R 뿐만 아니라 파이썬을 이용하여 실습을 진행할 수 있다.책의 중간 중간 주요 개념을 정리해주어 독자로하여금 어디에 초점을 두고 책을 읽어야 하는지, 그리고 핵심 내용을 잘 이해하고 있는 지 살펴볼 수있도록 하고 있다. 더불어 더 읽을 거리를 통해 책에서 다루고 있지 못한 내용이나 관련 자료를 찾아볼 수 있도록 안내하고 있다. ‘데이터 분석에서 머신 러닝까지, 파이썬과 R로 살펴보는 50가지 핵심 개념이라는부제처럼 이 책은 머신러닝을 포함한 데이터 과학 전반을 통계적 관점에서 깊이 있게 다루고 있어 데이터 과학을 배우고자 하는 독자들에게 좋은 참고서가될 것이다.

 

** 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

[나의 한줄 추천사]

파이썬으로 데이터 분석부터 머신러닝까지 깊게 배우고 싶다면 이책을 보라!

[책 추천 이유]

데이터 분석관련 책들은 대부분 R 로 작성되는 경우가 많은데 이책은 'R' 과 '파이썬' 동시에 제공해준다. 무엇보다도 통계학을 바탕으로 깊이있게 이야기해줌으로써 왜 이렇게 동작하는지에 대한 궁금증을 해소시켜 준다.

[내가 찾고자 했던 질문과 대답들]

1. 데이터 분석을 잘하려면 무엇을 알아야하는가?

- 데이터 분석을 하면서 계속 막히는 부분이 통계의 복잡한 용어와 실행된 결과의 해석 부분일것 같다.이책에서는 데이터 분석을 하기위한 EDA 부터 비지도 학습까지 꼭 필요한 부분에 대해서 깊게 짚어주고 있다.

2. EDA(탐색적 데이터 분석) 할때 무엇이 중요한가?

- 데이터 형태 및 분포가 중요하다. 데이터 형태는 수치형, 연속형, 이산, 범주형, 이진, 순서형의 데이터 형태를 파악해야 한다. 그 다음 데이터의 평균, 중간값, 특잇값등을 확인하여 데이터 의 도수분포표, 히스토그램, 상관관계를 파악한다.

3. 표본추출은 왜 필요한가, 어떤 방법으로 가능한가?

- 데이터의 질과 적합성을 일정 수준 이상으로 담보할수 없으면서 데이터 크기만 늘어나는 상황이다. 오히려 데이터를 효과적으로 다루기 위해서는 "데이터 편향"을 최소화하기 위한 방법으로 임의표본추출이 더 필요하다. 방법으로 "표본분포","부트스트랩(관찰된 데이터로부터 복원추출하는 방법)","정규분포", 통해서 가능하다.

4. 데이터 분석을 위한 실험은 어떻게 하는가?

- 가설을 세우고, 실험을 설계, 데이터를 수지바 추론 및 결론을 돌출한다. 직관적인 "재표본추출(부트스트랩)" 과정을 거쳐 우연에 의한 변이가 어느 정도까지 영향을 미치는 측정할수 있다.

5. 좀더 알고 싶다면?

- 코드 예제를 직접 실습하면서 하나씩 코드로 보면서 책을 보면 좀더 효과적이다.

https://github.com/gedeck/practical-statistics-for-data-scientists

2018년 말에 1판 번역서가 출간된 후로, 약 2년 반만에 새롭게 개정 2판으로 나온 Practical Statistics for Data Scientists(데이터 과학을 위한 통계) 입니다. 믿고 보는 오라일리의 데이터 과학 서적인데요.

제 경우, 작년에 해당 도서의 1판을 공부하며 많은 도움을 받았었는데, 이때 R로 작성된 예제를 참고하면서 약간 아쉬움을 느꼈던 기억이 납니다. Python에 비해 R은 상대적으로 익숙치 않아서, 종종 직관적으로 이해하기 어려웠던 것이 가장 큰 문제였는데요. 

 

이번 2판에서는 기존 R코드로 작성된 예제와 대응되는 Python 코드를 추가로 삽입했다고 합니다. R에 완전히 대응하는 Python 코드가 추가 되었다는 것만으로도 분명 대상 독자가 훨씬 늘어나게 될 것이고, 기존 독자 입장에서도 무척 환영할만한 일입니다. 학부에서 R 수업도 수강한 적이 있고, 종종 사용할 일이 있었지만, 아직까지도 Python에 비하면 R은 너무 익숙치 않네요. ??

 

이미 시중에 수많은 데이터 과학 서적이 출간되어 있고, ML/DL을 비롯하여 여러 최신 기술을 다루는 서적 또한 그득그득 합니다. 하지만 그 수많은 책들 가운데서, 본 도서는 학습에 가장 큰 도움이 되었던 책 중 하나라고 단언할 수 있을 것 같습니다.

 

지난 해, 학부에서 데이터 과학 동아리의 리드를 맡아 일년 간 운영하였던 경험이 있습니다. 이때 겪었던 어려움 중 하나는 강의의 커리큘럼을 짜는 일이었는데요. 통계학 등의 관련 전공이 아니라는 점을 감안하여, 기초적인 통계학의 비중을 높여서 강의를 준비할 필요가 있었습니다. 이때 많은 데이터 과학 교재를 검토해보면서 최종적으로 사용했던 책이 본 도서(데이터 과학을 위한 통계 1판)와 밑바닥부터 시작하는 데이터과학 (1판) 이었습니다.

밑바닥부터 시작하는 데이터 과학이 여러 콘셉트를 다루면서, 전반적인 데이터 과학에 대한 이해 증진을 위해 활용할 수 있었다면, 본 도서는 데이터 과학의 학습을 위해 반드시, 필수적으로 알고 있어야 할 여러 통계 지식을 실용적으로 학습할 수 있는 내용을 제공하였습니다. 

 

예컨대, 본 도서의 세 번째 챕터에서는 대조군의 이야기부터 시작해서 A/B 테스트, 가설검정의 개념과 표본추출, 통계적 유의성 검증 등과 같은 통계학 개론의 내용을 여러가지 예제 코드와 함께 제공합니다. 이미 진보된 여러 기술을 다루는(특히 컴퓨터과학에 기반한) 도서들은 이런 기초 통계적 내용을 다룰만한 여력이 없고, 다루는 것도 크게 의미가 없습니다. 그렇다고, 데이터 과학을 공부하기 위해서 학부 통계학 개론서를 처음부터 통독하는 것도 무리가 있습니다.

이러한 상황에서, 가장 최적화 된 도서가 바로 '데이터 과학을 위한 통계' 라고 생각합니다. 아주 기초적인 통계학 개념부터 시작해서, 회귀, 분류, 머신러닝, 비지도 학습까지 쭉쭉 맛을 볼 수 있는, 그야말로 데이터 과학 입문자를 위한 통계 입문서와 같은 책인데요. 특히, 이제 막 데이터 과학에 입문하려는 입문자, 또는 관련 분야의 비전공자 등, 기초를 쌓아야 될 필요가 있거나, 기초적인 부분에서 훈련이 조금 부족했던 분들에게는 정말 단비 같은 교재가 될 것입니다.

 

실제로 저자는 본 책의 목표를 다음 두 가지로 정의합니다.

 - 데이터 과학과 관련된 통계의 핵심 개념들을 소화하기 쉽고, 따라 하기 쉽게 소개하며, 참조할 만한 읽을거리를 정리한다.

 - 데이터 과학의 관점에서 어떤 개념들이 정말 중요하고 유용한지, 어떤 개념들이 덜 중요하고 그 이유는 무엇인지 설명한다.

 

저는 아직까지도 데이터 과학 또는 관련 분야에 관심을 가지고, 공부를 시작하려는 이들에게 가장 먼저 강력히 추천해주는 책이 본 도서입니다. 이번에 Python과 함께하는 2판이 추가되어서, 정말 기쁠 따름입니다 :)

 

예전에 공부하던 때에 Python 예제 코드가 함께 있었다면 정말 많은 도움을 받았을 것이란 아쉬움도 있었지만, 이번 '나는 리뷰어다'의 서평 도서로 본 도설르 받게 되어, 오랜만에 복습 할 기회를 얻을 수 있어서 한편으로는 무척 좋았습니다.

 

 

모쪼록, 데이터 과학에 관심이 있는 모든 분들에게, 강력히 추천드립니다!

 

 

본 리뷰는 한빛미디어의 도서 서평단 <나는 리뷰어다 2021> 프로그램의 일환으로, 무상으로 도서를 증정 받고 작성된 리뷰임을 고지합니다.


 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

데이터 과학을 위한 통계 2판/한빛미디어

 

나는 통계학을 전공하지 않았고, 데이터 사이언스 분야에서 업무를 하지도 않는다.

굳이 분야를 설명하자면 데이터 사이언티스트가 업무를 하기 위해 데이터를 수집하는 일을 하고 있는데 다음에 업무를 확장하게 된다면 아마도 데이터 사이언티스트 분야가 될 것 같아 어떤 분야인지 감을 잡아보기 위해 골랐던 책이다.

결론부터 말하면 너무나 지극히 통계학적이라 관련 공부를 했거나 업무에 종사하지 않는다면 이해하기 매우 어려운 책이고,

파이썬과 R 코드가 들어있으나 이 역시 파이썬과 R로 데이터 분석을 늘상 하는 사람들에게 유용한 코드이다.

당장 파이썬과 R을 시작하려면 무엇부터 해야하는지 모르는 나에게는 너무 생소한 책이었다.

책은 총 7장으로 구성되어있고, 각 장 마다 설명하고자 하는 개념의 원천과 한계점, 더 읽을 거리(주로 관련 서적이나 논문)를 소개해주는 방식으로 구성되어 있었다.

개념은 앞서 말했듯 이 분야의 초심자나 관심이 있는 일반인을 위한 수준은 아니고, 어느정도 현업에서 기초 체력 이상을 길러온 사람들이나 관련 대학/대학원 전공을 이수한 사람들을 대상으로 하기 때문에 몇 번 읽어서 이해가 될 만한 수준은 아니었다.

책 소개에서도 기초 통계학에 대한 설명을 다룬 책이 너무 쉽게 느껴지는 사람을 대상으로 한다고 했으니 내가 적절한 책을 고르지 않은 것은 맞다.

다만 현재 데이터 사이언티스트라는 직함으로 일을 하는 사람들이라면 이 정도의 통계학 지식은 베이스로 가지고 있겠구나, 라는 생각과

나중에 데이터 사이언티스트 업종으로 이직을 하려면 이 책에 있는 내용 정도는 알고 있어야 겠구나 라는 느낌을 갖게 됐는데

데이터 사이언티스트로 이직은 어렵겠다는 결론이 났다...! 혹시 모른다. 한 1년 뒤에는 내가 이 책 쯤이야 하는 정도의 지식을 갖게 되어있을지. 지금은 그렇지 않다는거다.

그럼에도 포기하지 않고 꿋꿋하게 3장까지 읽어봤고, 나의 이해 정도는 책 내용을 알듯 말듯 하면서도 책을 덮고 누군가에게 설명을 하라고 하면 한 마디도 꺼내지 못할 수준이었다.

데이터 사이언티스트 분야로의 포지션 이동에 대한 한계점을 마주하게 해준 책이다.

 



달마다 그렇듯 한빛미디어<나는 리뷰어다> 활동을 위해서 책을 제공받았습니다.

 

머신러닝 하면 또 통계가 빠질수 없지.

 

ㅌㄱ.jpg

 

 

그래서 '고성능 파이썬' 대신 이거를 신청해서 읽었다.

 

마침 학교에서 확률과 통계 독후감 쓰기도 있었고, 학교에서 배우는 내용이랑 관련해서 더 생각해 볼 만한 것들을 기대하고 읽게 되었다.

개인적으로 확통에선 국어와 연산을 잘해야하는 '확률' 파트 보다 코끼리를 먹은 보아뱀이 등장하는 '통계' 파트를 더 선호한다.

 

그래도 아직 이 분야에선 머리가 파릇파릇 해서 그런지 다소 어려운내용이 좀 있었다.

그래도 전에 몇번 접해본 K-최근접이웃이라던지(가장 가까운 곳에 사는 대단한 이웃집 한국인 아님)

 

완전히는 아니지만 단순선형회귀처럼 신경망이나 머신러닝 책에서나온 내용들은 그나마 읽을 수 있었다.

솔직히 진짜 어렵게 느껴진 이유는 '전문용어'가 조금 많아서 그런 듯하다.

 

'이거는 이거야. 그래서이렇게 돼!' 하면 '아하!'하고 이해하고 넘어갈 만한 개념들이 몇몇 있지만, 조금 있다가 그게 단어로 또 나오면 '어 이게 뭐였지?' 가 된다.

결국은 본인 기억력 문제.

 

 

데이터과학을 위한 통계적 개념을 설명하는 책인 많큼, 필수적인 내용만 설명해주고 더 관심있을 사람들을 위해 파트별로 책이나 논문같은 '더 읽을거리'를 추천해주는 건 좋은 것 같다!

 

나중에-아마 대학갈때쯤? 관련 개념에 대해 이 책을 찾아볼 때 참고해야겠다.

 

 

 

요즘 한빛에서 나오는 오라일리 책들이 컬러여서 읽을 때 좋은것 같다.



 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
이전 버전을 읽었는데 이전 버전은 R 코드만 제공되서 파이썬으로 머신러닝을 주로 하던 입장에서 조금 불편했는데 새로운 버전에서는 파이썬 코드가 제공되서 일단 너무 좋았습니다.
머신러닝을 처음 입문하시는 분들이 통계의 기본적인 개념을 별로 중요하지 않게 생각하고 넘어가는데 통계의 기본적인 개념을 알고 접근하는 것과 그렇지 않은 것은 알고리즘을 이해하는 부분에서 많은 차이가 나는것 같습니다.
이 책은 이러한 기본적인 통계의 개념을 쉽게 설명합니다.
최근에 치러진 빅데이터 분석기사 필기 시험에서도 통계의 개념들이 많이 출제되었는데 비 전공자들이 이 책을 읽고 시험에 응시했으면 많은 도움이 되었을 것 같습니다.

데이터 과학을 위한 통계 : 데이터 분석에서 머신러닝까지 파이썬과 R로 살펴보는 50가지 핵심 개념

 

 

 

1.jpg

 

2.jpg

 

 

 

이 책은 R이나 파이썬 프로그래밍 언어에 익숙하고 이전에 통계학을 잠깐이라도 접해본 경험이 있는 데이터 과학자들을 대상으로 한다.

 

- 데이터 과학을 위한 통계 中 -

 

지난 리뷰에 이어 이번 리뷰도 어려운 분야를 하게 되었습니다 ^^;;

그래도 시대가 시대인 만큼, 그리고 IT를 배우고 적용하는 사람으로서 반드시 익숙해져야 될 분야라고 생각되어

리뷰를 하게 되었는데요! IT 모든 분야에 진심인 제가, 오늘도 열심히 리뷰 해보도록 하겠습니다!

 

 

 

데이터 분석에서 머신러닝까지

 

파이썬과 R로 살펴보는 50가지 핵심 개념

 

 

 

 

DAY 1, 2, 3

 

- 데이터 과학 프로젝트의 첫걸음 -

 

파트 1, 2, 3

 

 

프로젝트를 시작해보자!

 

 

3.jpg

 

4.jpg

 

5.jpg

 

6.jpg

 

7.jpg

 

 

처음부터 쉽지 않은 서적임을 느끼며 책장을 넘겨 보았습니다. 혹시나 했더니 역시나! 그래도 재미있게 읽어 보겠습니다 :)

 

 

1장에서는 데이터 과학 분야의 초석이라고 할 수 있는 존 투키에 의해 시작된 탐색적 데이터 분석에 대하여 다룹니다, 탐색적 데이터 분석의 핵심은 바로, 데이터를 다루는 모든 프로젝트에서 가장 우선적이며 가장 중요한 과정이 데이터를 들여보는 데에 있다는 것입니다.

1장에서는 위치와 변이 추정 같은 간단한 계측에서부터 다변량 간의 관계를 살펴보기 위한 다양한 시각화 기법까지 살펴봅니다.

주제를 세분화하여 설명하는 방식, 중간에 caution이라고 하여 주의사항까지 꼼꼼하게 설명해 주는 모습이 인상적입니다.

 

그림과 소스코드도 이해하기 쉽게 색상으로 잘 분류해 놓았습니다, 다만 과목 자체가 굉장히 어려운 분야이다 보니 더 많이 신경 쓰며 작업하신 것 같습니다. 박수를 보내드리고 싶습니다.

주요 개념과 더 읽을거리도 굉장히 도움이 많이 되었습니다, 요약해 주는 방식 그리고 추천 서적이나 사이트도 명시해 놓았기 때문에 어려운 길을 조금 더 쉽게 걸어가는 느낌도 많이 받았습니다.

 

2장에서는 데이터와 표본분포에 대하여 다룹니다.

빅데이터 시대에 정확한 추정이 요구되는 경우, 임의표본추출의 원칙을 지키는 것이 매우 중요한데, 데이터를 무작위로 선택해 주어진 데이터를 그냥 사용하는 것보다 편향을 줄이고 질적으로 더 좋은 데이터를 얻을 수 있기 때문입니다.

 

마지막으로 Day 3일차에는 3장을 쭉 살펴봤습니다.

3장에서는 통계적 실험과 유의성검정이라는 주제인데, 실험 설계 원칙을 통해 실험이 얼마나 잘 진행되었는지 타당한 결론을 도출하는 것, 데이터 과학자들이 직관적인 재표본추출 과정을 통해 데이터 분석에서 우연에 의한 변이가 어느 정도까지 영향을 미치는지 측정할 수 있는 것까지 중요한 내용을 쭉 살펴본 것 같습니다. 중간중간에 나오는 통계적인 용어, 그리고 개념 설명, 수학적인 지식까지 천천히 소스코드도 분석해보며 검색하고 이해하며 보니 한결 수월해진 느낌입니다.

 

 

 

 

DAY 4, 5, 6

 

회귀와 예측 그리고 분류

 

파트 4, 5, 6

- 통계적 머신러닝까지! 데이터 과학자가 되기 위한 길 -

 

 

대표사진 삭제

사진 설명을 입력하세요.

 

 

8.jpg

 

9.jpg

 

10.jpg

 

11.jpg

 

 

12.jpg

 

13.jpg

 

14.jpg

 

 

 

 

4일차부터 시작된 4챕터 공부는 역시 한층 심화된 느낌입니다.

4챕터에서는 회귀와 예측에 대하여 다루는데, 여러 예측변수와 결과변수 간의 관계를 설정하는 과정, 즉 회귀만큼 오랫동안 사용되어온 통계 방법에 대한 것, 기본 형태는 선형, 예측변수는 결과변수와의 선형 관계를 뜻하는 계수를 갖는 것, 다항회귀나 스플라인 회귀와 같이 일반 회귀보다 발전된 형태에서는 비선환 관계도 가능하다는 것 등 어려운 통계적인 개념과 내용이 많이 있습니다.

4장부터는 정독을 추천해 드립니다.

 

5장에서는 분류에 대하여 다룹니다. 분류란 어떤 레코드가 두 가지 이상의 범주 중 어디에 속하는지를 예측하는 프로세스로, 예측 분석을 위한 기본적인 도구인데 음.. 뭐 예를 들면 이런 것입니다.

서적에도 나와있지만, 대출을 갚지 못할 것인가(예/아니오)? 이런 질문처럼 보통, 이러한 분류 문제에서 한 클래스가 주요 관심 사항이며, 이진 분류에서 이 클래스를 1로 지정하고 다른 클래스는 0으로 지정한다. 이 프로세스의 핵심은 관심 있는 클래스에 속할 확률인 경향 점수를 추정하는 것입니다.

 

일주일 안으로 6장까지 빠르게 보려니, 굉장히 타이트하고 놓치는 부분도 많았습니다. 더 자세한 내용은 서적에 기술되어 있으니

꼭 구매하여 참고해 주시길 바랍니다 ^^

 

이번 주에 마지막 6장에서는 통계적 머신러닝에 대한 주제로 시작합니다. 여기서부터는 배운 개념과 알고 있는 개념도 있어서 많이 친숙했던 챕터인 것 같습니다.

6장에서는 전체 데이터에 맞는 형태가 딱 정해진 모델보다는 데이터에 따라 유연하면서 지연적으로 학습해가는 두 가지 분류와 예측 방법을 다룹니다. k-최근접 이웃 알고리즘 방법은 해당 레코드와 비슷한 주변 데이터를 찾아보고 주변 데이터들이 가장 많이 속한 클래스를 찾아 그것을 해당 레코드에 대한 예측값으로 할당하는 아주 간단한 방법입니다. 트리 모델에서는 여러 가지 가능한 예측변수의 컷오프 값들을 기준으로 나눠보고 분할 영역의 클래스에 대한 동질성이 가장 많이 증가하는 방향으로 데이터를 분할합니다.

 

 

점점 더 어려워지고 소스도 많아져서 머리가 아파지는 듯합니다 :)

 

 

 

 

DAY 7, 8, 9

 

- 비지도 학습 -

 

파트 7

 

클러스터링

 

 

 

15.jpg

 

16.jpg

 

 

마지막 7장입니다. 마지막 챕터에서는 비지도학습에 대하여 다루는데, 주성분분석과 k-평균 클러스터링은 수치형 데이터의 차원을 축소하기 위해 주로 사용하는 방법들입니다.

의미 있는 데이터 축소를 보장하기 위해서는 데이터의 스케일을 적절히 조정해야만 합니다.

 

" 대출이나 주식 데이터, 그리고 데이터 과학자가 직면할 대다수 데이터는 노이즈가 많다. 이런 경우, 사용 기법에 따라 결과에 극명한 차이를 가져온다. k-평균, 계층적 클러스터링, 그리고 특히 모델 기반 클러스터링은 모두 매우 다른 솔루션을 생성한다. 데이터 과학자는 이럴 때 어떻게 해야 할까?

불행하게도 선택을 돕는 간단한 법칙 따위는 없다. 궁극적으로 데이터 크기나 응용 분야의 목표에 따라 사용되는 방법은 달라지게 된다. "

 

- 데이터 과학을 위한 통계 中 -

 

 

 

 

 

DAY 10

후기

 

- 데이터 과학자를 향해 -

 

통계 기법은 데이터 과학의 핵심

 

 

 

17.jpg

 

 

 

 

후기 : 데이터 과학 입문자, 숙련자 모두에게 권할 만한 서적

 

 

참으로 어려운 서적을 정독해야 되는데, 파악하고 리뷰 후 정독하기 위해 빠르게 읽어보았습니다.

일단, 훌륭한 내용이 너무 많습니다. 반드시 서적 구매 후 정독해보시길 권장해 드립니다.

챕터 하나하나 버릴 것이 없고, 중요한 내용이 많이 있습니다. 이 서적 한 권만 제대로 익히더라도

충분히 데이터에 접근하는 마인드, 기술이 한층 성장해있음을 느낄 것입니다.

 

데이터 과학자를 꿈꾸는 모든 분들께 강력 추천하는 서적입니다.

 

 

 

★★★★★

 

 

 

리뷰를 마치며!

 

 

 

 

 

main.jpg

 

 

 



통계를 모르는 분들이 덥썩 시작하기엔 어려울것 같아요. 

현재 개념을 배우고 계신 분들이 보면 어떨까 합니다. 

배우는 교재가 너무 수학수학해서 프로그래밍언어로는 어떻게 되는지 조금 더 알고 싶을 때 보면 도움되지 않을까요? 

 

앞쪽에 요점정리 되어 있고, 관련된 더 읽을거리 제공되면서 관련 소스코드가 (github에) 있어서 깊게 팔려고 마음먹으면 한 없이 멀리갈 수 있겠습니다. 

- 데이터 분석에 관심이 생겨 T아카데미, 오픈랩 등 대외활동을 통해 데이터 분석 대회에 몇가지 참가하게 되었는데, 항상 대회 초입에 들어갔을 때 가장 큰 문제가 분석 시작을 어떻게 해야하는가?에 대한 문제였다.

- 그 원인으로는 첫번째로는 도메인 지식의 부족(금융데이터를 분석하는데 이평선을 모른다면?)이 있을 것이다. 이 부분에 대해서는 보통 모르는 용어를 찾아보는 정도로 진입장벽을 넘어서는 것은 가능할 것이라고 본다. 그 이상의 심도 있느 분석에는 그만큼의 지식이 더 필요하겠지만...

- 두번째로는 데이터를 어떻게 다루어야 할 지를 모른다는 것이다. 데이터 분석이라는 분야에서는 이 문제가 가장 크게 작용할 것이라고 생각한다. 단순히 Pandas, Numpy를 쓸 줄 모른다는 문제가 아니다. 빈 데이터를 어떻게 처리해야 할지, 데이터 분포의 추세나 반복이 어떠한 의미를 갖게 될지 등을 해석하는 문제라고 할 수 있겠다.

- 특히나 이 부분에서 통계적 지식은 데이터를 다루는 데 빛을 발하게 해주는 요소라고 할 수 있겠다. 데이터 시각화를 통해 missing value나 데이터 추세만 보던 분석법에 멈추지 않고, 상관계수나 데이터 분포, 편차 등을 분석할 수 있다면 모델 정확도에도 긍정적 영향을 주지만, 일정한 추세를 알아내는 데 도움을 주어 머신러닝의 중요점 중 하나인 일반화된 모델을 구성하는데에도 많은 도움이 될 것이라고 생각한다. 각 통계분석 기법들을 도표 위에 표현하는 연습을 해본다면 시각화 연습은 덤으로 챙겨갈 수 있지 않을까?

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
데이터 과학을 위한 통계(2판)
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터 과학을 위한 통계(2판)
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터 과학을 위한 통계(2판)
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 책0