• 피터 브루스 and 앤드루 브루스 2021 “데이터 과학을 위한 통계 - 파이썬 R언어 실용주의 통계학” 이준용 파이썬과 R로 필요한 만큼만 배우는 실용주의 통계학통계 기법은 데이터 과학의 핵심이지만, 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 데이터 과학의 관점에서 통계 핵심 개념과 기법을 필요한 것만 골라 소개한다. 50가지 개념을 차근차… 원서 : Practical Statistics for Data Scientists

파이썬과 R언어를 하나로 통합하여 학습할 수 있음에 장점

”데이터 과학을 위한 통계 - 파이썬 R언어 실용주의 통계학” (2021)

(피터 브루스 & 앤드루 브루스, 2021)

피터 브루스 and 앤드루 브루스 2021 이준용

파이썬과 R로 필요한 만큼만 배우는 실용주의 통계학통계 기법은 데이터 과학의 핵심이지만, 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 데이터 과학의 관점에서 통계 핵심 개념과 기법을 필요한 것만 골라 소개한다. 50가지 개념을 차근차…

원서 : Practical Statistics for Data Scientists

책소개: 파이썬과 R로 필요한 만큼만 배우는 실용주의 통계학

통계 기법은 데이터 과학의 핵심이지만, 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 데이터 과학의 관점에서 통계 핵심 개념과 기법을 필요한 것만 골라 소개한다. 50가지 개념을 차근차근 정리하고 코드를 실행해보면, 필수 통계 지식을 빠르게 흡수할 수 있다. 2판에는 기존 R 코드와 호응하는 파이썬 코드를 새롭게 추가했다. 『데이터 과학을 위한 통계』로 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭나길 바란다.

출판사 리뷰

데이터 분석에서 머신러닝까지 50가지 핵심 개념 파이썬과 R 코드를 실행해보며, 필요한 만큼만 배운다!

많은 데이터 과학자가 통계 개념을 이해하지 못해 한계에 부딪힌다. 문제가 조금만 복잡해도 어디서부터 어떻게 해결해야 할지 몰라 당황하거나, 출력한 결과를 이해하지 못해 난감해하기 일쑤다. 이 책은 통계 지식에 목마른 현업 데이터 과학자와 인공지능 개발자를 위해 쓰였다. 목표는 다음 두 가지다. 첫째, 데이터 과학과 관련된 통계의 핵심 개념을 소화하기 쉽고 따라 하기 쉽게 소개한다. 둘째, 데이터 과학의 관점에서 어떤 개념이 정말 중요하고 유용한지, 어떤 개념이 덜 중요한지 구분해 알게 한다.

EDA, 표본분포, 유의성 검정, 회귀분석, 분류, 통계적 머신러닝, 비지도 학습 등 오늘날 데이터 분석과 머신러닝 분야에서 널리 사용하는 주제로 구성했고, 데이터 과학자가 꼭 알아야 하는 개념을 50여 가지만 ‘콕’ 집어 정리했다. 자유도, p 값, 상관계수 등 고전 통계에서 중요하게 생각하는 개념 중, 빅데이터를 다루는 데이터 과학자가 세부 사항까지 자세히 알 필요가 없는 것은 그에 맞게 안내한다. 주요 절마다 ‘용어 정리’와 ‘주요 개념’을 정리해 학습 편의를 높이고, 같은 용어라도 통계학, 데이터 과학, 컴퓨터 과학에서 저마다 다르게 쓰는 경우에는 그 차이점을 정리했다.

2판의 가장 큰 특징은 새로 제공하는 파이썬 코드다. 파이썬 코드를 싣기 위해 과학 계산과 데이터 과학 분야에서 30년 이상의 경력을 갖춘 저자가 새로 투입됐다. 파이썬이나 R, 둘 중 하나만 다룰 줄 알아도 책의 내용을 이해하고 코드를 실행해볼 수 있다. 모두 다룰 줄 안다면 두 언어 간의 구현 차이를 비교하는 재미가 쏠쏠할 것이다.

일반인 대상의 통계책은 시시하고 전공 수준의 통계학 교과서는 어려워 엄두가 안 난다면, 이 책을 징검다리 삼아 통계 지식과 통계적 사고력을 키워보길 바란다. 누구든 이 책을 끝까지 잘 마치면, 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭날 수 있다.

주요 내용

-데이터 과학의 초석인 탐색적 데이터 분석 시작하기 -임의표본추출로 편향을 줄이고 고품질 데이터셋을 얻는 방법 -실험설계 원칙을 적용해 타당한 결론을 도출하고 명확한 답을 찾는 방법 -회귀분석으로 결과를 추정하고 이상을 탐지하는 방법 -범주를 예측하고 찾아내는 주요 분류 기법 -데이터로 학습하는 통계적 머신러닝 기법 -레이블 없는 데이터에서 의미를 추출하는 비지도 학습 기법

1 탐색적 데이터 분석

1.1 정형화된 데이터의 요소

1.2 테이블 데이터

1.3 위치 추정

1.4 변이 추정

1.5 데이터 분포 탐색하기

1.6 이진 데이터와 범주 데이터 탐색하기

1.7 상관관계

1.8 두 개 이상의 변수 탐색하기

2 데이터와 표본분포

2.1 임의표본추출과 표본편향

2.2 선택편향

2.3 통계학에서의 표본분포

2.4 부트스트랩

2.5 신뢰구간

2.6 정규분포

2.7 긴 꼬리 분포

2.8 스튜던트의 t 분포

2.9 이항분포

2.10 카이제곱분포

2.11 F 분포

2.12 푸아송 분포와 그 외 관련 분포들

3 통계적 실험과 유의성검정

3.1 A/B 검정

3.2 가설검정

3.3 재표본추출

3.4 통계적 유의성과 p 값

3.5 t 검정

3.6 다중검정

3.7 자유도

3.8 분산분석

3.9 카이제곱검정

3.10 멀티암드 밴딧 알고리즘

3.11 검정력과 표본크기

4 회귀와 예측

4.1 단순선형회귀

4.2 다중선형회귀

4.3 회귀를 이용한 예측

4.4 회귀에서의 요인변수

4.5 회귀방정식 해석

4.6 회귀진단

4.7 다항회귀와 스플라인 회귀

5 분류

5.1 나이브 베이즈

5.2 판별분석

5.3 로지스틱 회귀

5.4 분류 모델 평가하기

5.5 불균형 데이터 다루기

6 통계적 머신러닝

6.1 k-최근접 이웃

6.2 트리 모델

6.3 배깅과 랜덤 포레스트

6.4 부스팅

7 비지도 학습

7.1 주성분분석

7.2 k-평균 클러스터링

7.3 계층적 클러스터링

7.4 모델 기반 클러스터링

7.5 스케일링과 범주형 변수

BIBLIOGRAPHY

피터 브루스, & 앤드루 브루스. (2021). 데이터 과학을 위한 통계 - 파이썬 R언어 실용주의 통계학 (이준용, Tran.). https://www.yes24.com/Product/Goods/99942893