본문 바로가기

책 리뷰

세상에서 가장 쉬운 베이즈통계학 입문 - 고지마 히로유키

728x90

세상에서 가장 쉬운 베이즈통계학 입문

고지마 히로유키

베이즈통계는 인터넷의 보급과 맞물려 비즈니스에 활용되고 있다. 인터넷에서는 고객의 구매 행동이나 검색 행동 이력이 자동으로 수집되는데, 그로부터 고객의 ‘타입’을 추정하려면 전통적인 통계학보다 베이즈통계를 활용하는 편이 압도적으로 뛰어나기 때문이다.
현재 많은 인터넷 계열 기업이 실제로 베이즈통계를 이용하고 있다. 그중에서도 마이크로소프트는 일찍부터 베이즈통계를 비즈니스에 이용한 것으로 유명하다. 윈도우즈 OS의 도움말 기능에도 베이즈통계가 도입되었으며 웹상에서 사용자가 가령 ‘아이의 병 증상’이라고 검색했을 때 유망한 지침이 우선적으로 노출되는 소프트웨어 등도 개발했다.
마이크로소프트의 전 대표 빌 게이츠 씨는 1996년에 신문을 통해, 자사가 경쟁상 우위에 있는 까닭이 베이즈통계로 인한 것임을 공표했다. 한편 구글도 자사 검색엔진의 자동번역 시스템에 베이즈통계의 기술을 활용한 것으로 알려져 있다. 따라서 금세기 비즈니스에 종사하는 사람은 베이즈통계에 통달하면 최강이 될 것이다. 이 책은 비즈니스맨이 실전에서 활용하는 데, 도움이 될 만한 사례와 해설을 싣고 있다.

책 읽으러 가기

책속에서

베이즈통계의 기술은 IT기업 이외에도 다양한 분야에서 응용되고 있다. 예컨대 팩시밀리에서는 전송된 이미지의 노이즈를 수정하여 원 이미지에 가깝게 만드는 데, 베이즈통계를 사용하고 있다. 또 의료분야에서도 ‘자동진단시스템’ 등에 베이즈통계를 활용하고 있다. 이 책을 읽어 나가면서 알게 되겠지만, 베이즈통계의 강점은 ‘데이터가 적어도 추측할 수 있으며, 데이터가 많을수록 정확해진다’는 성질과 ‘들어오는 정보에 실시간으로 반응하여 자동적으로 추측을 업데이트 한다’는 학습 기능에 있다. 이를 통해 누구나가 베이즈통계가 첨단 비즈니스에 최적임을 수긍할 것이다.
_<009쪽>에서

‘베이즈 갱신’이라고 부른다. ‘갱신’을 우리가 흔히 쓰는 말로 바꾸면 ‘업데이트’다. 이상의 프로세스를 이 책에서는 ‘베이즈 추정’이라 부르기로 한다. 베이즈 추정이란 ‘사전확률을 행동의 관찰(정보)에 의거해 사후확률로 베이즈 갱신하는 것’이라고 정리할 수 있다. 이 책에서는 개별 사례에서의 추정은 ‘베이즈 추정’이라 부르고, 그러한 추정방법 전체를 한데 묶어 ‘베이즈통계학’이라 부른다.
_<031쪽>에서

필자가 오락잡지에 실었던 베이즈 추정 관련 기사에서는 앙케트 조사 결과를 활용했다. 사전에 편집자에게 부탁하여 직장 여성들의 밸런타인 행동에 대한 앙케트 조사를 실시했다. 알고 싶었던 부분은 ‘여성들이 마음에 두고 있는 남성과 논외인 남성에게 각각 어느 정도의 확률로 초콜릿을 주는가’였다. 편집자는 직장 여성을 대상으로 인터넷 앙케트용 게시판에 ‘0%, 50%, 100%’의 선택지를 제시한 간이적인 설문 조사를 실시하여 보고해 주었다. 그것을 통계적으로 처리한 결과, 평균적으로 봤을 때 그녀들은 ‘진심’인 상대에게는 42.5%의 확률로, 논외인 상대에게는 22%의 확률로 초콜릿을 준다는 판명이 났다. 진심으로 생각하는 상대에게 주는 확률이 50% 이하라는 것도 의외였지만, 논외인 상대에게 22%나 되는 확률로 준다는 것에 ‘예의상 초콜릿을 주는 습관’의 대단함을 실감했다.
_<050쪽>에서

이때 눈앞의 그 단지에서 공을 한 개 꺼냈더니 검정색이었다. 이 검정색 공이라는 것이 추측을 위한 ‘증거’가 된다. 그렇다면 이 증거로부터 이 단지가 A, B 중 어느 쪽 단지인지 판단할 수 있겠는가? 이것은 상당히 간단한 추론이라 누구나가 B단지라고 결론 내릴 수 있을 것이다. 이에 대한 추론은 굳이 설명을 하지 않아도 될 만큼 명백하지만, ‘추론이란 무엇인가’를 명확히 알기 위해 추론의 프로세스를 자세히 기술해 보기로 한다.
_<077쪽>에서

살펴 본대로 베이즈 추정에는 네이만-피어슨 통계학의 가설검정과 같은 유의수준의 설정이 없으므로 어떤 환경에서든 ‘일단’ 추정이 가능하다는 강점이 있다. 단 네이만-피어슨 식과 같이 A와 B 어느 한쪽으로 판정을 내리는 것이 아니라 양쪽의 가능성을 남겨둔 채 그 가능성의 비율 관계를 제시하는 것이 전부다. 수치를 보고 판단을 내리는 일은 통계가의 몫으로 남겨진다. 그래서 베이즈 추정을 두고 ‘사장의 확률’이라고 부르기도 한다. 베이즈 추정은 사원에게 맡기고 보고 받은 수치를 보고 판단을 내리는 것은 사장의 재량이라는 의미에서다.
_<093쪽>에서

베이즈 추정은 잘 알려진(고교생이 배우는) 확률의 공식을 이용하는 것이 전부로 그렇게 대단히 새로운 것이 아니다. 그러나 이용하고 있는 사전확률에 주관성이 결부된다는 의미에서는 수학과 철학과의 경계선상의 이론이라 할 수 있다. 그 증거로 특수한 설정 속에서 베이즈 추정을 사용하면 우리의 상식적인 감각에 반하는 결과가 도출된다. 그것은 마치 패러독스(역설)처럼 보이기도 한다. 이번 강의에서는 베이즈 추정에 얽힌 두 가지 패러독스를 소개하고, 이를 통해 통상과는 반대 방향에서 베이즈 추정에 관한 감각을 익혀보기를 바란다.
_<106쪽>에서

먼저 이제까지처럼 사전 타입을 설정하고 하나의 정보를 얻은 뒤 사후확률을 구해보자. 여기서는 ‘당신이 받은 메일이 스팸메일인가 아닌가를 판정하는 것’이 아니라 ‘받은 메일을 컴퓨터가 기능적으로 판정한다’는 형태로 해설해 나가기로 한다. 먼저 컴퓨터는 도착한 메일을 스캔하기 전 ‘그 메일이 스팸메일인가 일반메일인가’ 하는 각 타입에 대해 사전확률을 할당한다. 여기에서는 ‘이유 불충분의 원리’를 적용하여 쌍방에 0.5씩 할당하자. 이것은 도착한 메일에 대해 필터가 ‘스팸메일일 확률이 0.5, 일반메일일 확률도 0.5’라는 평가를 내리는 것을 뜻한다. 이때 이보다 신빙성 있다고 알려진 확률이 있다면 그것을 사전확률로 설정해도 관계없다.
_<133쪽>에서

이 책을 추천한 크리에이터

이 책을 추천한 포스트