[Book] 세상에서 가장 쉬운 베이즈 통계학 입문

서문

  • 베이즈통계가 다루는 확률은 객관적 수치가 아닌 ‘인간의 심리’에 의존한 주관적 수치임

제 1강. 베이즈 추정의 기본적 사용방법

예. 손님이 쇼핑족인지 아이쇼핑족인지 판단 이를 수치화하는 방법 = 베이즈 추정

[베이즈 추정의 절차]

  1. 타입사전 확률의 설정
    • 쇼핑족일 확률: 0.2, 아이쇼핑족일 확률: 0.8
  2. 각 타입별로 특정 행동 대한 조건부 확률 설정
    • 원인을 알고 있을 때 결과의 확률
    • 말을 걸 확률? 쇼핑족: 0.9, 아이쇼핑족: 0.3
  3. 관측한 행동(추가 정보)에 따라 일어나지 않을 가능성 소거
    • 말을 걸었음(관측) -> 말을 걸지 않는다 소거
  4. 정규화하여 변화된 사후확률 구함( = 베이즈역확률)
    • 쇼핑족일 확률 (0.2 * 0.9) / (0.2 * 0.9) + (0.8 * 0.3),
    • 아이쇼핑족일 확률 (0.8 * 0.3) / (0.2 * 0.9) + (0.8 * 0.3)

제 2강. 베이즈추정은 때로 직감에 크게 반한다 (객관적 데이터 사용시 주의할 점)

객관적 데이터를 이용해 생각하기 때문에 오해에 빠지기 쉬움

Q. ‘특정 암에 걸려 있다면, 95% 확률로 양성이 나오는 검사’를 받은 결과 양성 판정을 받음. 이 경우 암에 걸려 있을 확률이 95%라 판단해야 하는가? A: 아니오 / why? 원래의 데이터가 한쪽으로 치우쳐져있음 (건강한 사람의 비율이 압도적) & 건강한 사람을 양성으로 진단하는 사례 또한 무시할 수 없을만큼 많음

예제. 특정 암에 걸릴 확률 0.1% (0.001), 암에 걸려있을 경우 95%(0.95) 확률로 양성 진단, 건강한 사람이 양성으로 오진 받을 확률 2% (0.02)일 때, 해당 검사에서 양성 진단받았을 때, 암에 걸려 있을 확률?

  1. 데이터를 근거로 사전확률 설정
    • 암일 경우 0.001, 건강할 경우 0.999
  2. 객관적 데이터를 근거로 조건부 확률 설정
    • 암환자 양성일 확률 0.95, 건강할 경우 양성일 확률 0.02
  3. 추가 정보에 따라 ‘일어날 가능성이 없는 세계’를 소거
    • 양성 판정을 받음. (추가 정보) 음성의 세계를 소거
  4. 암인 경우의 베이즈 역확률을 구함
    • 암일 확률: (0.001 * 0.05) / (0.001 * 0.95) + (0.999 * 0.02) = 0.0454

제 3강. 주관적인 숫자여도 추정이 가능하다 (곤란한 상황에서 쓰는 ‘이유 불충분의 원리’)

베이즈 추정은 객관적인 사전 데이터 없이도 추정이 가능함 = 사전확률을 주관적으로 설정하여 추정할 수 있음

예제. 특정 이성이 자신에게 호감을 가지고 있는지 알고 싶음. 그런 와중 발렌타인데이에 이성으로부터 초콜렛을 받음. 이성이 나에게 호감을 가지고 있을 확률을 추정.

  • 사람의 마음을 수치화해야 함 (객관성 X)
  • 이 경우 확률은 주관적 확률임 (사람이 마음으로 생각하는 수치로 일반적인 통계/확률 개념과는 동떨어짐)
  1. 사전확률 설정
    • 이유 불충분의 원리를 채용(일단 대등한 것으로 가정)하여 호감 O: 0.5, X: 0.5
  2. 어떻게든 데이터 입수하여 조건부 확률 설정
    • 설문조사 등의 방법으로 호감이 있을때 초콜릿을 줄 확률: 0.4, 없어도 초콜릿을 줄 확률 0.2
  3. 행동 관측, 가능성 소거하여 사후 확률 구함
    • 초콜릿을 받음. 초콜릿을 주지 않는다는 가능성 소거. 호감이 있을 경우 초콜릿을 줄 확률: 0.5 * 0.4 / (0.5 * 0.4) + (0.5 * 0.2) = 0.667

제 4강. ‘확률의 확률’을 사용하여 추정의 폭을 넓힌다

예제. 어떤 부부의 첫째 아이가 여자아이인 경우 둘째 아이가 여자일 경우의 확률은?

반론1. 남아와 여아의 비율은 반반이지 않나?

  • 통계적으로 남녀가 태어나는 비율 1:1이 아님. (일본의 경우 남 51: 여 49)
  • 즉, 동전 던지기와 같은 확률 현상으로 간주할 수는 없음

반론2. 의사인 친구가 말하기를 ~~

  • 의사인 친구가 관찰하는 것은 ‘다수의 부부에게서 태어날 다수의 아이에 관한 통계’이지 ‘어느 특정한 부부에게 태어날 아이에 관한 통계’가 아님 (표준 통계학(네이만-피어슨 통계학)과 베이즈통계학의 차이)
  • 베이즈 추정의 느슨함(Naive)을 이용하면 특정 부부의 출산에 관한 추정도 가능함. 느슨함이란 사전확률이라는 불가사의한 것을 설정하는 것 & 그 수치가 주관적이어도 좋다는 점을 뜻함
  1. ‘확률의 확률’을 ‘사전확률’로 설정 그 부부에게서 태어날 아이가 여아일 확률 p (0<= p <= 1) 편의를 위해 여기서는 p를 0.6, 0.5, 0.4 세 가지 경우를 고려함 이 세 가지 경우에 대한 각각의 사전 확률을 설정해야 함 이 부부가 어느 타입에 속하는지에 대한 통계적인 데이터가 없으므로 ‘이유 불충분의 원리’를 적용하여 각 1/3의 확률을 설정함

  2. 타입별로 특정행동을 초래하는 ‘조건부 확률’ 설정 여기서는 여아를 낳을 확률을 조건부 확률로 사용 타입1(p = 0.4)인 경우 조건부확률 0.4, 타입2(p = 0.5)인 경우 조건부 확률 0.5, 타입3(p = 0.6)인 경우 조건부확률 0.6

  3. 정보에 따라 가능성을 한정하고 타입 p의 사후 확률을 구함 첫째가 여아였으므로, 남자아이일 가능성을 소거함 타입1의 경우 사후확률 4/15 = 0.27 타입2의 경우 사후확률 5/15 = 1/3 = 0.33 타입3의 경우 사후확률 6/15 = 2/5 = 0.4

  4. 각 타입의 사후확률에서 기대치를 구함 이 부부로부터 태어날 둘째 아이가 여아일 확률을 하나의 수치로 구하려면 평균치를 이용. 확률적 평균치이므로 기대치라고 함 p의 기대치 = (0.4 * 0.27) + (0.5 * 0.33) + (0.6* 0.4) = 0.108 + 0.165 + 0.24 = 0.513

제 5강. 추론의 프로세스에서 부각되는 베이즈 추정의 특징

  • 표준 통계적 추정(네이만-피어슨 통계학)
    가설검정, 구간추정 등의 방법론이 대표적, 19C 말 ~ 20C 초에 완성 (상대적으로 역사 짧음)
  • 베이즈 추정
    18C에 완성 but, 비판이 많아 학회로부터 인정받지 못함. 20C 중반 새비지 등의 통계학자들이 ‘주관적 확률’ 이론을 구축하면서 재조명됨
  • 추론: 사실을 밝혀내려는 행위
  • 논리적 추론: 논리학의 연역법에 따라 엄밀하게 결론을 도출하는 것
  • 확률적 추론: ‘지식으로서 가지고 있는 사실에 불확실한 부분이 있을 경우 확률적 추론이 됨. 대체로 ~~다’ 는 결론이 나옴. (해석에 대해 두 가지 방법)
  • ‘대체로 B일 것이다’에 대한 해석 A. 표준 통계학의 추정: 리스크는 있지만 B로 결론 짓자 (한쪽으로 결론) B. 베이즈 통계학의 추정: A와 B 모두 가능하지만 B 쪽의 가능성이 훨씬 클 것이다 (양다리 but 한쪽에 무게)

제 6강. 명쾌하고 엄밀하지만 쓸 데가 한정된 네이만-피어슨 식 추정 (가설검정)

  1. 귀무가설(검증하려는 가설) 과 대립가설을 설정
  2. 유의수준 (α) 설정 (귀무가설을 기각할 것인지의 기준이 되는 확률)
  3. 귀무가설하에서 유의수준 α 이하로만 관측되는 현상 X에 주목
  4. 현상 X가 관측되었다면 귀무가설을 기각하고 대립가설 채택
  5. 현상 X가 관측되지 않았다면 귀무가설 채택
  6. 가설검정은 유의수준 α의 확률로 잘못될 수 있는 리스크가 있음

제 7강. 베이즈 추정은 적은 양의 정보로 그럴듯한 결론을 이끌어낸다

예. 단지 A 흰 공 9개, 검은 공 1개, 단지 B 흰 공 2개, 검은 공 8개 있을 때, 단지에서 공을 하나 꺼냈더니 검은 공이었다. 단지 A or B?

  1. 타입 설정: 단지 A or B
  2. 사전 확률 설정: ‘이유 불충분의 원리’ 이용 각 0.5
  3. 조건부 확률 설정: 단지 A일 때 검은 공 0.1, 단지 B일 때 검은 공 0.8
  4. 현상 관측 후 사후 확률 획득: 검은 공을 뽑았으므로 흰 공일 가능성을 소거함. 단지 A일 사후 확률: 단지 B일 사후 확률 = 0.5 * 0.1 : 0.5 * 0.8 = 1:8 = 1/9 : 8/9 여기서 결론은 B일 확률이 8배 크므로 단지 B라고 판단하는 것이 타당할 것이다.

[네이만-피어슨 통계학의 가설검정과의 차이점]

  1. 유의수준 설정이 없음: 어떤 환경에서든 ‘일단’ 추정 가능
  2. 양쪽의 가능성을 남겨두고 그 가능성의 비율 관계를 제시하는 것이 전부
  3. 리스크의 의미:
    • 네이만-피어슨 추정: 유의수준 = 리스크의 지표 (결론에 대한 직접적인 평가가 아니라 방법론에 대한 리스크)
    • 베이즈 추정: 결론에 대한 리스크 평가는 사후확률 그 자체 또한, ‘주관적’ 사전확률 하에서 추정되는 사후확률에는 항상 자의성이 있음. 이에 대한 책임은 통계가의 판단임

제 8강. 베이즈 추정은 ‘최우원리’에 근거해 있다 (네이만-피어슨 통계학과의 공통점)

  • 최우원리: 관측된 현상이 일어날 확률이 가장 커지는 원인을 채택하는 원리 (MLE: Maximum Likelihood Estimator)
  • 베이즈 추정은 최우원리에 근거 (결과의 확률을 가장 높이는 원인을 선택)
  • 네이만-피어슨 통계학도 최우원리에 근거
    • 통계적 추정을 입증하는 데 도입 (왜 그렇게 생각하는지? 그렇게 생각하는 것이 어떤 이점을 가져다주는가? 를 설명)
    • 예) 점추정에서 관측된 현상의 확률을 최대한으로 하는 함수를 추정치로서 채택

제 9장. 베이즈 추정은 때로 직감에 크게 반한다 (몬티 홀 문제와 세 죄수 문제)

  1. 패러독스1) 몬티 홀 문제 커튼 A, B, C 중 하나의 뒤에 상품이 숨겨져있다. 그 중 하나를 골라 맞추면 상품을 받을수 있다. 이 때 커튼 A를 고르자 사회자는 선택하지 않은 커튼 B를 열어 보이며 ‘여기에는 없습니다’ 라고 말한다. 남은 것은 선택한 A와 열지않은 C 두 가지인데, 바꿔 선택할 수 있는데 어떻게 하겠냐고 묻는다. 선택을 바꾸어야 할까?

  2. 패러독스2) 세 죄수 문제 세명의 죄수 A, B, C가 있다. 셋 중 2명은 처형되고 한 명은 석방된다는 사실을 모두 알고 있지만 누가 석방될지는 알려지지 않았다. 이때 A는 간수에 다음과 같이 말을 걸었다. ‘세 명 중 두 명은 처형될 테니 나를 제외하고 B나 C 중 한 명은 분명히 처형된다. 그렇기 때문에 그중 누가 처형될지 가르쳐 줘도 내게는 득이 될 것이 없다.’ 이 말을 들은 간수는 A의 주장을 수긍하여 B가 처형됨을 알려주었다. 그러자 A는 싱글거렸다. 왜냐하면 다음과 같이 생각했기 때문이다. ‘아무것도 모르는 상태에서 내가 석방될 확률은 1/3이었다. 그러나 B가 처형된다는 것을 안 지금, 내가 석방될 확률은 1/2로 올라갔다’고

두 문제는 본질적으로 같은 문제 (정보의 입수에 따라 확률이 달라짐) 정보에 의해 확률이 달라지는 예는 베이즈 추정의 사전/사후 확률 다만, 이 문제들에서는 정보에 따른 확률의 변화가 많은 사람의 직관에 반하는 형태가 나타남.

  1. 몬티홀 문제의 경우
  • 사고법 #1: 커튼 A와 커튼 C 둘 중 하나가 될 것이므로 확률은 각각 1/2이 됨. 따라서 커튼 A에 상품이 있을 확률은 1/3에서 1/2로 상승한다.

  • 사고법#2: 커튼 B에 상품이 없다는 사실을 알아도 커튼 A에 상품이 있을 확률은 달라지지 않는다. 따라서 확률은 그대로 1/3이다. 이것은 커튼 C에 상품이 있을 확률이 1/3에서 2/3로 상승했음을 뜻한다.

  • 이 중 많은 사람이 #1을 택한다. 포인트는 양쪽 모두의 확률이 달라지는가, 아니면 C만 달라지는가이다. B일 가능성이 소멸함에 따라 적어도 한쪽은 당연히 달라져야 하지만(정규화 조건) 그 것이 한쪽에만 적용되느냐 양쪽 모두 적용되느냐가 문제다.

  1. 세 죄수 문제의 경우
    • 사고법 #1: 석방되는 것은 A나 C 둘 중 하나임이 정해졌으므로 확률은 각각 1/2이 된다. 따라서 A가 석방될 확률은 1/3에서 1/2로 상승한다.
  • 사고법 #2: B가 처형된다는 사실을 알게 되어도 A가 석방될 확률에는 변함이 없다. 따라서 그 확률은 그대로 1/3이다. 이것은 C가 석방될 확률이 1/3에서 2/3로 상승했음을 뜻한다.

  • A는 #2에 근거하여 간수로부터 정보를 얻어내고는 정작 본인은 #1을 적용하여 기뻐한 것이다.

[베이즈 추정으로 패러독스에 접근]

  1. 타입과 사전확률을 설정
    • A, B, C를 각각의 커튼에 상품이 있을 경우로 설정하고 사전 확률은 1/3로 둠
  2. 조건부확률 설정
    • 만일 A에 상품이 있다면 사회자는 B와 C를 대등한 확률, 즉 1/2의 확률로 연다. 만일 B에 상품이 있다면 1의 확률로 C를 연다. 만일 C에 상품이 있다면 1의 확률로 B를 연다.
  3. 현상을 관측하여 사후확률 획득
    • B를 연 행위를 보고 B에 상품이 없음을 알게되었음. 즉, C를 열기 않았으므로 A&C열기와 B&C 열기 두 세계는 소멸.
    • A일 사후확률: C일 사후확률 = 1/3 * 1/2 : 1/3 * 1 = 1:2
  4. 결론: 선택을 바꿔야한다 (C일 사후확률이 2배이므로) 과연 이것은 견고한 결론일까? 아니다. 왜? 모델의 설정에 의존해있기 때문. 즉, 사회자가 연 커튼에 대한 조건부 확률의 설정에 자의성이 있기 때문이다. 만약, 참가자가 커튼 A를 고른 경우, A에 상품이 있을때는 B를 연다고 미리 정해두었다면 A와 C의 사후확률은 동일해진다. 이는 사고법 #1의 결론과 일치한다.

  5. 결론: 확률적 추론은 어디까지나 확률 현상의 원리를 어떻게 상상할 것인가 하는 ‘주관’에 의존한다. 따라서 모델을 어떻게 설정하느냐에 따라 결론이 달라진다. 확률적 추론에서는 ‘올바른 추론’이라는 것은 존재하지 않는다. 기껏해야 ‘타당한 추론’ 정도이다. 이는 베이즈통계학 뿐만 아니라 표준통계학에서도 마찬가지.

To be continued..