조건부 확률과 베이즈 정리

Updated:


요약


1. 조건부 확률 (conditional probability)는 전체집합이 변하는 경우를 나타낸다.

2. 베이즈 정리는 (Bayes' theorem) 

>기존의 확률 $P(A)$ 과
>
>새로운 정보를 기반으로 수정된 확률 $P(A|B) = P_{B}(A)$
>
의 관계를 나타낸다.



조건부 확률


위 식은 서로 다른 집합 A와 B의 관계를 통해 조건부 확률을 나타내고 있다.

그러나 나는 전체집합을 포함한 식을 하나 추가함으로써 전체집합의 변화 를 강조하고 싶다.

즉 $P(A|B)$에서는 $\Omega$가 아니라 B를 전체집합으로 간주하겠다는 소리이다.

B가 새로운 전체집합이므로 만일 P(B)=0 이라면 정의되지 않는다.



조건부 확률 발음하기


(probability of) A given B - Ref: MIT OCW 6.041

(probability of) A on B - Ref: https://angeloyeo.github.io/2020/01/09/Bayes_rule.html

라고 읽을 수 있다.

본인은 개인적으로 probability of A given B 를 선호한다.

이것저것 공부한 후 오랜만에 $P(A|B)$ 라는 기호를 보면 A의 확률을 구하는 것인지($P_{B}(A)$), B의 확률을 구하는 것인지($P_{A}(B)$) 구분이 안되기 때문이다.



간단한 예제

전체집합의 변화에 초점을 맞춘 하나의 예를 보겠다.

옥상에서 매일매일 관찰한 결과 비행기는 5%의 빈도로 출현했다.

옥상에 비행기가 출현하면 알람을 울리는 레이더를 설치했다.

그런데 레이더는 비둘기가 출몰했을 때도 알람을 울리기도 했다.

알람이 울리는 날에만 옥상에 갔더니 34%의 빈도로 비행기를 목격했다.

위와 같은 예제에서

비행기의 목격확률은 레이더를 설치한 것으로 0.05에서 0.34가 되었다.

즉 새로운 정보(evidence)가 등장했고, 이를 반영해 믿음이나 확률(beilef, hypothesis)이 수정된 것이다.

이에 따라 수정하기 전의 확률을 사전확률(prior probabilities, 事前確率, P(H) )이라 부르며

수정된 확률을 사후확률(posteriori probabilities, 事後確率, $P(H|E)$ ) 이라 부른다.

P(H)=0.05 이고 P(H|E)=0.34 인 것인데, 중요한 점은 P(H)와 P(H|E)는 전체집합이 다르다는 점이다.

P(H)에서는 ‘모든 날, 매일매일’ 이었는데, $P(H|E)$ 에서는 ‘레이더가 알람을 울린 날’ 이 전체집합이 된다.


그림 1. 전체집합의 변화

위처럼 그림으로 나타내자면 전체집합이 왼쪽의 $\Omega$ 에서 오른쪽의 ‘레이더’ 집합 (빗금 부분)으로 변경된 것이다.

이 두 belief, 확률의 관계는 아래와 같이 나타낼 수 있다.

위의 식은 cause-effect 모델로도 해석되는 데, Cause (E)가 주어졌을 때 Effect (H)가 관찰될 확률을 나타내는 것이다.

즉 레이더가 무언가를 관찰했다는 사실이 주어졌을 때, 실제로 비행기를 관찰활 확률이 P(H|E) 라 할 수 있다.

즉 ‘새로운 사건’(E)가 ‘기존의 확률’(H)에 변화를 일으켰다면 조건부 확률을 적용할 수 있는 것이다.

레이더를 설치하기 전과 후의 ‘비행기를 관찰할 확률’

커피 마신 날과 마시지 않은 날의 ‘밤을 샐 확률’

스트레스를 받은 날과 받지 않은 날의 ‘충동소비를 할 확률’

경제학 강좌를 수강한 집단과 수강하지 않은 집단의 ‘매몰비용에 매몰될 확률’

스마트폰을 구매하기 전과 후의 ‘SNS에 하루 2시간 이상을 소비하는 빈도’

등등의 예가 cause-effect 모델에 해당되겠다.

물론 역으로 비행기를 관찰했을 때 이 사건이 레이더에도 관측되어있을 확률도 계산할 수 있다.

굳이 계산하자면 P(E|H)가 된다.

ref https://angeloyeo.github.io/2020/01/09/Bayes_rule.html