-
[베이지안 통계] 4. 베타분포와 베이지안 추론Data miner/Bayesian Statistic 2020. 9. 4. 11:14728x90
실제 데이터를 처리하는데 있어서 베이즈 규칙을 적용하기 위해서는 수학적인 테크닉이 필요하다. 특히, 사전확률의 분포와 사후확률의 분포와 서로 밀접한 관계가 있다면, 반복적으로 베이즈 규칙을 적용하는데 용이할 것이다. 즉, 추가적으로 데이터를 넣으면서, 파라미터 θ를 지속적으로 업데이트할 수 있다. 사전확률에 가능도를 곱하여도, 사전확률 분포와 사후확률분포가 같은 형태가 될 때, 이 사전확률분포 p(θ)를 가능도 p(y|θ)에 대한 켤레 사전분포(conjugate prior)라고 한다.켤레 사전분포는 특정 가능도 함수에게만 적용된다. 이런 켤레사전분포는 사후 분포를 간단하게 수학적으로 표현할 수 있다는 큰 장점이 있다.
먼저, 이전 포스팅에서 언급한 동전 던지기 시행의 가능도 함수는, 베르누이 가능도 함수였다. 베르누의 가능도 함수와 하나의 쌍을 이루는 켤레 사전 분포는 어떤 것일까? 이 때, 베르누이 가능도 함수에 대한 켤레 사전 분포는 베타 분포다(Beta distribution is conjugate for Bernoulli distribution). 베타분포의 밀도 함수 자체는 다음의 식으로 표현될 수 있다. 아래 식에서 표현되는 α,β 는 N번 시행했을 때 앞면이 나올 사건 α, 뒷면이 나올 사건 β다. N=α+β.
베타분포의 특징은 다음과 같다.
1) α값이 커질 수록 θ 값이 오른쪽 벽면으로 가까워지려고 하며, θ값은 점점 커진다.반면으로, β값이 커지면 왼쪽 벽면으로 가까워지려고 한다. α,β가 함께 커질수록 베타분포의 모양이 좁아진다.
2) α=β=1경우, θ이 속하는 [0,1]사이에서 p(θ)의 값이 1로 연속균일분포(uniform distribution) 형태를 띈다.
3) 분포의 평균μ 은 α/(α+β) 이고, 분포의 최빈값ω 은 (α-1)/(α+β-2)이다.
이제, 사후 베타 분포로 돌아와보자. 먼저 동전을 한 번만 추가적으로 던져 동전의 앞면이나 뒷면이 나오는 사건, 베르누이 시행을 생각해보자. 이 동전의 공정한 정도는 어느 정도 불확실성을 갖는 사전 분포인 베타분포를 따른다고 생각하자. 가장 간단한 사전 분포로서, 베타분포의 α,β 의 값이 모두 1이라고 가정한다. 이에, 동전이 앞면과 뒷면이 나올 확률에 대한 믿음값은 p(θ)=1이다. 사후 베타 분포는 다음의 식을 따르며, 결과적으로 사후 베타 분포는 사전 베타 분포에서 추가된 데이터의 승패 여부에 해당하는 값을 1만큼 올려준 것과 같다. 즉, 사전 분포가 beta(θ|α=1,β=1)이고, 현재 동전을 한 번 던져서 앞면이 나왔다면, 사후분포는 beta(θ|α=2,β=1)를 따르게 된다.
(다른 예로서, 동전이 공정한 정도에 대해 어느 정도 불확실성을 갖는 사전 분포가 beta(θ|α=4,β=4)이고, 현재 동전을 한 번 던져서 앞면이 나왔다면, 사후분포는 beta(θ|α=5,β=4)를 따르게 된다.)
베타분포는 베르누이 시행을 N번 반복하여, 성공하는 횟수에 대한 분포인 이항분포(Binominal)에 대해서도 자연스럽게 conjugate한 관계를 가진다. 즉, (집합) 베르누이 가능도 함수에 대한 켤레 사전 분포도 베타분포다(Beta distribution is conjugate for Binominal distribution).
이 때의 사후 베타 분포의 관한 식은 다음의 식으로 표현할 수 있다. (여기서, 현 데이터에서의 N은 동전던지기의 시행 횟수이며, x는 이 중에서 앞면으로 나온 데이터의 수이다. N-x는 뒷면이 나온 횟수이다.)
출처; John K. Kruschke, <<Doing Bayesian Data Analysis, 2nd Edition>>
연세대학교 김철응 교수님 <베이지안 통계> 강의 내용
첨부 표:
https://ocw.mit.edu/courses/mathematics/18-05-introduction-to-probability-and-statistics-spring-2014/readings/MIT18_05S14_Reading15a.pdf
추가 공부:
https://towardsdatascience.com/visualizing-beta-distribution-7391c18031f1'Data miner > Bayesian Statistic' 카테고리의 다른 글
[베이지안 통계] 5-1. 마르코프 연쇄 몬테카를로(MCMC) (2) 2020.09.17 [베이지안 통계] 3. 베르누이 분포와 베이지안 추론 (0) 2020.09.03 [베이지안 통계] 2. 베이즈 규칙을 파라미터와 데이터에 적용하기 (0) 2020.09.03 [베이지안 통계] 1. 베이지안이 정의하는 통계란? (0) 2018.09.11