Data miner/Bayesian Statistic
-
[베이지안 통계] 5-1. 마르코프 연쇄 몬테카를로(MCMC)Data miner/Bayesian Statistic 2020. 9. 17. 22:31
파라미터 θ의 값이 하나가 아니라면? 파라미터 θ의 값에 대한 사전 확신을 사후 확신과 동일하게 켤레분포로 표현할 수 없을 경우에는? 이런 경우, 마르코프 연쇄 몬테칼를로 알고리즘(MCMC, Markov Chain Monte Carl Algorithm)으로 문제를 접근한다. 이 알고리즘은 크게 두 가지 가정에 기반한다. 1) 사전 분포를 구할 수 있다. 파라미터 값θ에 대한 p(θ)을 컴퓨터 계산으로 구할 수 있다. 2) 가능도 함수값 p(D|θ)도 구할 수 있다고 본다. 다만, 추정해야 하는 파라미터가 많아질 경우 베이즈 규칙의 분모 부분, 증거(evidence)-p(D)-를 구하기가 어렵다. 이에, 사전분포와 가능도함수의 곱을 통해 얻어진 값이 베이즈 규칙의 사후 분포와 비례한다는 점을 이용하여, 정..
-
[베이지안 통계] 4. 베타분포와 베이지안 추론Data miner/Bayesian Statistic 2020. 9. 4. 11:14
실제 데이터를 처리하는데 있어서 베이즈 규칙을 적용하기 위해서는 수학적인 테크닉이 필요하다. 특히, 사전확률의 분포와 사후확률의 분포와 서로 밀접한 관계가 있다면, 반복적으로 베이즈 규칙을 적용하는데 용이할 것이다. 즉, 추가적으로 데이터를 넣으면서, 파라미터 θ를 지속적으로 업데이트할 수 있다. 사전확률에 가능도를 곱하여도, 사전확률 분포와 사후확률분포가 같은 형태가 될 때, 이 사전확률분포 p(θ)를 가능도 p(y|θ)에 대한 켤레 사전분포(conjugate prior)라고 한다.켤레 사전분포는 특정 가능도 함수에게만 적용된다. 이런 켤레사전분포는 사후 분포를 간단하게 수학적으로 표현할 수 있다는 큰 장점이 있다. 먼저, 이전 포스팅에서 언급한 동전 던지기 시행의 가능도 함수는, 베르누이 가능도 함수..
-
[베이지안 통계] 3. 베르누이 분포와 베이지안 추론Data miner/Bayesian Statistic 2020. 9. 3. 17:49
가장 단순한 사건으로 부터 베이지안 추론을 하는 방법을 생각해보자. 고전적으로 아주 유명한 예시인 동전 던지기가 가장 단순한 사건 중 하나다. 동전의 결과가 y라는 변수로 놓고, '동전의 앞면이 나오는 경우' = 1, '동전의 뒷면이 나오는 경우' = 0 이라고 한다면, 동전의 앞면 혹은 동전의 뒷면의 결과가 나올 확률은 다음과 같다. θ가 주어졌을 때, 각 결과가 나올 확률은 다음의 식처럼 표현할 수 있다. 동전을 한 번 던졌을 때, 앞면이 나올 확률은 θ다. 한편으로, 아래의 식은 베르누이 분포에서 확률질량함수이기도 하다. 베이지안의 관점에서는 y가 아니라 θ에 초점을 맞춘다. 현실 세계에서 주조된 동전의 앞면이 나올 확률은 1/2로 매우 균일하게 동전이 생산되었을 수도 있고, 1/4, 3/4로 다소..
-
[베이지안 통계] 2. 베이즈 규칙을 파라미터와 데이터에 적용하기Data miner/Bayesian Statistic 2020. 9. 3. 15:10
베이즈 규칙은 어떤 사건에 대한 단순히 신뢰율을 사전 할당하는 것과 데이터에 기반해, 사건에 대한 신뢰율을 사후 할당하는 것과의 관계다. 이를 식으로 나타내면 다음과 같다. 먼저, 위 식을 바라볼 때, D가 변수가 아니라 파라미터 θ를 변수라고 생각해야 한다는 점을 염두하자. 사전 확률, prior ,p(θ) 은 관측된 데이터에 대한 값에 대한 관계 없이 파라미터 값이 가지는 신뢰율이다. 어떤 사람이 비만인지 아닌지에 대한 확률값을 구하고자 할 때, 어떤 사람에 대한 정보값(데이터)를 제외하고 비만일지 아닐지에 대한 믿음이 p(θ)를 결정한다. 사후 확률, posterior, p(θ|D)은 데이터를 고려한 상태에서 파라미터 값이 가지는 신뢰율이다. 어떤 사람에 대한 다양한 관측 데이터값, 키, 몸무게, ..
-
[베이지안 통계] 1. 베이지안이 정의하는 통계란?Data miner/Bayesian Statistic 2018. 9. 11. 14:06
- 확률(Probability)는 표본공간(sample space)에서 각 경우의 수에 0과 1사이의 값들의 값을 부여하는 것을 의미한다. - 확률에 대한 정의는 너무 간단해 그 자체로 증명이 불가능하기 때문에 정의가 불완전하며, 이를 바라보는 다양한 관점이 있다. - 베이지안(Baysian)이 바라보는 확률의 개념은 흔히 사건에 대한 빈도수 기준으로 통계를 바라보는 빈도론자(Frequentist)와 비교가 된다. 고등학교 때 배웠던 통계에 대한 관점이 빈도론자의 입장이라고 보면 된다. 경우에 따라서는 사람들은 자료의 형태에 따라서 융통성있게 통계를 바라보는 관점을 다양하게 바꾸기도 하는데 이런 사람들은 통계학적인 관점에서의 기회주의자(Opportunist)로 보면 된다. - 베이지안과 빈도론자가 바라보..