전체 글
-
[베이지안 통계] 4. 베타분포와 베이지안 추론Data miner/Bayesian Statistic 2020. 9. 4. 11:14
실제 데이터를 처리하는데 있어서 베이즈 규칙을 적용하기 위해서는 수학적인 테크닉이 필요하다. 특히, 사전확률의 분포와 사후확률의 분포와 서로 밀접한 관계가 있다면, 반복적으로 베이즈 규칙을 적용하는데 용이할 것이다. 즉, 추가적으로 데이터를 넣으면서, 파라미터 θ를 지속적으로 업데이트할 수 있다. 사전확률에 가능도를 곱하여도, 사전확률 분포와 사후확률분포가 같은 형태가 될 때, 이 사전확률분포 p(θ)를 가능도 p(y|θ)에 대한 켤레 사전분포(conjugate prior)라고 한다.켤레 사전분포는 특정 가능도 함수에게만 적용된다. 이런 켤레사전분포는 사후 분포를 간단하게 수학적으로 표현할 수 있다는 큰 장점이 있다. 먼저, 이전 포스팅에서 언급한 동전 던지기 시행의 가능도 함수는, 베르누이 가능도 함수..
-
[베이지안 통계] 3. 베르누이 분포와 베이지안 추론Data miner/Bayesian Statistic 2020. 9. 3. 17:49
가장 단순한 사건으로 부터 베이지안 추론을 하는 방법을 생각해보자. 고전적으로 아주 유명한 예시인 동전 던지기가 가장 단순한 사건 중 하나다. 동전의 결과가 y라는 변수로 놓고, '동전의 앞면이 나오는 경우' = 1, '동전의 뒷면이 나오는 경우' = 0 이라고 한다면, 동전의 앞면 혹은 동전의 뒷면의 결과가 나올 확률은 다음과 같다. θ가 주어졌을 때, 각 결과가 나올 확률은 다음의 식처럼 표현할 수 있다. 동전을 한 번 던졌을 때, 앞면이 나올 확률은 θ다. 한편으로, 아래의 식은 베르누이 분포에서 확률질량함수이기도 하다. 베이지안의 관점에서는 y가 아니라 θ에 초점을 맞춘다. 현실 세계에서 주조된 동전의 앞면이 나올 확률은 1/2로 매우 균일하게 동전이 생산되었을 수도 있고, 1/4, 3/4로 다소..
-
[베이지안 통계] 2. 베이즈 규칙을 파라미터와 데이터에 적용하기Data miner/Bayesian Statistic 2020. 9. 3. 15:10
베이즈 규칙은 어떤 사건에 대한 단순히 신뢰율을 사전 할당하는 것과 데이터에 기반해, 사건에 대한 신뢰율을 사후 할당하는 것과의 관계다. 이를 식으로 나타내면 다음과 같다. 먼저, 위 식을 바라볼 때, D가 변수가 아니라 파라미터 θ를 변수라고 생각해야 한다는 점을 염두하자. 사전 확률, prior ,p(θ) 은 관측된 데이터에 대한 값에 대한 관계 없이 파라미터 값이 가지는 신뢰율이다. 어떤 사람이 비만인지 아닌지에 대한 확률값을 구하고자 할 때, 어떤 사람에 대한 정보값(데이터)를 제외하고 비만일지 아닐지에 대한 믿음이 p(θ)를 결정한다. 사후 확률, posterior, p(θ|D)은 데이터를 고려한 상태에서 파라미터 값이 가지는 신뢰율이다. 어떤 사람에 대한 다양한 관측 데이터값, 키, 몸무게, ..
-
[논문리뷰] Neural Graph Collaborative FilteringData miner/Information Retrieval 2020. 8. 4. 11:32
Wang, X., He, X., Wang, M., Feng, F., & Chua, T. S. (2019, July). Neural graph collaborative filtering. In Proceedings of the 42nd international ACM SIGIR conference on Research and development in Information Retrieval (pp. 165-174). 논문에서 주목하는 문제점은 다음과 같다. User와 Item을 각각 임베딩하여 전통적으로 협업필터링하는 방식은 추천 시그널을 반영하기에 충분하지 않다는 점이다. 위의 왼쪽 그래프처럼 유저가 왼쪽 오른쪽에 아이템들을 나열해놓고, 사용자가 선택해서 관계가 생긴 것은 하나의 에지로 표현하는 방식은 ..
-
라플라시안 메트릭스 / Laplacian MatrixData miner/Knowledge Graph 2020. 8. 3. 14:05
Graph 기반의 Collaborative Filtering의 논문을 읽다가, Graph Laplacian norm을 접하게 되었다. 무엇인지에 대해서 하나씩 찾아보다가, 라플라시안 메트릭스부터 차근차근히 정리하기로 했다. 먼저, 그래프에 있는 노드들을 비슷한 것끼리 클러스터링할 때 혹은 그래프를 나눌 때, 라플라시안 메트릭스가 활용된다. 그래프로 표현된 N개의 점들 사이의 유사성이 주어졌다면, 유사성 매트릭스를 통해서 클러스터링 하면 된다. 하지만, N개의 점들만 주어졌을 때에는 점들의 유사성을 따로 구해 유사 그래프를 생성해야 한다. 유사 그래프를 생성시에, 인접 행렬(Adjacency matrix)과 라플라시안(Laplacian matrix)이 활용된다. 인접 행렬 매트릭스는 노드로 표현될 수 있는..
-
[Google colab] 개인이 생성한 모듈을 colab에서 import해서 사용하고자 하는 경우 / (+ 데이터 업로드 하기)Data miner/Development log 2020. 7. 31. 10:58
컴퓨터 자원 문제나, 파이토치나 텐서플로우의 버전 맞추는 번거로움 때문에, colab을 통해서 코드를 돌려보는 경우가 많다. 개인이 만든 모듈을 Colab에서 import해서 사용하고자 하는 경우는 다음의 코드를 사용하면 된다. # 아래의 코드를 돌리면, 파일 선택이라는 버튼이 생성되며 로컬 컴퓨터에서 사전에 만든 모듈을 업로드 하면 된다. from google.colab import files src = list(files.upload().values())[0] # 나의 경우, NGCF 모듈을 업로드 했으며, #import NGCF 했을 때 모듈이 찾아지지 않는다는 에러가 뜨지 않으면 성공한 것이다. 한편으로, 위의 코드는 Colab에서 사용할 데이터를 업로드 하는데도 사용할 수 있다. 하지만, 이 방..
-
[Pioneer_Hackathon] 참가 후기Data miner 2020. 4. 15. 23:16
지난 주말 Pinoor.app이라는 회사에서 주최한 해커톤에 참여하였다. Pinoneer.app은 규모가 그렇게 크지 않은 엔젤 투자회사라고 보면 된다. 미국에 있는 스타트업뿐만이 아니라 국경을 넘어 전세계에 있는 스타트업도 빌드업해주는 플랫폼 회사라고 한다. Pioneer.app은 아이디어를 채택하여 투자해주는 것뿐만이 아니라 아이디어 전체를 사업화 시키는 중간 과정의 동기 부여까지 도와주는 플랫폼이다. https://pioneer.app/hackathon Pioneer Hackathon We're hosting a 24 hour global online hackathon starting Saturday, April 11th at 11:00am Pacific. pioneer.app 연구적인 면에서 좋은..
-
코로나 시대의 일상Bookmark 2020. 4. 8. 18:02
미디어를 끼고 사는 삶을 산다. 특히, 넷플릭스. 영어공부한다는 핑계로 구독하였는데, 넷플릭스 컨텐츠를 들여다보지 않으면 이 무료한 일상이 좀체 끝나지 않을 것 같아서 자주 본다. 그럼에도, 그 화려하고 대단한 이야기들을 품은 영상이 어느 순간 내게 아무런 의미를 주지 않을 때가 있다. 그럴 때 책을 읽는다. 책을 달콤하게 읽는 순간이 잦아졌다. 고미숙씨의 를 완독하고 무슨 책을 읽을까, 리뷰 영상들을 기웃거렸다. 요조와 임경선의 라는 책이 눈에 들어왔다. 나보다 15년정도 더 먼저 산 언니들의 이야기. 코로나 시대의 낯선 만남들은 감염 우려로 공포로 다가왔는데, 이 책의 우정 이야기에 기대서 낯선 마주침을 대리만족하고 싶었다. 평소 같으면 대형서점으로 향했을 것이다. 광화문 교보문고. 평소 같으면 책 ..