Data miner/Information Retrieval
-
[논문리뷰] Personal Knowledge Base Construction from Text-based LifelogsData miner/Information Retrieval 2020. 3. 11. 15:27
SIGIR 2019 / Session 2C / Knowledge and Entities Yen, A. Z., Huang, H. H., & Chen, H. H. (2019, July). Personal Knowledge Base Construction from Text-based Lifelogs. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 185-194). 이 논문에서는 Twitter와 같은 SNS에서 텍스트 데이터를 바탕으로 개개인의 삶의 사건들을 추출하여, 개개인의 Knowledge base를 구축하려 한다. 이 과정에서 다음과 같은..
-
#[논문리뷰] Soft Representation Learning for Sparse TransferData miner/Information Retrieval 2019. 12. 16. 21:20
원 논문 : Park, H., Yeo, J., Wang, G., & Hwang, S. W. (2019, July). Soft Representation Learning for Sparse Transfer. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 1560-1568). 읽게 된 계기? 1) transfer learning에 대해서 알고리즘적으로 다르게 접근한 논문은 없을까 살펴보다가 2) 좋아하는 교수님이 지도한 논문이라서... 교수님 덕질을 논문으로 해보자 ㅋㅋㅋ 연구면에서 정말 배울게 많으신 분인데 만나고 싶은 사람을 대중서로 만나듯, 교수님을 뵙고 싶을 때마다 논문을 열심..
-
#[논문리뷰] Multiple Instance Learning Networks for Fine-Grained Sentiment AnalysisData miner/Information Retrieval 2019. 12. 11. 15:49
읽게된 동기? 원래 쓰던 논문에 가볍게(?) Sentiment anlaysis부분을 넣으려고 했다가. 이와 관련해 잘 써진 논문을 발견해서 이에 대해서 리뷰하고자 한다. - Document-level에서의 label data는 별점평가등을 활용하여 상대적으로 쉽게 얻을 수 있었던 반면에, 그보다 작은 단위인Sentence- 와 Phrase-level sentiment labels는 얻기가 힘들다. 하지만 Document level에서 Sentiment anlaysis를 할 경우, 간과하는 부분이 많다. 어떤 제품이나 서비스가 2점 평가(5점 만점)를 얻었다고 해서 그것에 대한 전반적인 평가가 부정적이지는 않다. 논문에 대한 예시는 어떤 식당에 대한 리뷰 평가였는데, 2점을 얻은 리뷰였지만 2점의 원인이 ..
-
#hierarchical softmax #Word2vec을 효과적으로 학습시키는 방법Data miner/Information Retrieval 2019. 11. 25. 21:21
논문 소스 : Distributed Representations of Words and Phrases and their Compositionality Word2vec모델에서 모델의 출력층 이전 부분에서 정답 단어의 원핫인코더 값과 cross entropy로 계산되는 값인 스코어 값은Softmax를 지나친 값이다. 하지만, 코퍼스 전체의 단어집이 일반적으로 매우 크므로(10만개 이상) 하나의 데이터에 대해서 계산을 할 때 매우 많은 계산량이 요구된다. 이에 이를 개선하고자 나온 방법 중 하나가 Hierarchical softmax기법이다. 이는 balanced binary tree을 기반으로 계산되며, 이 때문에 계산량이 log(|v|)로 줄어든다는 이점이 있다. 먼저 Balanced binary tree..
-
#딥러닝 관련 논문 읽기 팁 #End-to-End LearningData miner/Information Retrieval 2019. 11. 7. 14:12
아래는 두 가지 테마를 각각 이어서 연결한 글입니다. :) #딥러닝 관련 논문 읽기 팁 신경망 모형, 딥러닝 모델이 기존의 수학적 모델과의 큰 차이점은 아이디어를 보다 유연하게 구현할 수 있다는 점이다. 신경망 모델 및 딥러닝 모델은 뉴런과 뉴런 사이를 잇는 weight들로 표현되는데, 이는 추후에 모델의 output이 다시 그 모델의 input으로 재학습 될 수 있다. 사용자의 목적에 따라서 뉴런의 연결 모양새가 달라지니, 수식적인 도출로 특정 출력값을 계산하는 것보다는 보다 유연한 사고를 할 수 있는 도구라고 할 수 있겠다. 이런 이유로, 특정 문제를 해결하기 위해서 딥러닝 모델을 사용했다면, 그 딥러닝 모델의 구조가 어떠한지를 살펴보아야 한다. 특정 문제를 해결하는데 성능이 우수한 모델을 제안했다면..
-
서치 엔진에서의 사용자의 의도에 따른 3 가지 Query 유형Data miner/Information Retrieval 2019. 11. 6. 15:36
특히 유저의 의도를 분석할 때, Query의 유형을 일반적으로 3가지로 나눈다. 먼저, 1세대 Query 버전이라고 볼 수 있는 Navigational Search queries가 있다. 이는, 쿼리 검색을 통해서 사용자가 원하는 사이트에 접속하기 위함이다. 예를 들어서, 사용자가 United Airline라는 검색어를 넣을 때는, 이와 가장 유관한 사이트에 접속하기 위함이다. 현재 Google에서 navigational queries로서 상위 2개의 검색어는 "Facebook"과 "Youtube"라고 한다. 한편, Navigational query에 대해서 사용자의 의도를 충족한 엔진을 구축하는데 있어서 중요한 척도는 Precision이라고 한다. 즉, 검색된 URL 리스트에서 가장 관련있는 URL들을..
-
#Information_retrieval #Inverted_IndexData miner/Information Retrieval 2019. 10. 22. 17:00
Boolean Retrieval은 모든 문서들을 단어들이 존재하는가 없는가의 여부를 나타내는 0,1(Boolean)로 표현한다. 쿼리의 단어들을 포함하고 있는 문서군들을 찾아줄 수 있다. 가능한 모든 후보 문서군들을 전체 단어 집합에서 0,1로 표현하기 때문에 전체 단어집합 by 문서군들로 구성된 메트릭스가 매우 sparse하게 표현한다는 문제점이 있다. 그래서, 어떤 문서에 특정 단어가 들어가 있다(1)는 점에 주목한 방법이 있는데, 그것이 Inverted Index이다. 특정 단어를 포함하고 있는 문서군들의 정보만 문서군들의 index 정보를 활용하여 저장한다. 아래 그림을 보면 'Brutus'의 단어를 포함하고 있는 문서는 1,2,4,11... 등이고, Calpurnia의 단어를 포함하고 있는 문서..
-
#FastText #초기_Pre-trained_model #논문리뷰Data miner/Information Retrieval 2019. 10. 22. 12:11
Tomas Mikolov, Edouard Grave, Piotr Bojanowski, Christian Puhrsch, Armand Joulin. Advances in Pre-Training Distributed Word Representations, 2017 NLP 영역에서, 사전학습된 모델로서 초창기에 등장한 모델에 대해서 리뷰해보는 시간을 갖도록 해본다. 초창기(?)라지만 2017년이라니(...) 모델 성능 개선의 속도가 참 빠르다. 위의 논문에서는 Word2vec 모델과의 비교를 통해서 보다 표현력이 상승된 워드 임베딩 모델을 제시하고자 한다. 이전의 잘 알려진 개선 방법 3가지를 조합하였으며, 그 개선방법 1) position dependent features 2) phrase represent..