-
#Information_retrieval #Inverted_IndexData miner/Information Retrieval 2019. 10. 22. 17:00728x90
Boolean Retrieval은 모든 문서들을 단어들이 존재하는가 없는가의 여부를 나타내는 0,1(Boolean)로 표현한다. 쿼리의 단어들을 포함하고 있는 문서군들을 찾아줄 수 있다. 가능한 모든 후보 문서군들을 전체 단어 집합에서 0,1로 표현하기 때문에 전체 단어집합 by 문서군들로 구성된 메트릭스가 매우 sparse하게 표현한다는 문제점이 있다.
그래서, 어떤 문서에 특정 단어가 들어가 있다(1)는 점에 주목한 방법이 있는데, 그것이 Inverted Index이다. 특정 단어를 포함하고 있는 문서군들의 정보만 문서군들의 index 정보를 활용하여 저장한다. 아래 그림을 보면 'Brutus'의 단어를 포함하고 있는 문서는 1,2,4,11... 등이고, Calpurnia의 단어를 포함하고 있는 문서는 2,31이다. 특히, 왼쪽의 단어 부분을 Dictionary라고 부르고, 오른쪽의 document lists를 posting이라고 부른다는 점도 기억하자.
Inverted Index를 구성하기 위해서, 기본적으로 단어 전처리(preprocessing, tokenization)나 정규화과정(Normalization)도 사전에 이뤄진다.
그렇다면, 어떤 inverted index의 구조가 query를 받았을 때 최적의 답변을 찾아줄 수 있을까?
'Data miner > Information Retrieval' 카테고리의 다른 글
#딥러닝 관련 논문 읽기 팁 #End-to-End Learning (0) 2019.11.07 서치 엔진에서의 사용자의 의도에 따른 3 가지 Query 유형 (0) 2019.11.06 #FastText #초기_Pre-trained_model #논문리뷰 (0) 2019.10.22 #구글의 ADwords의 작동원리 #Second_price_auction (0) 2019.10.08 [논문리뷰] Attention is all you need (2) 2019.07.15