[논문리뷰] [Information discovery] [CF] KRED : Knowledge-Aware Document Representation for News Recommendations

Data miner/Information Retrieval 2021. 4. 9. 22:00

728x90

논문 출처; Liu, D., Lian, J., Wang, S., Qiao, Y., Chen, J. H., Sun, G., & Xie, X. (2020, September). KRED: Knowledge-Aware Document Representation for News Recommendations. In Fourteenth ACM Conference on Recommender Systems (pp. 200-209).

뉴스 추천 시스템에는 개인화 추천, 아이템 끼리의 추천(item-to-item recommendation), 뉴스 카테고리 추천, 뉴스 인기성 예측 등의 과제가 있다. 특히 본 논문에서는 Knowledge entities를 활용하는 것이 뉴스의 문서를 이해하는데 있어서 유용하다는 점을 발견하였다. 논문 제목에서 아이디어를 엿볼 수 있듯이, "Knowledge-Aware Document Representation Enhancement model for news Documents"의 의미는 다음과 같다. knowledge-graph과 NLU를 접목한 모델이다.

1) Knowledge Entity를 사용하여

2) Representation 각 뉴스 Document를 표현하는데 있어서

3) Enhancement 이전의 접근 방식보다 보다 향상된 모델을 제안한다.

4) Documents

뉴스 웹 도메인의 특징

뉴스 기사는 시간의 변화에 민감하다. 90%의 뉴스 기사들은 대부분 이틀 안에 다른 새로운 기사들로 대체된다.
단순 ID based CF 방식으로 접근해서는 안되는 요인이다.
뉴스 기사는 비교적 전문적인 편집자를 거친 산물이므로, 다른 문서에 비해서 간결하고, 표현이 정확하고, 명료하다.
NLU 모델들은 문서를 보다 높은 수준으로 표현할 수 있다.
뉴스 기사는 적은 수의 엔티티(entity)를 포함하고 있다. 이러한 엔티티는 뉴스 기사에 있어서 중요한 메세지를 담는다. 아래 그림에서 확인할 수 있듯이, 엔티티들의 중요도를 파악하면 특정 엔티티와 관련한 다른 기사를 유저에게 추천할 수도 있다.

KRED vs DKN

이 논문에서 비교대상이 되는 뉴스 추천 모델은 DKN(Deep knowledge Aware network for news recommendation)이다. KRED은 DKN와 달리 뉴스의 제목만 학습 대상으로 삼지 않았으며, 뉴스의 본문도 학습하였다. 또한 KRED은 각 뉴스 문서를 표현하는데 있어서, 특정 Document vector 표현 모델만 고집하지 않았다. 이에 대량의 데이터를 바탕으로 사전 학습된 모델의 문서 vector를 활용할 수 있다. 다시말하면, DKN과 달리 KRED는 트랜스포머나 BERT에서 학습된 Document vector가 사용될 수 있다.

KRED Model (Entity Embedding layer, Context Embedding layer, Information Distillation layer)

Entity Embedding layer

entity는 자기자신의 embedding vector로 표현될 수 있으며, 주변 이웃 entity의 정보도 entity를 표현하는데 있어서 사용될 수 있다. 이에, 본 논문은 KGAT(Knowledge Graph Attention)를 활용하였다.

Context Embedding layer

컴퓨터 계산량을 줄이기 위해서, 뉴스 기사에 포함된 entity를 중심으로 3가지 관점으로 정보를 추출하고자 하였다.

Position Encoding - entity가 뉴스 제목에 나타나는지, 아니면 본문에 나타나는지 여부를 나타낸다.
Frequency Encoding - entity가 나타나는 빈도를 뜻한다. 각각의 entity마다 빈도수(범위 1~20)를 구해서 인코딩하였다.
Category Encoding - Entity는 각기 다른 카테고리에 속한다.

Information Distillation layer

이전의 Context embedding layer의 embedding vector를 기사에 존재하는 다른 entity와 topic과의 연계성을 고려하여 학습하고자 한다. 뉴스 문서의 document vector와 각 entity별로 attention weight를 구하여, entity별로 weight를 고려한 Knowledge-aware Document vector를 만든다. 다만, 모델 layer층에 대한 실험을 통해 알게된 주요한 사실은 self-attention이나 multi-head attention를 적용해도, 각 하위 테스크를 수행하는데 있어서 성능상 유의미하지 않았다는 점이다. 하나의 뉴스 문서에서 entity 사이의 관계는 NLU에서 원 텍스트만큼 복잡하지 않기 때문이다.

Multi-Task Learning

추천 시스템과 관련된 하위 테스크에는 user2item recommendation, item2item recommendation, news popularity prediction, news category classification가 있다. KRED를 기본 공유 모델 파트로 사용하고, KRED의 윗부분에 테스크에 집중된 레이어를 각기 다르게 쌓았다. 아래 그림과 같이, user2item recommendation 외에는 predictor score 함수가 같다.

Loss functions

Loss function도 user2item recommendation 외에는 손실 함수가 같다.

'Data miner > Information Retrieval' 카테고리의 다른 글

[코드리뷰] Transformer의 positional_embedding (0)	2022.11.02
[ML] 주요 Metric : Confusion matrix, Accuracy, Precision, Recall (0)	2021.12.15
[논문리뷰] Relational Collaborative Filtering_Modeling Multiple Item Relations for Recommendation (0)	2021.03.15
[논문리뷰] Cold-start aware user and product attention for sentiment classification (0)	2020.09.23
[논문리뷰] Neural Graph Collaborative Filtering (1)	2020.08.04

ABOUT ME