Data miner/Information Retrieval
-
[코드리뷰] Transformer의 positional_embeddingData miner/Information Retrieval 2022. 11. 2. 21:59
논문을 구현한 코드에서 단어 토큰들의 위치 정보를 임베딩 하기 위한 여러 방식들이 있는데, "absolute", "relative_key", "relative_key_query"가 그에 해당한다. - 'absolute'의 경우 - position_embeddings이란 이름으로 토큰 시퀀스의 위치 인덱스를 나타내는 정수형 타입의 텐서값을 받아 임베딩한다. (max embedding 크기 X hidden size) - word_embeddings, token_type_embeddings, position_embeddings의 값은 추후에 합산되어 학습되므로 이들의 임베딩 hidden size는 동일하다. Embedding X by Y 에서 Y값이 동일하다는 의미. - 한편 토큰 시퀀스의 위치 인덱스의 경우..
-
[ML] 주요 Metric : Confusion matrix, Accuracy, Precision, RecallData miner/Information Retrieval 2021. 12. 15. 17:42
- Confusion Matrix (혼동 행렬) : 샘플 데이터의 실제값과 모델의 예측값을 한 눈에 볼 수 있는 표이다. 많은 매트릭이 Confusion matrix의 기반으로 구해진다고 보면 된다. 이진 분류를 기반으로 생각해 보았을 때 실제 클래스 - 예측 클래스 구분은 다음의 네 가지 경우로 나뉠 수 있다. 앞 부분은 모델이 예측한 클래스가 맞는지 틀리는지 여부를 나타내며 (T: True 옳게 분류한 경우, F: False 틀리게 분류한 경우) 뒷 부분은 모델이 예측한 클래스의 레이블을 뜻한다(P: positive 모델이 중점으로 맞추고자 하는 클래스, N: negative 그 외의 클래스)고 생각하면 편리하다. TP (True Positive) : 모델이 Positive class에 해당하는 경우..
-
[논문리뷰] [Information discovery] [CF] KRED : Knowledge-Aware Document Representation for News RecommendationsData miner/Information Retrieval 2021. 4. 9. 22:00
논문 출처; Liu, D., Lian, J., Wang, S., Qiao, Y., Chen, J. H., Sun, G., & Xie, X. (2020, September). KRED: Knowledge-Aware Document Representation for News Recommendations. In Fourteenth ACM Conference on Recommender Systems (pp. 200-209). 뉴스 추천 시스템에는 개인화 추천, 아이템 끼리의 추천(item-to-item recommendation), 뉴스 카테고리 추천, 뉴스 인기성 예측 등의 과제가 있다. 특히 본 논문에서는 Knowledge entities를 활용하는 것이 뉴스의 문서를 이해하는데 있어서 유용하다는 점을 발견..
-
[논문리뷰] Relational Collaborative Filtering_Modeling Multiple Item Relations for RecommendationData miner/Information Retrieval 2021. 3. 15. 06:54
논문 출처; Xin, X., He, X., Zhang, Y., Zhang, Y., & Jose, J. (2019, July). Relational collaborative filtering: Modeling multiple item relations for recommendation. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 125-134) 본 논문은 두 레벨의 구조를 통해서 좀 더 정교하게 유저의 선호도를 모델링하고자 한다. 1) 먼저, 두 가지 아이템의 특성/속성 정보를 모델링 하는데 포함시킨다. 이를 논문에서는 관계성 유형은(R..
-
[논문리뷰] Cold-start aware user and product attention for sentiment classificationData miner/Information Retrieval 2020. 9. 23. 23:57
리뷰한 논문 - Amplayo, R. K., Kim, J., Sung, S., & Hwang, S. W. (2018). Cold-start aware user and product attention for sentiment classification. arXiv preprint arXiv:1806.05507. 감성분석(Sentiment Anlaysis)은 사용자가 특정 컨텐츠/제품에 대해 리뷰를 남기면, 이에 대해서 긍정/부정으로 분류하는 분석이다. 최근에는 감성분석과 관련한 연구가 개인화에 초점화를 맞추고 있으며, 이는 구체적으로 특정 유저에게 유저의 취향에 맞는 제품을 추천하기 위해서다. 유저와 제품의 주변 정보(유저/제품과 유사한 다른 유저/제품 정보)를 활용해야 하는 이유는 크게 두 가지가 있다...
-
[논문리뷰] Neural Graph Collaborative FilteringData miner/Information Retrieval 2020. 8. 4. 11:32
Wang, X., He, X., Wang, M., Feng, F., & Chua, T. S. (2019, July). Neural graph collaborative filtering. In Proceedings of the 42nd international ACM SIGIR conference on Research and development in Information Retrieval (pp. 165-174). 논문에서 주목하는 문제점은 다음과 같다. User와 Item을 각각 임베딩하여 전통적으로 협업필터링하는 방식은 추천 시그널을 반영하기에 충분하지 않다는 점이다. 위의 왼쪽 그래프처럼 유저가 왼쪽 오른쪽에 아이템들을 나열해놓고, 사용자가 선택해서 관계가 생긴 것은 하나의 에지로 표현하는 방식은 ..
-
[Model_Architecture] [parts] CRF networksData miner/Information Retrieval 2020. 4. 3. 17:50
Kaggle의 랭커들의 전략을 보면, 많이들 CRF layer를 활용했다. 사용자가 설정한 모델에 CRF layer을 추가적으로 붙이는 것은 'from keras_contrib.layers import CRF로 한 줄이면 활용하면 간단하게 끝나지만, 이 CRF가 왜 다양한 NLP문제에서 활용되고 있는지, 왜 이 CRF layer가 효과적인지 평소에 궁금하여 이번 포스팅에 다루게 되었다. CRF(Conditional Random Field) 는 Sequence tagging task를 위한 graphical model 중 하나이다. Sequence tagging task에서 가장 널리 알려진 개체명인식 문제 NER(Name Entity Recognition)에 CRF는 자주 적용되고 있기도 하다. CRF는..
-
#The Positional Encoding 를 어떻게 하는 것인가? #Transformer_모델Data miner/Information Retrieval 2020. 3. 14. 21:44
Self-attention이 있는 Transformer의 후속 모델들은 positional encoding도 transformer의 방식을 따른다. 본 포스팅은 Positional Encoding부분을 자세하게 다루고자 한다. "Attention is all you need"라는 논문에서 cos, sin함수를 활용하여 토큰의 위치정보를 보완한다고 하는데, 이게 어떻게 이뤄지는 건지 궁금했었다. 논문에서는 cos, sin함수를 활용했다고만 언급되어 있다. 이 부분을 읽으면서 들었던 생각은, 단순히 문장에 속한 단어 토큰에 1,2,3, ..., 등의 정수를 붙여주면 안되나? 2π라는 주기와 최대 최소값을 가지고 있는 cos, sin함수를 굳이 활용하는 이유가 있을까라는 의문점이 들었다. 먼저 위치정보를 정수..