#[논문리뷰] Soft Representation Learning for Sparse Transfer

Data miner/Information Retrieval 2019. 12. 16. 21:20

728x90

원 논문 : Park, H., Yeo, J., Wang, G., & Hwang, S. W. (2019, July). Soft Representation Learning for Sparse Transfer. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 1560-1568).

읽게 된 계기? 1) transfer learning에 대해서 알고리즘적으로 다르게 접근한 논문은 없을까 살펴보다가

2) 좋아하는 교수님이 지도한 논문이라서... ~~교수님 덕질을 논문으로 해보자 ㅋㅋㅋ~~ 연구면에서 정말 배울게 많으신 분인데 만나고 싶은 사람을 대중서로 만나듯, 교수님을 뵙고 싶을 때마다 논문을 열심히 읽어보기로 했다 :) ㅋㅋㅋㅋㅋ

3) 그래서 읽다보니, 어떤 논문이었느냐? Transfer learning에서 새로운 하위 task에 있어서 좀 더 세심한 접근방법이 없을까 싶어서 아이디어를 전개한 듯하다. Transfer learning에 있어서 source task와 새로운 task간의 유사성을 반영해서 layer를 private한 부분을 따로 만들었다. 그리고, Adversarial Example을 사용하여 모델의 강건성(Robustness)을 키우고자 노력하였다.

----------------------------------------------------------------------------------------------------------------------------

Transfer Learning(전이학습)은 다중 작업 학습 Multi-task learning, 교차 언어 학습 Cross-lingual learning에 있어서 성능 향상을 위해 적용되어 왔다. 연구자들은 이미 대용량 데이터를 통해서 사전에 학습된 parameter들을 재사용(혹은 공유)하는 전략을 택했다. 하지만, 이러한 전략은 parameter을 학습하는 문제에 있어서, 이후의 특정 테스크 문제와 매우 유사할 경우에만 성능을 향상할 수 있다. 즉, parameter에 담긴 feature들이 테스크에 적용하는데 있어서 관련성이 높을 때에만 전이학습이 효과적이라는 이야기다. 본 논문에서는 Multi task learning과 Cross-lingual learning에서 전이학습을 효과적으로 다루는 방법을 모색한다. 아이디어는 전이학습에 쓰는 모델과 하위 테스크 상의 공유하지 않는 영역을 조정하는(Soft coding)하는 방식으로 접근하였다.

1) 먼저, Multi-task learning에서는 (C)의 전략을 택한다.

적대적 훈련 Adversarial training, 위의 그림에서 보듯. (c) 그림에는 사전에 학습된 모델의 parameter가 담긴 'Shared'부분이 있고, 이후에 두 개의 Private layer가 있다. 이는 각각의 테스크에 있어서 사전 학습된 모델의 parameter의 일부만 담아서 저장하는 Private1 layer과 다른 부분에서는 Shared feature에 있는 General한 특성을 보존하는 Private2 layer가 있다. 가운데 G부분은 두 개의 Private한 노드들을 적절하게 조합하는 역할을 한다.

2) Cross-lingual Adeversial Example의 경우(CASE)에는 (D)의 전략을 택했다.

먼저 (C)그림과의 차이점은, Private한 layer가 없다. 대신에 'Refiner'의 layer가 있다. 이 layer에서는 input의 noise data를 통해서 표현된 noise representation을 다시 원 source 방향으로 보내서 이를 Adversarial example로 사용한다. 하지만 이렇게 사용하는 경우 역효과가 날 수 있기 때문에 P를 통해서 Refine 할 것인지 안 할 것인지 결정한다.

'Data miner > Information Retrieval' 카테고리의 다른 글

#The Positional Encoding 를 어떻게 하는 것인가? #Transformer_모델 (5)	2020.03.14
[논문리뷰] Personal Knowledge Base Construction from Text-based Lifelogs (0)	2020.03.11
#[논문리뷰] Multiple Instance Learning Networks for Fine-Grained Sentiment Analysis (0)	2019.12.11
#hierarchical softmax #Word2vec을 효과적으로 학습시키는 방법 (0)	2019.11.25
#딥러닝 관련 논문 읽기 팁 #End-to-End Learning (0)	2019.11.07

ABOUT ME

Cara's Moving Cara's Moving

'Data miner > Information Retrieval' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Data miner > Information Retrieval' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바