Attention
-
[논문리뷰] Attention is all you needData miner/Information Retrieval 2019. 7. 15. 15:18
- 본 논문에서 Transformer라 불리는 Architecture의 큰 구조는 RNN와 같이 encoder - decoder로 이뤄져 있다. 모델의 가장 큰 특징으로, 순차적으로 이전 정보에 의존하는 구조는 아니라는 점을 꼽을 수 있다(Not rely on recurrent connections). 대신에, 이러한 역할을 attention modules가 맡게 된다. 아래의 그림에서 왼쪽이 encoder, 오른쪽이 decoder이다. - 한편으로, BERT의 경우에는 Transformer의 Encoder부분만 사용한다. - Self-attention은 Encoder와 Decoder의 각 Layer의 입력 정보 자체를 함축하기 위해서 사용된다. 기존의 attention 혹은 align (transfor..
-
#논문공부 #Attention is all you need #NLPData miner 2019. 7. 12. 20:13
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008). - Attention이라는 개념은 Neural machine translation by jointly learning to align and translated의 논문에서 처음 제시된 아이디어라고 한다. align and translate jointly로 표현되어 있는데, context vector로 구체적으로 표현된다. 위 논문에서는 conte..