architecture
-
[논문리뷰] Attention is all you needData miner/Information Retrieval 2019. 7. 15. 15:18
- 본 논문에서 Transformer라 불리는 Architecture의 큰 구조는 RNN와 같이 encoder - decoder로 이뤄져 있다. 모델의 가장 큰 특징으로, 순차적으로 이전 정보에 의존하는 구조는 아니라는 점을 꼽을 수 있다(Not rely on recurrent connections). 대신에, 이러한 역할을 attention modules가 맡게 된다. 아래의 그림에서 왼쪽이 encoder, 오른쪽이 decoder이다. - 한편으로, BERT의 경우에는 Transformer의 Encoder부분만 사용한다. - Self-attention은 Encoder와 Decoder의 각 Layer의 입력 정보 자체를 함축하기 위해서 사용된다. 기존의 attention 혹은 align (transfor..