Positional_encoding
-
#The Positional Encoding 를 어떻게 하는 것인가? #Transformer_모델Data miner/Information Retrieval 2020. 3. 14. 21:44
Self-attention이 있는 Transformer의 후속 모델들은 positional encoding도 transformer의 방식을 따른다. 본 포스팅은 Positional Encoding부분을 자세하게 다루고자 한다. "Attention is all you need"라는 논문에서 cos, sin함수를 활용하여 토큰의 위치정보를 보완한다고 하는데, 이게 어떻게 이뤄지는 건지 궁금했었다. 논문에서는 cos, sin함수를 활용했다고만 언급되어 있다. 이 부분을 읽으면서 들었던 생각은, 단순히 문장에 속한 단어 토큰에 1,2,3, ..., 등의 정수를 붙여주면 안되나? 2π라는 주기와 최대 최소값을 가지고 있는 cos, sin함수를 굳이 활용하는 이유가 있을까라는 의문점이 들었다. 먼저 위치정보를 정수..