[딥러닝] why attention
2019. 6. 17. 00:18
안녕하세요! 오늘은 attention을 쓰는 이유에 대해 간략하게 알아보도록 하겠습니다. attention은 sequence data에 흔히 쓰이는 기법입니다. sequence data에 쓰이는 이유는, vanishing gradient 문제 때문입니다. 대표적인 RNN모델의 경우, gradient가 축적해 전달되므로, 뒤로 갈 수록 gradient vanishing/exploding문제가 발생합니다. 이는 long term dependency(장기 의존성)문제를 야기하게 되는데요, 멀리 있는 정보를 잊게 되는 것입니다. attention은 전체를 받지 않고, input의 특정한 부분을 주목하여 바로바로 해결하게 도와주는, encoder와 decoder를 connection해주는 장치라고 보시면 될 것 ..