
Attention Is All You Need
·
머신러닝/논문
Transformer 가 나오게 된 계기 기존 기계번역을 위한 seq2seq 모델은 모든 입력 문장을 하나의 고정된 크기의 벡터로 변환해서 문장이 길어질수록 모델 성능이 급격하게 하락한다. 이를 보완하고자 필요한 정보에 주의를 집중(attention)하게 하자는 것이 어텐션의 핵심 아이디어이다. 하지만 어텐션을 메커니즘을 적용해도 기존 RNN구조는 계속 유지되고 있어서 병렬계산이 불가능해 연산이 느리다는 단점이 존재했다. 그래서 어텐션으로만 이루어진 모델을 만들 수 없을까? 하는 생각에서 나온 self-attention을 하는 Transformer라는 모델이 나오게 되었다. 기존 RNN기반 Attention : 디코더 과정의 값을 인코더 과정에 가져와서 연관성을 확인하는 방식. 병렬 연산 안됨. Tran..