Attention Is All You Need
·
머신러닝/논문
Transformer 가 나오게 된 계기 기존 기계번역을 위한 seq2seq 모델은 모든 입력 문장을 하나의 고정된 크기의 벡터로 변환해서 문장이 길어질수록 모델 성능이 급격하게 하락한다. 이를 보완하고자 필요한 정보에 주의를 집중(attention)하게 하자는 것이 어텐션의 핵심 아이디어이다. 하지만 어텐션을 메커니즘을 적용해도 기존 RNN구조는 계속 유지되고 있어서 병렬계산이 불가능해 연산이 느리다는 단점이 존재했다. 그래서 어텐션으로만 이루어진 모델을 만들 수 없을까? 하는 생각에서 나온 self-attention을 하는 Transformer라는 모델이 나오게 되었다. 기존 RNN기반 Attention : 디코더 과정의 값을 인코더 과정에 가져와서 연관성을 확인하는 방식. 병렬 연산 안됨. Tran..
Efficient Estimation of Word Representations in Vector Space
·
머신러닝/논문
Tomas Mikolov 2013에 발표된 word2vec 논문 컴퓨터로 언어를 분석 할 수 있게 하기 위해 수치적인 방식으로 단어를 표현 해야 한다. 단어를 벡터로 표현함으로 컴퓨터가 인식을 하고 산술적 계산을 할 수 있게 만들어 준다. 논문에서는 두가지를 비교했을 때 스킵그램이 좀 더 성능이 좋았다고 한다. 논문에서는 윈도우 사이즈를 5로 줬을 때 성능이 좋았다고 말하고 있다. 주변단어들이 원핫벡터로 들어가서 가중치 행렬과 행렬곱, 후에 다시 nxv 가중치 행렬과 곱해서 v길이의 벡터가 나오게 된다. Cbow는 인풋단어가 여러개이므로 각 단어에서 나오는 아웃풋을 다 더해서 평균을 낸 값을 최종 아웃풋으로 사용한다. 최종아웃풋에 소프트맥스 함수를 취해 확률분포로 만들고 실제값과 예측값의 오차를 교차 엔..
WaveNet : A Generative Model for Raw Audio, DeepMind
·
머신러닝/논문
2016년 구글 딥마인드에서 발표한 waveform을 생성하는 모델 음성모델을 위한 배경지식 - tts 합성의 목표는 텍스트에서 자연스럽게 들리는 음성신호를 만들어 내는 것이다. - 일반적인 tts의 파이프라인은 크게 텍스트 분석과 음성 합성 으로 구성된다 - 텍스트 분석 부분에는 문장 분할, 단어 분할, 텍스트 정규화 같은 언어처리(NLP) 단계가 필요하다 이 단계에서는 입력 텍스트가 들어왔을 때 다양한 언어 문맥을 고려해 단어를 어떻게 읽어야 할지 단어 시퀀스를 출력한다 - 음성 합성 부분은 문맥에 의존한 음소 시퀀스를 입력으로 받아 합성 음성 파형을 출력하는 단계이다 딥러닝 기반 음성 합성방법이 등장하기 전 2가지 대표적인 음성 생성 방식은 1. Concatenative 방식 : 다량의 음성데이터를..