
1. Architecture
1.1. Biderectional LSTM
각 LSTM layer의 hidden state를 word embedding과 함께 concatenate하여 2L+1개의 representation을 얻는다. 이를 weighted sum하여 하나의 embedding vector를 얻을 수 있다. 는 scaler parameter로 Layer Normalization을 형성하는 데에 관여한다.

각 LSTM layer의 hidden state를 word embedding과 함께 concatenate하여 2L+1개의 representation을 얻는다. 이를 weighted sum하여 하나의 embedding vector를 얻을 수 있다. γ는 scaler parameter로 Layer Normalization을 형성하는 데에 관여한다.
ELMOktask=E(Rk;Θtask)=γtaskj=0∑Lsjtaskhk,jLM