1. Architecture

1.1. Biderectional LSTM

각 LSTM layer의 hidden state를 word embedding과 함께 concatenate하여 2L+1개의 representation을 얻는다. 이를 weighted sum하여 하나의 embedding vector를 얻을 수 있다. 는 scaler parameter로 Layer Normalization을 형성하는 데에 관여한다.

1.1.1. Skip Connection

2. Training

3. Application