ELMo

1. Architecture

1.1. Biderectional LSTM

R_{k} = {x_{k}^{L M}, h_{k, j}^{L M} h_{k, j}^{L M} ∣ j = 1, 2, \dots, L}

각 LSTM layer의 hidden state를 word embedding과 함께 concatenate하여 2L+1개의 representation을 얻는다. 이를 weighted sum하여 하나의 embedding vector를 얻을 수 있다. $γ$ 는 scaler parameter로 Layer Normalization을 형성하는 데에 관여한다.

E L M O_{k}^{t a s k} = E (R_{k}; Θ^{t a s k}) = γ^{t a s k} j = 0 \sum L s_{j}^{t a s k} h_{k, j}^{L M}

🪴 My Second Brain

Explorer

ELMo

1. Architecture

1.1. Biderectional LSTM

1.1.1. Skip Connection

2. Training

3. Application

Explorer

Graph View

Table of Contents

Backlinks