두 단어가 독립일 때와 비교하여 같이 등장하는 횟수를 나타내는 값이다.

이를 Term-Document Matrix에 적용하여 PMI 행렬을 얻은 뒤 행 벡터를 각 단어에 대한 임베딩으로 사용할 수 있다.

Positive PMI

위에 제시된 PMI 수치가 음수가 되는 경우, 즉 가 매우 작아지는 경우 표본 수가 적어 신뢰하기 어려운 데이터라고 판단하여 다음과 같이 양의 값만 취한다.

Shifted PMI

PMI에서 를 빼준 값이다. 여기서 는 양의 상수이다.