文脈がすべてを変える
同じ単語、異なるAttention
Attentionが実際にどう働くか見てみましょう。以下は同じ単語「bank」を含む2つの文ですが、 Attentionパターンが全く異なることに注目してください。
Attentionパターンの比較
「bank」が文脈に基づいて異なる単語に注目する様子を見てみましょう。
文脈埋め込み
Attentionの後、各単語は文脈を取り込んだ新しい表現を得ます。 これを文脈埋め込み(Contextual Embedding)と呼びます。
- 静的埋め込み:「bank」→ 常に同じベクトル
- 文脈埋め込み:「bank」→ 周囲の単語に依存するベクトル
これが、Claudeのような現代のLLMが、より単純なモデルでは見逃してしまう ニュアンス、皮肉、曖昧さを理解できる理由です。
Attentionヒートマップ全体
Attentionヒートマップ
各行は、その単語が他のすべての単語にどれだけ注目しているかを示します。 明るいほど注目度が高い。
AttentionからTransformerへ
現代のLLMはマルチヘッドAttention(複数のAttentionパターンを並列で)を使用し、 多くのAttention層を積み重ねています。各層が理解を深めていきます。
Transformerアーキテクチャ(2017年)はAttentionを他の革新と組み合わせ、 GPT、BERT、Claude、そして事実上すべての現代の言語モデルの基盤となりました。
まとめ
- Attentionは文脈依存の表現を作成する
- 同じ単語が異なる文脈で異なるベクトルを得る
- これが現代の言語理解の基盤