Attention レッスン 4 / 4

文脈がすべてを変える

同じ単語、異なるAttention

Attentionが実際にどう働くか見てみましょう。以下は同じ単語「bank」を含む2つの文ですが、 Attentionパターンが全く異なることに注目してください。

「bank」が文脈に基づいて異なる単語に注目する様子を見てみましょう。

Attentionの後、各単語は文脈を取り込んだ新しい表現を得ます。これを文脈埋め込み（Contextual Embedding）と呼びます。

これが、Claudeのような現代のLLMが、より単純なモデルでは見逃してしまうニュアンス、皮肉、曖昧さを理解できる理由です。

各行は、その単語が他のすべての単語にどれだけ注目しているかを示します。明るいほど注目度が高い。

現代のLLMはマルチヘッドAttention（複数のAttentionパターンを並列で）を使用し、多くのAttention層を積み重ねています。各層が理解を深めていきます。

Transformerアーキテクチャ（2017年）はAttentionを他の革新と組み合わせ、 GPT、BERT、Claude、そして事実上すべての現代の言語モデルの基盤となりました。