Attention レッスン 3 / 4

Attentionの仕組み

Query、Key、Value

Attentionは各単語の3つの学習された変換を使用します：

Query（Q）：「何を探しているか？」
Key（K）：「何を含んでいるか？」
Value（V）：「どんな情報を提供するか？」

検索エンジンに例えると：Queryは検索キーワード、 Keyはページタイトル、Valueは実際のコンテンツです。

計算式

Attention(Q, K, V) = softmax(Q × K^T / √d) × V

数式の詳細は心配しないでください。重要な洞察は：

各QueryとすべてのKeyを比較（内積）
スコアを重みに変換（softmax → 合計1）
重みを使ってValueを組み合わせる

プロセスをステップで見る

Attention計算のステップ

「次へ」をクリックして、「The cat sat」のAttention計算をステップごとに見てみましょう。

なぜこの設計なのか

Q/K/V設計が強力な理由：

学習可能：モデルが何をクエリし、何をキーとして公開するか学習
柔軟：どの単語も他のどの単語にも注目できる
並列：すべてのAttention計算が同時に実行

まとめ

Q、K、Vは各単語の3つの異なる射影
Attention = 各QueryがどれだけKeyに一致するか
出力 = Attentionに基づくValueの重み付き和