Attention レッスン 3 / 4

Attentionの仕組み

Query、Key、Value

Attentionは各単語の3つの学習された変換を使用します:

  • Query(Q):「何を探しているか?」
  • Key(K):「何を含んでいるか?」
  • Value(V):「どんな情報を提供するか?」

検索エンジンに例えると:Queryは検索キーワード、 Keyはページタイトル、Valueは実際のコンテンツです。

計算式

Attention(Q, K, V) = softmax(Q × KT / √d) × V

数式の詳細は心配しないでください。重要な洞察は:

  1. 各QueryとすべてのKeyを比較(内積)
  2. スコアを重みに変換(softmax → 合計1)
  3. 重みを使ってValueを組み合わせる

プロセスをステップで見る

Attention計算のステップ

「次へ」をクリックして、「The cat sat」のAttention計算をステップごとに見てみましょう。

なぜこの設計なのか

Q/K/V設計が強力な理由:

  • 学習可能:モデルが何をクエリし、何をキーとして公開するか学習
  • 柔軟:どの単語も他のどの単語にも注目できる
  • 並列:すべてのAttention計算が同時に実行

まとめ

  • Q、K、Vは各単語の3つの異なる射影
  • Attention = 各QueryがどれだけKeyに一致するか
  • 出力 = Attentionに基づくValueの重み付き和