Attentionの仕組み
Query、Key、Value
Attentionは各単語の3つの学習された変換を使用します:
- Query(Q):「何を探しているか?」
- Key(K):「何を含んでいるか?」
- Value(V):「どんな情報を提供するか?」
検索エンジンに例えると:Queryは検索キーワード、 Keyはページタイトル、Valueは実際のコンテンツです。
計算式
Attention(Q, K, V) = softmax(Q × KT / √d) × V
数式の詳細は心配しないでください。重要な洞察は:
- 各QueryとすべてのKeyを比較(内積)
- スコアを重みに変換(softmax → 合計1)
- 重みを使ってValueを組み合わせる
プロセスをステップで見る
Attention計算のステップ
「次へ」をクリックして、「The cat sat」のAttention計算をステップごとに見てみましょう。
なぜこの設計なのか
Q/K/V設計が強力な理由:
- 学習可能:モデルが何をクエリし、何をキーとして公開するか学習
- 柔軟:どの単語も他のどの単語にも注目できる
- 並列:すべてのAttention計算が同時に実行
まとめ
- Q、K、Vは各単語の3つの異なる射影
- Attention = 各QueryがどれだけKeyに一致するか
- 出力 = Attentionに基づくValueの重み付き和