Generative AI-Driven Application Development with Java 3章

2026年1月5日

3. The Transformer Saga—From Attention to Fine-Tuning

トランスフォーマーの軌跡－アテンションからファインチューニングまで

大規模言語モデル（LLM）の基盤となっている基本構造、すなわちトランスフォーマーを理解する。

書籍より

トランスフォーマーの仕組み、歴史、そして実用的な適応方法を理解することで、今日の生成AIの背後にある知能を、より深く設計・最適化し、あるいは正しく評価するための文脈が得られます。
Javaを用いてアプリケーションを構築するうえで、これらの詳細をすべて習得する必要はありませんが、この基礎知識を持つことで、急速に進化するこの分野において、より知識があり、より有能な開発者になることができます。

LLMのファインチューニング
・教師ありファインチューニング（Supervised Fine-Tuning: SFT）
・対話チューニングと指示チューニング
・セーフティチューニング
・人間のフィードバックによる強化学習
・パラメータ効率の高いファインチューニング（PEFT）
　・アダプタベースのファインチューニング
　・低ランク適応（LoRA）
　・ソフトプロンプティング

推論最適化手法
・量子化（モデルの重みや活性値の精度を下げる）
　・事後量子化（Post-training quantization）
　・量子化対応学習（Quantization-aware training：QAT）
・蒸留（大規模なモデル（教師）を模倣するように小規模なモデル（生徒）を学習させること）
　・データ蒸留
　・知識蒸留
　・オンポリシー蒸留
・出力を保持する最適化（モデルの出力を一切変更することなく、推論時間を短縮する）
　・FlashAttention
　・プレフィックスキャッシュ（Prefix Caching）
・投機的デコーディング（小規模なモデル（ドラフター）を用いて、複数トークン先までを先行予測し、その後メインモデルがそれらを並列に検証する）
・バッチ処理と並列化（スループットを向上させるための従来型ソフトウェア最適化手法）

O’ReillyJava,O'REILLY Learning

Posted by shi-n