Generative AI-Driven Application Development with Java 3章
3. The Transformer Saga—From Attention to Fine-Tuning
トランスフォーマーの軌跡-アテンションからファインチューニングまで
大規模言語モデル(LLM)の基盤となっている基本構造、すなわちトランスフォーマーを理解する。
書籍より
トランスフォーマーの仕組み、歴史、そして実用的な適応方法を理解することで、今日の生成AIの背後にある知能を、より深く設計・最適化し、あるいは正しく評価するための文脈が得られます。
Javaを用いてアプリケーションを構築するうえで、これらの詳細をすべて習得する必要はありませんが、この基礎知識を持つことで、急速に進化するこの分野において、より知識があり、より有能な開発者になることができます。
LLMのファインチューニング
・教師ありファインチューニング(Supervised Fine-Tuning: SFT)
・対話チューニングと指示チューニング
・セーフティチューニング
・人間のフィードバックによる強化学習
・パラメータ効率の高いファインチューニング(PEFT)
・アダプタベースのファインチューニング
・低ランク適応(LoRA)
・ソフトプロンプティング
推論最適化手法
・量子化(モデルの重みや活性値の精度を下げる)
・事後量子化(Post-training quantization)
・量子化対応学習(Quantization-aware training:QAT)
・蒸留(大規模なモデル(教師)を模倣するように小規模なモデル(生徒)を学習させること)
・データ蒸留
・知識蒸留
・オンポリシー蒸留
・出力を保持する最適化(モデルの出力を一切変更することなく、推論時間を短縮する)
・FlashAttention
・プレフィックスキャッシュ(Prefix Caching)
・投機的デコーディング(小規模なモデル(ドラフター)を用いて、複数トークン先までを先行予測し、その後メインモデルがそれらを並列に検証する)
・バッチ処理と並列化(スループットを向上させるための従来型ソフトウェア最適化手法)




