機械学習・ディープラーニング

Test-time Compute アイキャッチ機械学習・ディープラーニング

Test-time Compute(テストタイムコンピュート)とは?読み方・推論時計算スケーリングの仕組み・OpenAI o1/o3・DeepSeek-R1で注目される推論モデル時代の鍵を完全解説

Test-time Compute(テストタイムコンピュート)とは、LLMが推論時により多くの計算量を使って精度を上げる手法。OpenAI o1/o3やDeepSeek-R1で注目される推論時スケーリングの仕組み・Chain of Thoughtとの違い・実装パターン・コストトレードオフを完全解説。

Mamba機械学習・ディープラーニング

Mamba(マンバ)とは?読み方・Selective State Space Modelの仕組み・Transformerとの違い・ハイブリッドアーキテクチャまで完全解説

Mambaとは、Albert Gu/Tri Daoが2023年に発表したSelective State Space Modelで、Transformerの2乗計算問題を線形時間で解決する仕組みです。本記事では読み方・Mamba-2/3の進化・Transformerとの違い・ハイブリッド採用例まで完全解説します。

Speculative Decoding機械学習・ディープラーニング

Speculative Decoding(スペキュラティブデコーディング)とは?読み方・LLM推論を2〜3倍高速化する仕組み・vLLM/EAGLE/Medusaの違いを完全解説

Speculative Decodingとは、軽量なドラフトモデルが先読み予測し、ターゲットモデルが一括検証することでLLM推論を2〜3倍高速化する仕組みです。Rejection Samplingにより出力品質は数学的に保証され、vLLMやTGI等の主要推論サーバが標準対応しています。

FlashAttention(フラッシュアテンション)とは?読み方・LLMのAttention計算をGPUメモリ削減で高速化する仕組み・FlashAttenti機械学習・ディープラーニング

FlashAttention(フラッシュアテンション)とは?読み方・LLMのAttention計算をGPUメモリ削減で高速化する仕組み・FlashAttention-3との違いを完全解説

FlashAttentionはStanford大Tri Dao氏らが提唱したAttention計算の高速化アルゴリズム。HBMアクセスを最小化することで2〜4倍の高速化と省メモリを両立し、長文コンテキストを実用化した。FlashAttention-3はH100で最大75%のFLOPS利用率を達成。仕組み・実装パターン・PagedAttentionとの違いを解説。

機械学習・ディープラーニング

推論モデル(Reasoning Model)とは?思考プロセスを経て回答するAIの仕組みと代表例を徹底解説

推論モデル(すいろんモデル、Reasoning Model)とは、回答前に内部で思考過程(Chain of Thought)を展開し、段階的に答えを導くLLMの総称。OpenAI o3・Claude Extended Thinking・Gemini 2.5 Thinking・DeepSeek R1など主要モデルを比較しながら仕組み・用途・コストを解説。