はじめに:なぜ今、推論コストが問題なのか
2026年に入り、AIをめぐる議論は「モデルの性能」から「推論コストの経済性」へと急速にシフトしている。大規模言語モデル(LLM)の能力はもはや疑いの余地がないが、実際のビジネス展開で壁となっているのが「1トークンあたりの推論コスト」だ。
特にエージェント型AIは、一つのタスクを遂行するために何百〜何千ものLLM呼び出しを行う。単純な問い合わせとは桁が違うコストがかかるため、スケールアウトが難しかった。
NVIDIAのCEO Jensen Huangは2026年3月のGTC 2026基調講演で、この状況を端的に表現した。「もし彼らがより多くのキャパシティを持てば、より多くのトークンを生成でき、収益が上がる。エージェント型アプリが別のエージェントを生成して次々タスクをこなすようになった今、生成されるトークン数は爆発的に増加している」と述べ、高速・低コストの推論インフラの重要性を強調した。
そこにNVIDIAが打ち込んだ答えが Vera Rubin プラットフォームだ。CES 2026(2026年1月)で初公開され、GTC 2026(2026年3月)で詳細が明かされたこの次世代AIインフラは、推論コストを従来のBlackwellと比較して最大10分の1に削減すると謳い、業界の注目を集めている。
本記事では、Vera Rubinのアーキテクチャを技術的に掘り下げ、なぜこれほどのコスト削減が実現できるのか、そしてエージェント型AIの未来にどのような影響を与えるかを考察する。
Vera Rubin とは何か:7チップ統合の「AIスーパーコンピュータ」
Vera Rubinは単一のGPUチップではなく、7種類の専用チップを極度に協調設計(co-design)した統合AIプラットフォームだ。NVIDIAはこれを「Extreme Co-Design」と呼んでいる。GTC 2026でNVIDIAがGroqを2025年12月に約200億ドルで買収したことを公式に認め、Groq 3 LPUが7番目のチップとしてプラットフォームに加わった。
構成する7チップは以下の通りだ。
| チップ | 役割 |
|---|---|
| Vera CPU | AI専用カスタムCPU(88基のOlympusコア) |
| Rubin GPU | AI演算の中核(50 PFLOPS NVFP4) |
| NVLink 6 Switch | GPU間高速通信(3.6 TB/s) |
| ConnectX-9 SuperNIC | ネットワーク処理 |
| BlueField-4 DPU | データ処理・推論コンテキストメモリ |
| Spectrum-6 Ethernet Switch | イーサネット通信 |
| Groq 3 LPU | 低遅延推論アクセラレータ(新規追加) |
このシステム全体がラック単位で統合され、Vera Rubin NVL72 というフォームファクターで提供される。72基のRubin GPUと36基のVera CPUを1ラックに集積した構成だ。さらに大規模な展開では Vera Rubin POD という40ラック規模の構成も用意されており、60エクサFLOPSの演算能力を提供する。
Vera CPU:AI専用設計の独自プロセッサ
Vera Rubinが従来プラットフォームと大きく異なる点の一つが、**NVIDIAが独自設計したカスタムCPU「Vera」**の採用だ。
Veraは 88基のOlympusコア を搭載する。OlympusはARMv9.2命令セットをベースとしたNVIDIA独自設計のコアで、AIデータセンターのワークロードに特化して最適化されている。各コアは「空間的マルチスレッディング(Spatial Multithreading)」技術により2スレッドを並列処理し、合計 176スレッド の処理能力を持つ。L3キャッシュは40%増加し162MBとなり、トランジスタ数は前世代比2.2倍の2270億に達する。
注目すべきはFP8精度のサポートだ。Vera CPUはFP8をネイティブにサポートする業界初のCPUであり、AIワークロード全体を低精度数値形式で統一処理できる。
メモリ面では、最大 1.5TB のSOCAMM LPDDR5X メモリを搭載し、1.2 TB/s のメモリ帯域幅を提供する。メモリバス幅を1024ビットに拡幅し、速度を9600MT/sに向上させることで、前世代比2.5倍の帯域幅を実現している。さらに重要なのがRubin GPUとの接続だ。**第2世代NVLink-C2C(Chip-to-Chip)**により、CPU-GPU間で 1.8 TB/s のコヒーレントな帯域幅を実現。これはPCIe Gen 6比で7倍の速度だ。
なぜカスタムCPUが必要なのか
従来のAIサーバーでは汎用CPUを使ってきたが、LLM推論においてCPUはボトルネックになりやすい。ホストCPUのメモリ帯域幅や接続速度がGPUの処理能力に追いつかないためだ。
NVIDIAはLLM推論がメモリ帯域幅と相互接続によって制約されることを認識し、CPU側も独自設計することでシステム全体を最適化した。CPU-GPU間の高速コヒーレントリンクにより、データ転送のオーバーヘッドが最小化され、GPU稼働率が向上する。
Rubin GPU:推論に特化した次世代演算エンジン
Rubin GPUは、AI推論に特化した数々の革新を詰め込んでいる。
主要スペック
| 項目 | 値 |
|---|---|
| NVFP4推論性能 | 50 PFLOPS(Blackwellの5倍) |
| NVFP4訓練性能 | 35 PFLOPS(Blackwellの3.5倍) |
| HBM4メモリ | 288GB(1基あたり) |
| HBM4メモリ帯域幅 | 22 TB/s |
| NVLink 6帯域幅 | 3.6 TB/s(GPU1基あたり) |
| トランジスタ数 | 3,360億 |
特に注目すべきは HBM4 の採用だ。前世代のHBM3と比べてメモリ帯域幅が約2.8倍向上しており、LLM推論がメモリ帯域幅に制約されるという問題に直接対応している。
NVFP4と第3世代Transformerエンジン
Rubin GPUには 第3世代Transformerエンジン が搭載されており、NVFP4という新しい低精度数値形式を活用する。NVFP4はBlackwellが採用したNVFP8よりもさらに算術密度が高く、精度を保ちながら大幅なスループット向上を実現している。NVIDIAはこの低精度実行をアーキテクチャとソフトウェアスタックの両方に深く統合することで、単なるFLOPS増加を超えた実効スループットの向上を達成した。
NVLink 6:帯域幅の壁を突破する通信インフラ
LLMの推論、特にMixture-of-Experts(MoE)モデルやマルチGPU環境では、GPU間の通信帯域幅 が性能を左右する。
NVLink 6は前世代(NVLink 5)と比較して 帯域幅を2倍 に向上させた。
| 指標 | NVLink 5 | NVLink 6 |
|---|---|---|
| スイッチあたり帯域幅 | 1,800 GB/s | 3,600 GB/s |
| GPU1基あたりの帯域幅 | 約1.8 TB/s | 3.6 TB/s |
| NVL72ラック全体 | — | 260 TB/s |
NVL72ラックが提供する260 TB/sの内部帯域幅は、大規模MoEモデルの効率的な推論を可能にする規模だ。
Groq 3 LPU:低遅延推論アクセラレータ
GTC 2026での最大のサプライズの一つが、GroqのLPU(Language Processing Unit)技術のVera Rubinプラットフォームへの統合だ。NVIDIAは2025年12月24日にGroqを約200億ドルで買収し、上級スタッフの採用とGroqのLPU技術の非独占的ライセンスを取得した。
GPUとLPUの役割分担
Vera Rubinシステムでは、RubinとGroqが推論プロセスを分担する。
- Rubin GPU: プリフィル処理とデコードアテンション処理を担当
- Groq 3 LPU: フィード・フォワード・ネットワーク(FFN)の実行を担当
この分業体制により、各チップが最も得意な処理に集中できる。
Groq 3 LPX ラックの仕様
GTC 2026で発表された Groq 3 LPX ラック は、256基のLPUを搭載する。
| 項目 | 値 |
|---|---|
| SRAM容量(チップあたり) | 500MB |
| SRAMバンド幅(チップあたり) | 150 TB/s |
| スケールアップ帯域幅(チップあたり) | 2.5 TB/s |
| オンチップSRAM総容量(ラック) | 128GB |
| スケールアップ帯域幅(ラック) | 640 TB/s |
Groq 3はキャパシティよりも帯域幅を重視した設計で、チップあたり約80 TB/sの帯域幅を持つ。このSRAM中心の高帯域幅設計が、FFN処理における低遅延を実現する。
統合の効果
VeraRubinとGroq LPXの組み合わせにより、Rubin GPU単体と比較して トリリオンパラメータモデルの推論スループットが最大35倍向上 し、メガワットあたりのスループットが35倍増加 する。これはCUDAプラットフォームへの大幅な変更を必要とせず、LPUを高度に特化したデコードアクセラレータとして活用することで達成される。
推論コンテキストメモリストレージ:エージェント型AIへの特化
Vera Rubinが「エージェント型AIのための基盤」として設計されていることを示す重要な機能が、推論コンテキストメモリストレージプラットフォームだ。
新しいメモリ階層
NVIDIAはBlueField-4 DPUを活用して、GPUと従来のストレージの間に新たなメモリ階層を構築した。
BlueField-4 STXストレージラックは、AIエージェントが大規模なマルチターン対話を維持する際のコンテキスト一貫性を保つための「専用コンテキストメモリ」として機能する。KVキャッシュデータをBlueField-4チップにオフロードすることで、AI推論インフラ全体でのキャッシュデータの共有・再利用が可能になり、推論スループットを 最大5倍向上 させる。
エージェント型AIへの影響
エージェント型AIは、単純な問い合わせとは根本的に異なる計算パターンを持つ。
1つの指示に対して数十〜数百回のLLM呼び出しが発生し、それぞれが長いコンテキストを持つ。推論コンテキストメモリストレージはこのKVキャッシュを効率的に管理することで、エージェント型AIの総合的なスループットとコスト効率を改善する。
10倍コスト削減の仕組み:数値の正確な読み方
NVIDIAが主張する「推論コスト10分の1」という数値は、どのような条件で達成されるのかを正確に理解することが重要だ。
主要な改善要因
10倍のコスト削減は複数の技術革新の複合効果として実現される。
HBM4メモリ帯域幅の向上: 約 2.8倍
NVLink 6スループットの向上: 約 2倍
NVFP4 Tensor Core性能向上: 約 5倍
Groq LPU統合によるFNN処理効率化: 追加要因
電力効率の劇的な改善
Jensen Huangは基調講演で印象的な数値を示した。「Blackwell世代では1GWのデータセンターから毎秒2200万トークンを生成できた。Vera Rubinでは同じ電力で毎秒7億トークンを生成できる。これは2年間で350倍の改善だ」と述べた。
| 指標 | Blackwell | Vera Rubin | 改善倍率 |
|---|---|---|---|
| 1GWあたりトークン/秒 | 2,200万 | 7億 | 約32倍 |
| トークンコスト(長コンテキスト) | 基準 | 最大1/10 | 最大10倍 |
| 推論スループット/ワット | 基準 | 10倍 | 10倍 |
| MoE訓練GPU数 | 基準 | 1/4 | 4倍効率化 |
現実的な期待値
一方で、現実的な評価も重要だ。10倍のコスト削減は「長コンテキスト・長出力」という特定条件でのベンチマーク結果であり、短いコンテキストの密なモデル(dense model)推論では2〜3倍の改善 が現実的な期待値となる。
NVL72ラック:システム全体の性能
Vera Rubin NVL72は、各コンポーネントが統合されたラックスケールシステムだ。
NVL72の仕様まとめ
| 項目 | 仕様 |
|---|---|
| GPU構成 | Rubin GPU × 72基 |
| CPU構成 | Vera CPU × 36基 |
| 総NVFP4推論性能 | 3.6 エグザFLOPS |
| 総HBM4容量 | 20.7 TB |
| 総HBM4帯域幅 | 1.6 PB/s(ペタバイト毎秒) |
| NVLink 6総帯域幅 | 260 TB/s |
Vera Rubin POD:データセンター規模での展開
さらに大規模な構成として Vera Rubin POD が用意されており、40ラック規模で構成される。
| 項目 | 仕様 |
|---|---|
| 総GPU数 | 2,880基 |
| 総演算性能 | 60 エグザFLOPS |
| 構成コンポーネント | 1,300,000点以上 |
PODはNVIDIA自身が「AIファクトリー」と呼ぶ次世代データセンターの基本単位となる。
Blackwellとの比較:世代間の進化
Vera RubinはNVIDIAのBlackwellの次に位置づけられる。各世代の主要な改善点を整理する。
| 項目 | Blackwell | Vera Rubin | 改善倍率 |
|---|---|---|---|
| GPU推論性能(NVFP4) | 10 PFLOPS | 50 PFLOPS | 5倍 |
| GPU訓練性能 | 10 PFLOPS | 35 PFLOPS | 3.5倍 |
| GPU間帯域幅 | 1,800 GB/s | 3,600 GB/s | 2倍 |
| HBM世代 | HBM3 | HBM4 | 約2.8倍 |
| CPU | 汎用/Grace | Vera(Olympus 88コア) | — |
| 低遅延推論 | — | Groq 3 LPU統合 | — |
| 訓練GPU数(MoE) | 基準 | 1/4に削減 | 4倍 |
| トークンコスト | 基準 | 最大1/10 | 最大10倍 |
展開タイムラインと主要パートナー
提供スケジュール
NVIDIAはVera Rubinの 量産・出荷を2026年下半期から開始 する計画だ。GTC 2026(2026年3月16〜19日)時点でVera Rubinは「フルプロダクション状態」であることが確認されている。
初期展開パートナー
最初にVera Rubinベースのクラウドサービスを提供するパートナーとして、以下の企業が発表されている。
- ハイパースケーラー: AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructure(OCI)
- 専門クラウド: CoreWeave、Lambda、Nebius、Nscale
Jensen Huangは「2027年末までにBlackwellとRubinへの累計注文は1兆ドルを超えるだろう」と述べており、Vera Rubinがデータセンター投資の中核として位置づけられていることを示した。
技術的課題と今後の展望
電力消費とデータセンター投資
NVL72ラックは膨大な演算能力を持つ一方で、電力消費も相応だ。2026年、ハイパースケーラーのデータセンター設備投資は合計650億ドルを超えると予測されており、Vera Rubinの導入には電力・冷却インフラへの大規模投資が必要となる。
ソフトウェアエコシステムの整備
Groq 3 LPUの統合はCUDAプラットフォームへの大幅な変更を必要としないとNVIDIAは説明しているが、ソフトウェアスタック(CUDAライブラリ、推論フレームワーク)の最適化も重要だ。NVIDIAはNIM(NVIDIA Inference Microservices)などで対応を進めている。
次世代「Vera Rubin Ultra」
GTC 2026ではさらに次世代の Vera Rubin Ultra も予告されており、NVIDIAが年次サイクルでのプラットフォーム進化を続けることが示唆されている。
まとめ:AIインフラの次のステージへ
NVIDIA Vera Rubinは、単なる「より速いGPU」ではない。Vera CPUという独自プロセッサ、HBM4による大幅なメモリ帯域幅向上、NVLink 6による2倍のGPU間通信、Groq 3 LPUとの低遅延推論統合、推論コンテキストメモリストレージによるKVキャッシュ管理——これら7つのチップと関連システムが極度に協調設計された統合AIプラットフォームだ。
最大10倍の推論コスト削減(長コンテキスト条件)、MoEモデル訓練に必要なGPU数4分の1、そして同一電力での350倍のトークン生成能力は、エージェント型AIの経済的実現可能性を根本的に変える。
エージェント型AIが企業の業務自動化に本格的に展開されつつある2026年において、推論コストはビジネスの採算性に直結する課題だ。Vera Rubinが2026年下半期に量産を開始すれば、このコスト方程式は書き換えられる。AIの実用化を左右するのは、モデルの知能だけでなく、それを動かすインフラの経済性でもある。Vera Rubinはその文脈で、2026年を代表する重要なインフラ革新となるだろう。
