Rick-Brick
NVIDIA Vera Rubin — 推論コストを劇的に下げる次世代AIインフラ

はじめに:なぜ今、推論コストが問題なのか

2026年に入り、AIをめぐる議論は「モデルの性能」から「推論コストの経済性」へと急速にシフトしている。大規模言語モデル(LLM)の能力はもはや疑いの余地がないが、実際のビジネス展開で壁となっているのが「1トークンあたりの推論コスト」だ。

特にエージェント型AIは、一つのタスクを遂行するために何百〜何千ものLLM呼び出しを行う。単純な問い合わせとは桁が違うコストがかかるため、スケールアウトが難しかった。

NVIDIAのCEO Jensen Huangは2026年3月のGTC 2026基調講演で、この状況を端的に表現した。「もし彼らがより多くのキャパシティを持てば、より多くのトークンを生成でき、収益が上がる。エージェント型アプリが別のエージェントを生成して次々タスクをこなすようになった今、生成されるトークン数は爆発的に増加している」と述べ、高速・低コストの推論インフラの重要性を強調した。

そこにNVIDIAが打ち込んだ答えが Vera Rubin プラットフォームだ。CES 2026(2026年1月)で初公開され、GTC 2026(2026年3月)で詳細が明かされたこの次世代AIインフラは、推論コストを従来のBlackwellと比較して最大10分の1に削減すると謳い、業界の注目を集めている。

本記事では、Vera Rubinのアーキテクチャを技術的に掘り下げ、なぜこれほどのコスト削減が実現できるのか、そしてエージェント型AIの未来にどのような影響を与えるかを考察する。


Vera Rubin とは何か:7チップ統合の「AIスーパーコンピュータ」

Vera Rubinは単一のGPUチップではなく、7種類の専用チップを極度に協調設計(co-design)した統合AIプラットフォームだ。NVIDIAはこれを「Extreme Co-Design」と呼んでいる。GTC 2026でNVIDIAがGroqを2025年12月に約200億ドルで買収したことを公式に認め、Groq 3 LPUが7番目のチップとしてプラットフォームに加わった。

構成する7チップは以下の通りだ。

チップ役割
Vera CPUAI専用カスタムCPU(88基のOlympusコア)
Rubin GPUAI演算の中核(50 PFLOPS NVFP4)
NVLink 6 SwitchGPU間高速通信(3.6 TB/s)
ConnectX-9 SuperNICネットワーク処理
BlueField-4 DPUデータ処理・推論コンテキストメモリ
Spectrum-6 Ethernet Switchイーサネット通信
Groq 3 LPU低遅延推論アクセラレータ(新規追加)

このシステム全体がラック単位で統合され、Vera Rubin NVL72 というフォームファクターで提供される。72基のRubin GPUと36基のVera CPUを1ラックに集積した構成だ。さらに大規模な展開では Vera Rubin POD という40ラック規模の構成も用意されており、60エクサFLOPSの演算能力を提供する。


Vera CPU:AI専用設計の独自プロセッサ

Vera Rubinが従来プラットフォームと大きく異なる点の一つが、**NVIDIAが独自設計したカスタムCPU「Vera」**の採用だ。

Veraは 88基のOlympusコア を搭載する。OlympusはARMv9.2命令セットをベースとしたNVIDIA独自設計のコアで、AIデータセンターのワークロードに特化して最適化されている。各コアは「空間的マルチスレッディング(Spatial Multithreading)」技術により2スレッドを並列処理し、合計 176スレッド の処理能力を持つ。L3キャッシュは40%増加し162MBとなり、トランジスタ数は前世代比2.2倍の2270億に達する。

注目すべきはFP8精度のサポートだ。Vera CPUはFP8をネイティブにサポートする業界初のCPUであり、AIワークロード全体を低精度数値形式で統一処理できる。

メモリ面では、最大 1.5TB のSOCAMM LPDDR5X メモリを搭載し、1.2 TB/s のメモリ帯域幅を提供する。メモリバス幅を1024ビットに拡幅し、速度を9600MT/sに向上させることで、前世代比2.5倍の帯域幅を実現している。さらに重要なのがRubin GPUとの接続だ。**第2世代NVLink-C2C(Chip-to-Chip)**により、CPU-GPU間で 1.8 TB/s のコヒーレントな帯域幅を実現。これはPCIe Gen 6比で7倍の速度だ。

なぜカスタムCPUが必要なのか

従来のAIサーバーでは汎用CPUを使ってきたが、LLM推論においてCPUはボトルネックになりやすい。ホストCPUのメモリ帯域幅や接続速度がGPUの処理能力に追いつかないためだ。

NVIDIAはLLM推論がメモリ帯域幅と相互接続によって制約されることを認識し、CPU側も独自設計することでシステム全体を最適化した。CPU-GPU間の高速コヒーレントリンクにより、データ転送のオーバーヘッドが最小化され、GPU稼働率が向上する。


Rubin GPU:推論に特化した次世代演算エンジン

Rubin GPUは、AI推論に特化した数々の革新を詰め込んでいる。

主要スペック

項目
NVFP4推論性能50 PFLOPS(Blackwellの5倍)
NVFP4訓練性能35 PFLOPS(Blackwellの3.5倍)
HBM4メモリ288GB(1基あたり)
HBM4メモリ帯域幅22 TB/s
NVLink 6帯域幅3.6 TB/s(GPU1基あたり)
トランジスタ数3,360億

特に注目すべきは HBM4 の採用だ。前世代のHBM3と比べてメモリ帯域幅が約2.8倍向上しており、LLM推論がメモリ帯域幅に制約されるという問題に直接対応している。

NVFP4と第3世代Transformerエンジン

Rubin GPUには 第3世代Transformerエンジン が搭載されており、NVFP4という新しい低精度数値形式を活用する。NVFP4はBlackwellが採用したNVFP8よりもさらに算術密度が高く、精度を保ちながら大幅なスループット向上を実現している。NVIDIAはこの低精度実行をアーキテクチャとソフトウェアスタックの両方に深く統合することで、単なるFLOPS増加を超えた実効スループットの向上を達成した。


LLMの推論、特にMixture-of-Experts(MoE)モデルやマルチGPU環境では、GPU間の通信帯域幅 が性能を左右する。

NVLink 6は前世代(NVLink 5)と比較して 帯域幅を2倍 に向上させた。

指標NVLink 5NVLink 6
スイッチあたり帯域幅1,800 GB/s3,600 GB/s
GPU1基あたりの帯域幅約1.8 TB/s3.6 TB/s
NVL72ラック全体260 TB/s

NVL72ラックが提供する260 TB/sの内部帯域幅は、大規模MoEモデルの効率的な推論を可能にする規模だ。


Groq 3 LPU:低遅延推論アクセラレータ

GTC 2026での最大のサプライズの一つが、GroqのLPU(Language Processing Unit)技術のVera Rubinプラットフォームへの統合だ。NVIDIAは2025年12月24日にGroqを約200億ドルで買収し、上級スタッフの採用とGroqのLPU技術の非独占的ライセンスを取得した。

GPUとLPUの役割分担

Vera Rubinシステムでは、RubinとGroqが推論プロセスを分担する。

  • Rubin GPU: プリフィル処理とデコードアテンション処理を担当
  • Groq 3 LPU: フィード・フォワード・ネットワーク(FFN)の実行を担当

この分業体制により、各チップが最も得意な処理に集中できる。

Groq 3 LPX ラックの仕様

GTC 2026で発表された Groq 3 LPX ラック は、256基のLPUを搭載する。

項目
SRAM容量(チップあたり)500MB
SRAMバンド幅(チップあたり)150 TB/s
スケールアップ帯域幅(チップあたり)2.5 TB/s
オンチップSRAM総容量(ラック)128GB
スケールアップ帯域幅(ラック)640 TB/s

Groq 3はキャパシティよりも帯域幅を重視した設計で、チップあたり約80 TB/sの帯域幅を持つ。このSRAM中心の高帯域幅設計が、FFN処理における低遅延を実現する。

統合の効果

VeraRubinとGroq LPXの組み合わせにより、Rubin GPU単体と比較して トリリオンパラメータモデルの推論スループットが最大35倍向上 し、メガワットあたりのスループットが35倍増加 する。これはCUDAプラットフォームへの大幅な変更を必要とせず、LPUを高度に特化したデコードアクセラレータとして活用することで達成される。


推論コンテキストメモリストレージ:エージェント型AIへの特化

Vera Rubinが「エージェント型AIのための基盤」として設計されていることを示す重要な機能が、推論コンテキストメモリストレージプラットフォームだ。

新しいメモリ階層

NVIDIAはBlueField-4 DPUを活用して、GPUと従来のストレージの間に新たなメモリ階層を構築した。

BlueField-4 STXストレージラックは、AIエージェントが大規模なマルチターン対話を維持する際のコンテキスト一貫性を保つための「専用コンテキストメモリ」として機能する。KVキャッシュデータをBlueField-4チップにオフロードすることで、AI推論インフラ全体でのキャッシュデータの共有・再利用が可能になり、推論スループットを 最大5倍向上 させる。

エージェント型AIへの影響

エージェント型AIは、単純な問い合わせとは根本的に異なる計算パターンを持つ。

1つの指示に対して数十〜数百回のLLM呼び出しが発生し、それぞれが長いコンテキストを持つ。推論コンテキストメモリストレージはこのKVキャッシュを効率的に管理することで、エージェント型AIの総合的なスループットとコスト効率を改善する。


10倍コスト削減の仕組み:数値の正確な読み方

NVIDIAが主張する「推論コスト10分の1」という数値は、どのような条件で達成されるのかを正確に理解することが重要だ。

主要な改善要因

10倍のコスト削減は複数の技術革新の複合効果として実現される。

HBM4メモリ帯域幅の向上: 約 2.8倍
NVLink 6スループットの向上: 約 2倍
NVFP4 Tensor Core性能向上: 約 5倍
Groq LPU統合によるFNN処理効率化: 追加要因

電力効率の劇的な改善

Jensen Huangは基調講演で印象的な数値を示した。「Blackwell世代では1GWのデータセンターから毎秒2200万トークンを生成できた。Vera Rubinでは同じ電力で毎秒7億トークンを生成できる。これは2年間で350倍の改善だ」と述べた。

指標BlackwellVera Rubin改善倍率
1GWあたりトークン/秒2,200万7億約32倍
トークンコスト(長コンテキスト)基準最大1/10最大10倍
推論スループット/ワット基準10倍10倍
MoE訓練GPU数基準1/44倍効率化

現実的な期待値

一方で、現実的な評価も重要だ。10倍のコスト削減は「長コンテキスト・長出力」という特定条件でのベンチマーク結果であり、短いコンテキストの密なモデル(dense model)推論では2〜3倍の改善 が現実的な期待値となる。


NVL72ラック:システム全体の性能

Vera Rubin NVL72は、各コンポーネントが統合されたラックスケールシステムだ。

NVL72の仕様まとめ

項目仕様
GPU構成Rubin GPU × 72基
CPU構成Vera CPU × 36基
総NVFP4推論性能3.6 エグザFLOPS
総HBM4容量20.7 TB
総HBM4帯域幅1.6 PB/s(ペタバイト毎秒)
NVLink 6総帯域幅260 TB/s

Vera Rubin POD:データセンター規模での展開

さらに大規模な構成として Vera Rubin POD が用意されており、40ラック規模で構成される。

項目仕様
総GPU数2,880基
総演算性能60 エグザFLOPS
構成コンポーネント1,300,000点以上

PODはNVIDIA自身が「AIファクトリー」と呼ぶ次世代データセンターの基本単位となる。


Blackwellとの比較:世代間の進化

Vera RubinはNVIDIAのBlackwellの次に位置づけられる。各世代の主要な改善点を整理する。

項目BlackwellVera Rubin改善倍率
GPU推論性能(NVFP4)10 PFLOPS50 PFLOPS5倍
GPU訓練性能10 PFLOPS35 PFLOPS3.5倍
GPU間帯域幅1,800 GB/s3,600 GB/s2倍
HBM世代HBM3HBM4約2.8倍
CPU汎用/GraceVera(Olympus 88コア)
低遅延推論Groq 3 LPU統合
訓練GPU数(MoE)基準1/4に削減4倍
トークンコスト基準最大1/10最大10倍

展開タイムラインと主要パートナー

提供スケジュール

NVIDIAはVera Rubinの 量産・出荷を2026年下半期から開始 する計画だ。GTC 2026(2026年3月16〜19日)時点でVera Rubinは「フルプロダクション状態」であることが確認されている。

初期展開パートナー

最初にVera Rubinベースのクラウドサービスを提供するパートナーとして、以下の企業が発表されている。

  • ハイパースケーラー: AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructure(OCI)
  • 専門クラウド: CoreWeave、Lambda、Nebius、Nscale

Jensen Huangは「2027年末までにBlackwellとRubinへの累計注文は1兆ドルを超えるだろう」と述べており、Vera Rubinがデータセンター投資の中核として位置づけられていることを示した。


技術的課題と今後の展望

電力消費とデータセンター投資

NVL72ラックは膨大な演算能力を持つ一方で、電力消費も相応だ。2026年、ハイパースケーラーのデータセンター設備投資は合計650億ドルを超えると予測されており、Vera Rubinの導入には電力・冷却インフラへの大規模投資が必要となる。

ソフトウェアエコシステムの整備

Groq 3 LPUの統合はCUDAプラットフォームへの大幅な変更を必要としないとNVIDIAは説明しているが、ソフトウェアスタック(CUDAライブラリ、推論フレームワーク)の最適化も重要だ。NVIDIAはNIM(NVIDIA Inference Microservices)などで対応を進めている。

次世代「Vera Rubin Ultra」

GTC 2026ではさらに次世代の Vera Rubin Ultra も予告されており、NVIDIAが年次サイクルでのプラットフォーム進化を続けることが示唆されている。


まとめ:AIインフラの次のステージへ

NVIDIA Vera Rubinは、単なる「より速いGPU」ではない。Vera CPUという独自プロセッサ、HBM4による大幅なメモリ帯域幅向上、NVLink 6による2倍のGPU間通信、Groq 3 LPUとの低遅延推論統合、推論コンテキストメモリストレージによるKVキャッシュ管理——これら7つのチップと関連システムが極度に協調設計された統合AIプラットフォームだ。

最大10倍の推論コスト削減(長コンテキスト条件)、MoEモデル訓練に必要なGPU数4分の1、そして同一電力での350倍のトークン生成能力は、エージェント型AIの経済的実現可能性を根本的に変える。

エージェント型AIが企業の業務自動化に本格的に展開されつつある2026年において、推論コストはビジネスの採算性に直結する課題だ。Vera Rubinが2026年下半期に量産を開始すれば、このコスト方程式は書き換えられる。AIの実用化を左右するのは、モデルの知能だけでなく、それを動かすインフラの経済性でもある。Vera Rubinはその文脈で、2026年を代表する重要なインフラ革新となるだろう。


参考文献

タイトル情報源日付URL
NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New Chips, One Incredible AI SupercomputerNVIDIA Newsroom2026/03/16https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer
NVIDIA Vera Rubin Opens Agentic AI FrontierNVIDIA Newsroom2026/03/16https://nvidianews.nvidia.com/news/nvidia-vera-rubin-platform
Inside the NVIDIA Vera Rubin Platform: Six New Chips, One AI SupercomputerNVIDIA Technical Blog2026/03/16https://developer.nvidia.com/blog/inside-the-nvidia-rubin-platform-six-new-chips-one-ai-supercomputer/
Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin PlatformNVIDIA Technical Blog2026/03/16https://developer.nvidia.com/blog/inside-nvidia-groq-3-lpx-the-low-latency-inference-accelerator-for-the-nvidia-vera-rubin-platform/
NVIDIA Vera Rubin POD: Seven Chips, Five Rack-Scale Systems, One AI SupercomputerNVIDIA Technical Blog2026/03/16https://developer.nvidia.com/blog/nvidia-vera-rubin-pod-seven-chips-five-rack-scale-systems-one-ai-supercomputer/
Infrastructure for Scalable AI ReasoningNVIDIA公式2026/03https://www.nvidia.com/en-us/data-center/technologies/rubin/
Nvidia launches Vera Rubin NVL72 AI supercomputer at CESTom’s Hardware2026/01/06https://www.tomshardware.com/pc-components/gpus/nvidia-launches-vera-rubin-nvl72-ai-supercomputer-at-ces-promises-up-to-5x-greater-inference-performance-and-10x-lower-cost-per-token-than-blackwell-coming-2h-2026
GTC 2026: Nvidia Unveils Vera Rubin AI Platform, Eyes $1T by 2027Data Center Knowledge2026/03/16https://www.datacenterknowledge.com/data-center-chips/gtc-2026-nvidia-unveils-vera-rubin-ai-platform-eyes-1t-by-2027
Nvidia GTC 2026: CEO Jensen Huang sees $1 trillion in orders for Blackwell and Vera Rubin through ‘27CNBC2026/03/16https://www.cnbc.com/2026/03/16/nvidia-gtc-2026-ceo-jensen-huang-keynote-blackwell-vera-rubin.html
Nvidia’s Rubin platform aims to cut AI training, inference costsCIO Dive2026/03https://www.ciodive.com/news/nvidia-rubin-cut-ai-training-inference-costs/808915/
NVIDIA Vera Rubin NVL72 Detailed: 72 GPUs, 36 CPUs, 260 TB/s Scale-Up BandwidthVideoCardz2026/01https://videocardz.com/newz/nvidia-vera-rubin-nvl72-detailed-72-gpus-36-cpus-260-tb-s-scale-up-bandwidth
Decoding the Future of Inference At NVIDIA: Groq LPUs Join Vera Rubin PlatformServeTheHome2026/03/16https://www.servethehome.com/decoding-the-future-of-inference-at-nvidia-groq-lpus-join-vera-rubin-platform-for-low-latency-inference/
Nvidia Boasts 7 Chips in Production for Vera Rubin Platform, Including Groq 3 LPUHPCwire2026/03/16https://www.hpcwire.com/2026/03/16/nvidia-boasts-7-chips-in-production-for-vera-rubin-platform-including-groq-3-lpu/
NVIDIA Launches New Vera CPU: 88 Olympus Cores Designed From Scratch for AIKnowledge Hub Media2026/01https://knowledgehubmedia.com/nvidia-launches-new-vera-cpu-88-olympus-cores-designed-from-scratch-for-ai/
NVIDIA GTC 2026: Rubin GPUs, Groq LPUs, Vera CPUs, and What NVIDIA Is Building for Trillion-Parameter InferenceStorageReview2026/03/16https://www.storagereview.com/news/nvidia-gtc-2026-rubin-gpus-groq-lpus-vera-cpus-and-what-nvidia-is-building-for-trillion-parameter-inference