AIインフラの歴史において、2026年初頭は一つの転換点として記憶されることになるだろう。OpenAIがCerebrasとの100億ドル超の契約を締結し、NVIDIA製GPU以外の推論アクセラレーターを本番環境に初めて大規模導入したのだ。その象徴が「GPT-5.3-Codex-Spark」—毎秒1,000トークンを超える速度で動作するコーディング特化モデルである。
この動きは単なる調達先の変更ではない。長年にわたってAIハードウェア市場を独占してきたNVIDIAの牙城に、本質的な競争が持ち込まれたことを意味する。本稿では、Cerebras WSE-3アーキテクチャの技術的詳細、OpenAIとの契約の背景、そしてAIインフラの多様化がもたらす産業全体への影響を詳しく解説する。
Cerebras WSE-3: ウェーハスケールエンジンの革新
従来のGPUアーキテクチャとの根本的な違い
現代のAI推論を支えるGPUの多くは、シリコンウェーハを個別チップに切り出し(ダイシング)、それを複数枚ネットワーク接続して並列処理を実現するアーキテクチャを採用している。NVIDIAのH100やB200はその典型例であり、NVLink等の高速インターコネクトで複数チップを接続することでスケールアウトを図る。
Cerebrasが選んだアプローチはこの常識を覆すものだ。WSE(Wafer Scale Engine)は、ウェーハ全体を一枚の巨大なチップとして動作させる。物理的なダイシングを行わないため、チップ間通信のオーバーヘッドが原理的に存在しない。
WSE-3の主要スペック
WSE-3はTSMC 5nmプロセスで製造され、以下のスペックを誇る。
| 仕様項目 | WSE-3 | NVIDIA H100 | 比較倍率 |
|---|---|---|---|
| トランジスタ数 | 4兆個 | 約800億個 | 約50倍 |
| AIコア数 | 900,000コア | 17,408コア | 約52倍 |
| オンチップSRAM | 44 GB | 50 MB | 約880倍 |
| メモリ帯域幅 | 21 PB/s | 3.35 TB/s | 約7,000倍 |
| チップ面積 | 46,255 mm² | 814 mm² | 約57倍 |
| ピーク演算性能 | 125 PFLOPS | 3.958 PFLOPS | 約32倍 |
特筆すべきはオンチップSRAMの容量だ。WSE-3の44 GBはH100の880倍に相当する。AI推論においてメモリ帯域幅はボトルネックになりやすく、オンチップに大容量メモリを搭載することでチップ外メモリへのアクセスを最小化できる。これが高速推論の根本的な要因となっている。
ウェーハスケールが実現する推論速度
WSE-3の900,000コアはすべて2Dメッシュトポロジーで均一に接続されている。このアーキテクチャにより、トークン生成における「デコード」フェーズが劇的に高速化される。
通常のGPUクラスターがAI推論を行う場合、複数のGPU間でモデルの重みデータを転送する必要がある。WSE-3では全ての重みがオンチップSRAM上に展開されるため、外部メモリへのアクセスが不要となり、数千トークン/秒という高スループットが実現する。
OpenAIとCerebrasの100億ドル契約
契約の概要
2026年1月、OpenAIとCerebrasは750メガワットの計算リソースを2028年まで提供する多年契約を締結した。契約総額は100億ドルを超え、Cerebrasのビジネス規模からすれば変革的な取引だ。
Cerebras CEOのAndrew Feldman氏によると、交渉のきっかけは前年8月にさかのぼる。CerebrasがOpenAIのオープンソースモデルを自社チップ上でGPUより効率的に動作させることを実証したのだ。この技術デモが大型契約への扉を開いた。
OpenAIにとってこの契約は、調達先多様化戦略の中核を担う。これまでOpenAIは既存のNVIDIA、AMD、Broadcomへの発注を維持しつつ、Cerebrasとの100億ドル規模の推論専用コンピュート調達を追加した。「AIインフラのリスク分散」という戦略的意思決定がここに反映されている。
GPT-5.3-Codex-Spark: 最初の量産成果
2026年2月、OpenAIはこの提携の最初の成果として「GPT-5.3-Codex-Spark」を公開した。GPT-5.3-Codexの軽量版として設計されたこのモデルは、リアルタイムコーディングに最適化されており、以下の特徴を持つ。
- 推論速度: 1,000トークン/秒以上(GPT-5.3-Codexの約15倍)
- コンテキストウィンドウ: 128k(テキストのみ)
- 対応環境: ChatGPT Pro、Codexアプリ、CLI、VS Code拡張
- 提供形態: リサーチプレビュー(段階的展開)
毎秒1,000トークンという数字は直感的に理解しにくいが、GPT-5.3-Codexが65〜70トークン/秒で動作することと比較すると、開発者がコードをタイプするよりも速くAIが補完・生成できることを意味する。これはコーディングの「インタラクティブ性」を根本的に変える速度だ。
なぜコーディングが最初のユースケースなのか
OpenAIがCerebrasチップを最初に適用した領域がコーディング(エージェント型コーディング)であることは戦略的に理にかなっている。
コーディングアシスタントの生産性はレスポンス速度に強く依存する。開発者がコードを書きながらリアルタイムで補完を受け取る際、数百ミリ秒の遅延でも集中力が途切れる。AIエージェントがテストを実行し、バグを修正し、コードをリファクタリングするアジェンティックなワークフローでは、この速度の重要性はさらに高まる。
Cerebrasのウェーハスケールチップが提供する超高速推論は、この領域に最も直接的な価値をもたらすため、最初のユースケースとして選ばれた。
NVIDIAの独占体制が崩れる構造的背景
AIインフラにおけるNVIDIAの支配
過去5年間、AIの訓練・推論市場はNVIDIAがほぼ独占してきた。H100、A100を中心とするGPUは全主要クラウドプロバイダーと大型AIラボの標準インフラとなり、CUDAエコシステムへの強力なロックインが競合他社の参入を困難にしてきた。
この独占的地位はOpenAIにとっても制約だった。単一供給者への依存は以下のリスクをはらむ。
- 価格交渉力の消失: NVIDIA側が価格設定に強い優位性を持つ
- 供給ボトルネック: GPU不足がAIサービスの拡張を制約する
- 単一障害点: NVIDIAの製造・供給問題がそのまま事業リスクになる
OpenAIの多様化戦略
OpenAIは2025年から調達先の多様化を本格化させている。NVIDIAとの既存契約を維持しつつ、AMD、Broadcom、そしてCerebrasへの発注を拡大した。Cerebrasとの100億ドル契約は、その中でも特に推論ワークロードに特化した戦略的投資だ。
注目すべき点は、Cerebrasチップが「汎用コンピューティング」ではなく「推論の高速化」に特化した採用であることだ。Deloitteの予測では、2026年には推論がAI計算全体の約3分の2を占めるとされており(2025年時点では約50%)、推論アクセラレーターへの需要は今後さらに拡大する。
AWSとCerebrasの提携: クラウドへの波及
OpenAIとの契約から約2ヶ月後の2026年3月13日、AWSとCerebrasが重要な提携を発表した。AWS BedrockにWSE-3チップを導入する「分離型推論アーキテクチャ(Disaggregated Inference Architecture)」の展開だ。
技術的には、AWSのTrainiumプロセッサがプリフィル(プロンプト処理)フェーズを担当し、Cerebras CS-3がデコード(出力生成)フェーズを担当するハイブリッド構成を採る。この分業により、同一ハードウェアフットプリントで5倍のトークンキャパシティを実現できるとされている。
この「分離型推論」アーキテクチャの考え方は、各フェーズの計算特性の違いを活かしたものだ。プリフィルは並列処理が得意なGPU系に、デコードは大容量オンチップメモリを持つWSE-3に担わせることで、全体のスループットを最大化する。
Cerebrasの企業戦略とIPO
$22億バリュエーションへの成長
Cerebrasは2024年時点で80億ドルのバリュエーションだったが、OpenAI契約や複数の大型顧客獲得(IBM、米エネルギー省等)により、2026年初頭には220億ドル超の評価額が報告されている。2025年の推定売上は10億ドルを超え、単なる研究段階のスタートアップから実収益を持つインフラ企業へと成熟した。
IPO計画とその経緯
Cerebrasは2025年末にIPOを申請したが、アブダビのG42との資本関係に関するCFIUS(米国外国投資委員会)審査により一時取り下げを余儀なくされた。その後、G42が投資家リストから外れCFIUS承認を取得し、2026年Q2を目標とした再申請を計画している。
OpenAIやAWSとの大型契約は、IPO前の事業実績として申し分ないバックグラウンドとなっている。
AIインフラの多極化が示す未来
「最速推論」競争の勃発
GPT-5.3-Codex-SparkのリリースはAI業界に新たな競争軸を持ち込んだ。モデルの「賢さ」だけでなく、「速さ」が差別化要因として前面に出てきたのだ。
Cerebrasが主張する20倍の速度優位性(対NVIDIA GPU比)が実証されれば、AIサービス事業者は用途に応じてハードウェアを選択する時代に入る。
- 高精度が必要なタスク: 従来型GPU(NVIDIA H100/B200等)
- 超低レイテンシーが必要なタスク: Cerebras WSE-3
- コスト効率最優先のタスク: AMD MI300X、カスタムASIC等
NVIDIAへの影響
NVIDIAの市場支配が揺らぐわけではないが、重要な変化が起きている。推論市場においてNVIDIAは強力な競合との真の競争に直面する最初の局面を迎えている。
特に注目すべきは、OpenAI・AWS・Cerebrasという組み合わせが示す「エコシステム構築」の動きだ。CUDAが長年GPUを選択する事実上の理由だったように、推論に特化した新たなエコシステムが形成されつつある。
開発者体験の変容
超高速推論がもたらす変化は、単なるパフォーマンス指標の改善にとどまらない。Spotifyでは、2025年12月以降にAIコーディングツールの普及により最高クラスのエンジニアが「コードを書かなくなった」という報告がある。Claude CodeやGPT-5.3-Codex-Sparkのような超高速AIコーディングツールが、この変容をさらに加速させる。
毎秒1,000トークンの推論速度は、開発者とAIの協働スタイルを根本的に変える閾値になりうる。リアルタイムの思考補完、即座のコードレビュー、瞬時のデバッグ提案—これらが待ち時間なく提供されれば、ソフトウェア開発の生産性は桁違いに向上する。
まとめ
Cerebras WSE-3とOpenAIの提携は、AI推論インフラに三つの重要な転換をもたらした。
第一に、技術的転換として、ウェーハスケールアーキテクチャが「毎秒1,000トークン」という新しいパフォーマンス基準を打ち立てた。第二に、産業構造の転換として、NVIDIA一極集中から多極化へのシフトが本格的に始まった。第三に、競争軸の転換として、モデルの「賢さ」と並んで推論「速度」が主要な差別化要素として確立された。
AWSとの提携で示された「分離型推論アーキテクチャ」は、さらなる普及を示唆する。2026年中に一般のクラウドユーザーがAmazon Bedrock経由でWSE-3の恩恵を受けられるようになれば、高速推論は一部の大型ラボだけの特権から、標準的なAIサービスのコンポーネントへと変貌する。
NVIDIAが長年かけて構築したエコシステムの壁は高い。しかし、100億ドルの契約、AWSとの戦略的提携、そして開発者が実際に体験できる15倍の速度優位性—これらが重なるとき、AIインフラの競争地図は確実に塗り替えられている。
