2025年1月にNVIDIAが発表したProject DIGITS。Mac miniのような小さな筐体で大規模なパラメータのLLMを動かせる夢のマシンとして発表され、自分も気になってます。Apple Mシリーズに対抗する最強のSoCはこれだ、という感じですよね(笑)。
LLMを動かす際には、まずVRAM上に大きなモデルを載っけられることが必要ですが、その上でどれくらいの生成速度が出るかはメモリ帯域が効いてきます文献1。そこでProject DIGITSがどれくらいのメモリ帯域幅があるのか、推定してみました。
他のCPUの事例を見てみると
Project DIGITSのGB10はユニファイドメモリにLPDDR5xを採用することがわかっています。そこで参考になるのは同じNVIDIAのNVIDIA GRACEと、ライバルのApple M4シリーズプロセッサです。
GRACEでは動作周波数が8.533GHzで、64bitのメモリコントローラーを8個積んで文献2、8.533×64×8/8=546 (GB/s)のメモリ帯域となっていることがわかっています。
一方Apple M4シリーズプロセッサで128GBのユニファイドメモリを選べるのはM4 Maxとなります。こちらのメモリコントローラーは動作周波数は同じく8.533GHzですが、128bitのメモリコントローラーを4つ積んで文献3、546GB/sのメモリ帯域になっています。
なぜ違うbit幅のメモリコントローラーを使っているのかというと、サイズとコストだと考えられます。GRACEは写真見てもらうとわかるのですが、チップを繋げたような作りになっていて、チップそのものが巨大です。使うところもラックサーバーなどを想定しています。なのでメモリコントローラとメモリの数が増えても許容できるのだと思います。
GRACE CPU Spuerchip(画像出典:NVIDIAウェブサイト)
一方、M4 MaxはMacbook ProやMac miniといった筐体のサイズ=チップサイズに制限がある環境での利用を想定しています。そのためコストアップになるのを承知で、セミカスタムモデルチップの128bitのコントローラーとメモリを積んでいると考えられます。なのでM4 Max以外のM4やM4 Proでは64bitのコントローラ&メモリを使っています。
そうすると本当にそんな高いコントローラ&メモリを使うのだろうか?という疑問が湧いてきます。もしもコスト重視で64bitチップ4つという構成になるとしたら、8.533×64×4/8=273 (GB/s)となり、だいぶ景色が変わってきます。
メモリ帯域とLLMの動作速度
2枚ともトークン生成速度文献4、GPU文献5のデータを元に筆者作成。
このチャートは横軸にメモリ帯域、縦軸にトークンの出力速度または評価速度をとったものです。オレンジ色はRTX3000シリーズ、水色はRTX4000シリーズのデータです。
オレンジ色と水色のデータから、同じシリーズのGPUであれば、LLMの動作速度はメモリ帯域と相関関係があることがわかります。なので、メモリ帯域がわかればどれくらいの速度でLLMが動くか推測ができます。
RTX5000シリーズのデータはまだありませんが、RTX4000シリーズのデータの近似曲線を元に推定したRTX5000シリーズのトークン生成速度を緑色でプロットしています(もっと良くなる可能性や、3080TI 12GBのように使いきれないこともありますが、まあ大体ということで)。GB10もRTX5000シリーズと同じシリーズであるので、同じ線に乗ってくると考えて良いでしょう。
ここで分かるのは、GB10のメモリ帯域が546GB/sであれば、4070TI 12GBと同程度のスピードでLLMが動作するけれども、273GB/sであれば4060TI 16GBと同じくらいのスピードになるだろうということです。
ボトルネックの視点から
ここでGB10の処理性能を確認してみましょう。詳細は明らかになってませんが、FP4で1TFLOPSとうたわれています。一番性能の良い数字を出すでしょうから、このFP4とはスパースの数字とみてよいでしょう。すると文献6の情報からRTX 5070(GB205)のスペックと同等ではないか、と推測されます。
RTX 5070はGPU用のGDDR7という規格のメモリを使っていますが、メモリ帯域は28×192/8=672 (GB/s)確保されています。これは見方を変えるとGB205の性能を効果的に出すためには672GB/s必要だと考えられていると読み取れます。
一般的にどこかが大きなボトルネックにならないようにシステムは設計されます。すると273GB/sでは40%程度の帯域となり明らかにGPU性能とバランスが取れなくなります。ということで、期待も込めて、GB10は546GB/sのメモリ帯域を確保するのではないか、と推定します。
- 金のニワトリ、"ローカルLLMのための最適なGPU選定:Mac Studio購入の決め手"、zenn(参照2024-11-14)↩
- Vengineer、"NVIDIA GRACE の LPDDR5Xの性能の振り返り"、Vengineerの妄想(参照2025-02-04)↩
- MysticRoom Tak.、"Apple「M4」シリーズのメモリ仕様、どう変わったかを解説 LPDDR5X初採用の効果は"、ITmedia NEWS(MACお宝探偵団)(参照2025-02-04)↩
- XiongjieDai、"GPU-Benchmarks-on-LLM-Inference"、GitHub(参照2025-02-04)↩
- 職人3号、"NVIDIA TITAN・GeForce スペック・性能比較【デスクトップ】"、パソコン工房NEXMAG(参照2025-02-04)↩
- 笠原 一輝、"新たに判明したGeForce RTX 5090のアーキテクチャを徹底解説"、PC Watch(参照2025-02-04)↩