MetaのAIスパコンRSCの稼働状況を、納期や売上から把握する

MetaがAIスパコンであるAI Research SuperCluster (RSC) を発表したことにより、なぜか僕の周囲が賑やかになっている。「ハイパースケーラー向けビジネスって、儲かりそうで良いなあ」とか、漠然としたイメージに基づくコメントをして、末端の場末労働者を苦労させてくれる方々も散見される。

もちろん勉強になるコメントも多い。Pure StorageのQLC型ストレージ装置を採用したということで、「QLCの最新動向が変化しつつある可能性を調べる必要があるかもしれない」と言及したKさんには感動した。

そして「直近で部品に過ぎないストレージの売上が立ったということは、どこまで本格稼働しているのか気になりますね」とコメントしたHさんには、相変わらず着眼点が好ましいことに脱帽させられた。

今回は、どうして僕がHさんの稼働状況コメントに脱帽したのかを、紹介させて頂くことにしたい。

どうして気になるのか

まずMetaのブログに書かれていることを整理しよう。主なプレーヤーは、ブログの掲載図で紹介されている通りだ。

  • 6080 NVIDIA A100 GPU
  • 175PB bulk storage
  • 45PB cache storage
  • 10PB NFS storage

“Today, Meta is announcing that we’ve designed and built the AI Research SuperCluster (RSC) — which we believe is among the fastest AI supercomputers running today and will be the fastest AI supercomputer in the world when it’s fully built out in mid-2022. Our researchers have already started using RSC to train large models in natural language processing (NLP) and computer vision for research, with the aim of one day training models with trillions of parameters.”

我が家のお嬢さんは、「エイゴ、苦手デース」と言って逃げようとするが、落ち着いて目を凝らして欲しい。黄緑色でマーキングしたところが主節の動詞で、黄色でマーキングしたところが従属節の動詞だ。

僕は英語が得意でなかったので、こうやってSVOとかSVOCとかいった五文型を明確に意識して読むことによって、英語力を養った。MetaブログはIDCやGartnerといった調査会社と同じく、非ネイティブ向けに平易な英語で書いてくれている。ぜひ一読することをオススメしたい。

この文章を素直に読むと、「フェーズ1は完了して、フェーズ2が2020年の夏に完了予定」ということになる。ただしウソはダメだけれども、前向きに表現するのはIT業界に限らず、ビジネスの世界では常識的行動だ。

HさんはPure Storageの発表を調べて、2021年11月1日-2022年2月6日のFY22Q4四半期報告書から、Pure StorageではMeta向けに「相当額の売上」があったことに気づいた。

つまり「機器の納品によって売上が立つ訳だから、そんなに早くシステムは組み上がらず、部分的な稼働に過ぎない可能性などはあるかな?」と、彼は気にしたという訳だ。

その時には時間の余裕がなかったので、残念ながらMeta RSCの稼働状況に関する分析結果を説明することが出来なかった。そこで改めて、MetaのRSCがフェーズ1を完了しているように見えることを紹介したいと思う。

(いずれにせよ顧客目線で見て、実稼働状態であるかどうかを気にするあたりが、いかにも技術者らしい。だから半ば商人と化している僕は、ひたすらHさんに脱帽する次第なのだ)

売上の意味

ちょっと反則だけれども、実は僕はPure Storageに相当詳しい。なぜならPure Storageがスタートアップ企業(ベンチャー企業)だった時代から知っていて、IPO(株式公開)時には、株を購入することも考えたからだ。知人にも株の購入を勧めた。

そのPure Storageだけれども、商談発生時から売上までの期間を重視しており、これが営業成績… つまり給与にも反映される。ちなみにPure Storage社内では、「営業」ではなくて「ハンター」という呼称となっている。
案件は勝ち取って来るものなのだ。(CEO談)

そして奇しくもHさんは工場勤めの技術者だから、お客様に製品を納品したら、営業さんが受発注システムに売上フラグを立てる光景を見ている。だからPure StorageはMetaに製品を納品完了した直後だと思い込んだらしい。

しかし… 実はここら辺に、ちょっとした裏事情がある。

まずHさんがご存じないことだけれども、Pure StorageはFY22Q3(8-10月)にも$10M以上の売上を得ている。QLC型ストレージのFlashArray//Cが$0.5/GBで販売されたと仮定すると、20PBに相当する。構築テストには十分な容量だろう。

(ちなみにFlashBladeを$1/GBと考えると、RSCフェーズ1では総額$97.5M。Pure StorageのFY22年間売上は$2.2Bなので、SEC報告規約の総額10%は超えませんな)

それからさらに、支払いタイミングの問題が存在する。

日本の商慣習では、納品したらば早期支払いするのがビジネスマナーだ。
とはいえ個人のオンラインショッピングではないので、そんなに簡単には支払えない。だからビジネスの契約書では、「納品後60日以内に支払い」いった契約条件になることが多い。これ、どうやら米国でも、似たようなものらしい。

ところがMetaは大企業だけあって、ここら辺も徹底しているらしい。手持ち資金は少しでも支払いを遅らせて、その期間だけ預金利子を増やした方が望ましい。実はPure StorageはFY22Q2(5-7月)に、$10M案件があったことを決算報告会で言及していた。

「たかが利子」と侮ってはいけない。僕はかつて従業員数百人の会社で仕事をしていて、1億円の受注で怒られたことがある。「会社を倒産させるつもりか!」と。

小企業だとお客さんに納品する商品に必要となる材料費や人件費などは借金して工面し、納品後に1億円が入って来る。急な借り入れは難しく、せっかくの注文でも商品を納品できなくなってしまう訳だ。

だからといって借り入れているお金が多すぎると、利子で経営が悪化してしまう。商売というのは、ムズカシイのだ。

話をPure Storageに戻そう。

つまりここら辺は完全な憶測になってしまうので妄想レベルだけれども、あくまで可能性の話になってしまうけれども、「$10M案件は6月上旬(FY22Q2)には納品完了しており、支払いが8月上旬(FY22Q3)になった」がゼロではないのだ。

そして同様に、「残り部分が、9月上旬(FY22Q3)には納品完了しており、支払いが11月上旬(FY22Q4)になった」も、可能性としてはゼロではないという訳だ。

(2022年3月21日訂正) 8月のFY22Q2決算説明会で、CFOが「現Q3(8-10月)に出荷開始予定」と言っている。さすがに6-7月出荷は無かったらしい。
(ちなみに原文は、“For instance, a recent eight-figure win with a top 10 hyper-scaler which will begin to ship this Q3 was won against traditional magnetic disk based on our high performance, small space and power footprint and superior total cost of ownership.” … どうやら今まではHDDを使っていたらしい。シリコンバレー内DCの空間的余裕/発熱を考えると、説得力がある)

システム特性

さてところで売上の話で気になるのが、「$10M超の部分的な購入」だ。

僕もOracleデータベース案件などには山ほど付き合ったけれども、普通はハードウェア部品が揃ってから、OSやデータベースといったソフトウェアのインストールなどを開始する。データベースをストレージ内に構築するのだから、ストレージが全て揃っていないと、何もできない。

そしてこのインストール&設定作業には時間がかかるので、お客さんはメーカー側で一通り作業完了してから納品されることを好む。実案件に携わると必ず遭遇する、キッティング問題(僕の周囲での独自用語)という代物だ。
(お客さんとしては、あまり部外者を社内データーセンターに招いたままにしておくのは面倒だといった事情もある)

だから現場のことを良く知る技術者ほど、売上から本番システム(プロダクションシステム)の実稼働までに時間がかかると予想する。もちろんMetaのブログを読むと分かるように、システムチューニングには幾多の試行錯誤を繰り返した。ここらへんは在来型のITシステムと変わらない。

ただし… Pure StorageのFlashArray//Cは、ちょっとばかり違うのだ。何しろ用途は、「Meta DC(データーセンター)からコピーして来たデータを保管するところ」だ。だから20PBくらいで満足いく検証結果が出たら、いっきに175PBへ増設できるのだ。

(それで「エクバイト規模のフェーズ2が2022年中頃」というコメントが可能となる訳だ。もちろん流石にエクサバイトは、何が待ち受けているか未知の領域だ。理論的には簡単であっても、今頃現場はチューニング作業で大騒ぎになっているような気もする)

どうしてDCからデータをコピーする時に、少しでもデータ加工をしないのだろうかと、不思議に思う人もいるかもしれない。しかしこれはAI学習をやってみると分かるけれども、どうやって学習用データを作成するかといった事前作業も、学習結果に大きく影響してしまうのだ。

(それに、DC側の誰がどこでデータ整形するのかという問題も存在するだろう)

だから単純なデータ抽出では済まず、「とりあえず生データをそのまま持って来よう」といったような話になる。そして学習用データを作成する処理も、AIリサーチセンタでRSCが担う実施作業の一部となる。

つまり実稼働の直前にPure StorageのFlashArray//Cが稼働開始すれば、万事オッケーということになる。そして先ほど説明したように、Pure Storage製品は設置してからの設定作業が短時間で済むことが自慢だ。

だから今回の場合、2022年1月24日にMetaがブログ記事を投稿した時点で、既にフェーズ1がフル稼働状態であったとしても、何の不思議もないのだ。

まとめ

以上の通りで、こうやって整理してみると、Hさんがフェーズ1の本格稼働の信憑性を気にしたことには、さすがだと脱帽させられる。

そして結論としては、「たしかにMetaがブログで書いたり、インタビューで説明しているように、本当にフル稼働状態に入っていると見て問題ない」となる。

そうすると次に生じて来るのは、「なぜMetaは2022年1月24日に、フェーズ1としてブログ記事を投稿したのか?」という質問だろうか。

これは正直、僕には見当がつかない。株価が暴落した対策とか、年度決算が芳しくなかったとか、いろいろな理由で企業は情報公開をすることがある。その一方で広報部門として見ると、フェーズ2の完全稼働発表だけではもったいないので、フェーズ1として小出しにしたという見方も可能だ。

研究部門が嬉しくて、無事に本格的に稼働開始したから、パートナーと協力して情報発信したという見方もある。またパートナーから要望されて、発表に踏み切ったという見方もできる。

つまり可能性がいろいろあって、全てが重なったということもあり得るだろうし、もうそこら辺は関係者だけが知ってそうにない。僕のような部外者が知る方法があったら、ぜひ教えて貰えると嬉しいものだ。

そして僕的にはAI研究が進むのは歓迎であって、ビジネス的な話には興味をひかれない。それよりもMetaのRSCが公開されたことにより、他のAIスパコンを抱える組織が、どのように動くかというあたりに興味をひかれる。

それはさておき、最近はAI方面とは縁がなかったけれども、久しぶりに首を突っ込んでみても良いかもしれない。相変わらず、皆さん頑張っていらっしゃるようだ。
(ただし今度は、自宅で水冷式AIシステムを組んで実践してみるという無茶はせずに、あくまで関係者に聞いて回るくらいで)

それでは今回は、この辺で。ではまた。

———————
記事作成:小野谷静