導入事例

株式会社サイバーエージェント様

国内最大規模の和製生成AI開発・AI活用のための最先端GPUの大規模導入を高負荷ハウジングサービスで実現

導入事例

国内最大規模の 和製生成AI開発・AI活用のための 最先端GPUの大規模導入を 高負荷ハウジングサービスで実現

株式会社IDCフロンティア

株式会社サイバーエージェント様は、2016年からインターネット広告事業でAI活用を開始し、2023年には日本初となるNVIDIA DGX H100を国内初導入した開発環境を、IDCフロンティアの高負荷ハウジングサービスにて稼働させています。AI活用の目的、データセンター選定の理由や経緯について、同社 CIU(CyberAgent Group Infrastructure Unit)高橋大輔氏にお話を伺いました。

【GPU・HPCに最適】【高電力/高発熱に対応】高負荷ハウジングサービス

インターネット広告の効果を高めるためにAI活用開始
2023年5月には68億パラメータの日本語LLMを無償公開

サイバーエージェントにおけるAI活用の目的や変遷を教えてください。

サイバーエージェントでは、2016年からインターネット広告分野でAIを研究・開発しています。実際の事業への活用は効果的なバナー画像やコピーの選定に始まり、後に生成系AIでコピーを生成するなど発展しています。2021年から大規模言語モデル(LLM)に取り組み始め、今ではLLMに限定せず研究開発に取り組んでいます。

LLMを無償公開されたとお聞きしました。

2023年5月に、最大68億パラメータの日本語LLMを商用利用可能な形で無償公開しました。オープンなモデルとして公開されている先行事例を見て、サイバーエージェントとしても開発者コミュニティに貢献し、日本におけるLLM開発を盛り上げていきたいと考えています。社内では、ほぼ倍にあたる130億パラメータのLLMを実務で運用しています。

最新鋭のマシンリソースを自分たちの手元に置き、自由度の高い環境を持つ

GPUを自社環境で持つ狙いはどこにあるのでしょうか?

パブリッククラウドで利用できるGPUもありますが、大規模で使いたいとなると必要な時に使えるとは限りません。「空いていません」となってしまうこともあります。短期間試したい時であれば、パブリッククラウドは便利な選択肢ではありますが。

LLMのような大規模なトレーニングでは、数週間単位でマシンを稼働させ続けなくてはなりません。性能でボトルネックに直面することもあります。安定して使えるようにするには最新鋭のマシンリソースを自分たちの手元に置いておく必要があります。

自社環境であれば構成の自由度も高めることができます。今回GPU間のインターコネクトにはイーサネットベースの「RoCEv2」を採用し、サーバー1台あたり、ロスレスで低遅延な3.2TbEネットワークを構築することもできました。

NVIDIAの最先端GPUを設置するには従来のデータセンターでは電力供給と冷却性能が足りない

今回導入したGPUについて教えてください。

LLMではより強力な分散学習環境が必要だったため、現在利用可能な商用製品で最上位のGPUとなる、NVIDIA H100 Tensor コア GPU(以下、H100)を新たに80基導入しました。また、このGPUを搭載したNVIDIA DGX H100は国内で初めての導入です。

NVIDIAによると、前世代のNVIDIA A100 Tensor コア GPU(以下、A100)と比較して単純な性能では最大6倍、Transformer Engine(Transformer accelerator)を搭載しているのでTransformerを使うLLMのAIトレーニングなら最大9倍、AI推論であれば最大30倍高速になると言われています。

H100を導入するにあたり、どのような課題がありましたか?

これまで使用していたデータセンターにH100を搭載したサーバーを追加するには、電力の供給能力と冷却性能が足りませんでした。そのためH100を稼働させるのにふさわしいデータセンターを新たに探す必要がありました。

H100はサーバー1台あたり10kW以上の電力を消費します。A100と比較すると約1.5倍です。大量の電力を使う分、発熱量も相当なので同時に冷やさなくてはなりません。サーバーを設置するには電力供給だけでなく強力な冷却性能が必要です。

【GPU・HPCに最適】【高電力/高発熱に対応】高負荷ハウジングサービス

リアドア型空調機は水冷と空冷のいいところどり
渋谷のオフィスから足を運びやすいロケーション

IDCフロンティアの高負荷ハウジングサービスのどんなところを評価しましたか?

必要な電力供給のほかに、冷却方法にリアドア型空調機を備えていることです。多くのデータセンターで採用されている空冷方式の空調や、壁吹き出しの水冷空調では冷却性能が足りない場合があります。一方、リアドア型空調機はラックの背面に冷水コイルが設置されていて、コイル内に冷水が循環することで高発熱するサーバーから排気される熱を奪い、さらに冷却された空気は通常の空冷方式と同じようにラックの前面から吸気を行うので冷却効率が高いのです。

データセンターにはサーバーやネットワーク機器などの高価な精密機器が密集するため、冷却のためにサーバーフロアで水を使うということには慎重になりますし、しっかりした漏水対策も必要になります。首都圏でIDCフロンティア以外にこのような水冷の仕組みを取り入れたデータセンターはあまりないと思います。

高電力と冷却性能以外にも採用した理由はありますか?

ロケーションが23区からもさほど離れていない都内にあって、渋谷のオフィスからそう遠くないことです。まれに検証や何らかの理由で現地に足を運びたくなる時があります。先述したようなインターコネクト関連ではトランシーバーを試すとか、現地でないとできないことがあるからです。もしデータセンターが都内から遠く離れていると移動にかかる時間や交通費を考慮しておかないといけませんが、この場所ならすぐに足を運べる範囲です。

また、どうしても足を運ばないといけない場合を除けば、オンサイト運用アウトソーシングサービスで作業を代行していただけるのも助かりますね。H100サーバーの作業にも対応しているのもポイントです。

その他、細かいことを挙げるときりがないですが、6~8Uにもなる巨大で重量のあるH100サーバーを設置するために必要な電動リフターを新たに導入いただいたり、利用する側だからこそ気づける要望にも、IDCフロンティアには真摯に対応してもらっています。

H100導入まで、どのくらいの期間がかかりましたか?

データセンターを選定し始めたのが2022年の秋で、2023年5月にGPUサーバーが納品されました。電源を入れたのは納品当日からですが、そこから1ヵ月半ほどかけてOS、ドライバ、ミドルウェアなどのインストール、動作確認、検証を1つずつ進めていきました。最終的に社内のリサーチャーが運用可能な状態になったのが2023年6月下旬ごろです。

こうした構築部分は技術的な最先端ノウハウを獲得できる絶好の機会でもあるので、自社で進めています。こんな面白いところを外注するなんてもったいないです(笑)。

ますますのAI活用を計画
技術トレンドを踏まえリソースを準備

稼働してみてH100の性能は期待通りでしたか?

期待通りかそれ以上です。LLMで使用している社内リサーチャーによると、従来のA100と比較して性能が2.57倍向上していると報告を受けています。ただし、まだH100のTransformer Engineへの最適化が済んでいませんので、今後はさらに性能が向上すると思います。

H100はA100と比較して消費電力は1.5倍ですが、(Transformer Engine最適化前の)現段階での性能は2.57倍ですから、消費電力あたりの効率(ワットパフォーマンス)ではすでにメリットを出せています。

環境への配慮についてお聞かせください。

先述したように、H100を導入することでワットパフォーマンスを向上させていますし、リアドア型空調機を使用することで、通常の空調に比べると消費電力を低く抑えられています。他にもGPUサーバーの筐体はファンの回転数を制御することで消費電力を低く抑えられる製品を選んでいます。

AI活用について、今後の展望を教えてください。

やはりLLMが中心にあるものの、言語以外にも画像・音声・動画も視野に入りますし、マルチモーダルモデルも模索していくことになると思います。当面は元々の目的となるインターネット広告の効果を高めるために、さらなる精度向上、(最新データを素早く取り込むなど)使い勝手向上を目指します。

そのためには増え続けるデータセットの保管場所や計算リソースも準備していかなくてはなりません。ただし物量があればいいというわけではなく、AIや機械学習の技術トレンドを踏まえながら、必要な範囲で投資できるように判断していくことが求められているのだと考えています。

本日は貴重なお時間をいただきありがとうございました。

株式会社サイバーエージェント

株式会社サイバーエージェント

設立
1998年3月18日
所在地
東京都渋谷区宇田川町40番1号 Abema Towers
事業内容
国内トップシェアを誇るインターネット広告事業や新しい未来のテレビ「ABEMA」を展開。 インターネット産業の変化に合わせ新規事業を生み出しながら事業拡大を続けている。2016年に研究開発組織「AI Lab」を設立。社会実装および学術貢献を目指し研究開発に取り組んでいる。
URL
https://www.cyberagent.co.jp/ 新規ウィンドウを開きます

※掲載内容は、本事例の掲載日時点の情報です。
※記載されている会社名、製品名は、各社の登録商標または商標です。

2023年9月27日掲載

【GPU・HPCに最適】【高電力/高発熱に対応】高負荷ハウジングサービス

2023年09月27日掲載