富士通 PRIMEHPC A64FX プラットフォーム

TOP >製品一覧 >富士通 PRIMEHPC A64FX プラットフォーム

「富岳」の流れをくむ、
高性能・高拡張性・高信頼性・省電力性
に優れたスーパーコンピュータ

スーパーコンピュータ「富岳」のために作られた富士通のA64FXプロセッサは、Arm v8.2-A SVE(512-bit SIMD)と呼ばれるスパコン向けに拡張された命令セットを持っています。1CPUは48個の演算コア、メモリ帯域1024GB/sの高速なHBM2メモリを32GB利用可能です。
富士通は、このCPUを搭載したFUJITSU Supercomputer PRIMEHPCシリーズの発売を開始しました。
「富岳」向けのアプリケーション開発・検証環境はもとより、高性能Armサーバとして、HPCクラスタの高性能計算ノードとしてもご活用いただけます。

VTは通常の19インチラックマウントで利用できる、空冷仕様のPRIMEHPC FX700をご提供いたします。
価格や納期なども含め、お気軽にお問い合わせください。

※SVE: Scalable Vector Extension
 512-bitのSIMD演算は、倍精度は8要素、単精度は16要素、半精度は32要素を同時に演算することができます。
※「富岳」はこのCPUを約15万個実装し、先代の「京」の100倍のアプリケーション実行性能を僅か3倍の消費電力で達成するとされています。

富士通 PRIMEHPCシリーズホームページ

「スーパーコンピュータ「富岳」と今後の展開」-商用アプリケーションの拡大 (2020/6 現在 富士通)
LS-DYNA,Poynting,Amber,Gaussian16をはじめとして、エンジニアリング分野(構造解析、流体解析、エレクトロニクスなど)の商用ソフトベンダーはアプリケーションの対応を進めています。

FEATURE富士通 PRIMEHPC A64FX プラットフォーム

富士通のA64FXプロセッサ

スパコン向けCPUとして世界で初めて英アーム(Arm)の命令セット・アーキテクチャー(ISA)を採用した、富士通のA64FXプロセッサは、いくつかの顔を持っています。

1.富士通が独自に開発してきたOut-of-Order実行機能をもつハイエンドプロセッサ

スーパーコンピュータ「富岳」向けのアプリケーションの開発・検証環境として利用できます。
x86環境でのクロスコンパイラなども提供されており、柔軟な開発/評価環境が構築できます。

2.高性能Armプロセッサ

命令アークテクチャはArm v8.2-A SVE(512-bit wide SIMD)命令セットで、基本的にはArm用アプリケーションを動かすことが可能です。

※SVE: Scalable Vector Extension
 512-bitのSIMD演算は、倍精度は8要素、単精度は16要素、半精度は32要素を同時に演算することができます。

3.メニコーア、広帯域大容量メモリ、省電力性を生かしたHPCプラットフォーム

1プロセッサ当たり48コア、メモリ帯域1024GB/sの高速なHBM2メモリを32GB利用可能です。更に、省電力性能を生かして2U筐体で最大8プロセッサ/8ノード構成、InfiniBand EDRを装備したFX700はHPCクラスタとしても活用可能です。
ただし、1ノード/CPU当りの最大メモリは32GBという制限がありますので、大容量メモリが必要なアプリケーションのご利用にはご注意ください。

A64FXの構造:

A64FX CPUは4つに区分されており、各区画に演算用の12個のComputeコアを持っています。全体での演算コア48コアとなります。
各コアは64KiBのL1データキャッシュを備えています。また4つの区画ごとに、区画内の全コアに共通で8MiBのL2キャッシュを持っています。L2キャッシュからは、最大容量が8GiB/メモリバンド幅256GB/sのHBM2メモリに接続されます。プロセッサ全体でのメモリは帯域1024GB/s、容量32GBに達します。

A64FXのメモリバンド幅

  • L1データキャッシュ:11TB/s(B/F比4)
  • L2キャッシュ:3.6TB/s(B/F比1.3)
  • HBM2メモリ:1024GB/s(B/F比0.37)

 ※B/F値 =データ移動量(Byte)/演算量(Flop)

※ FX700のインターコネクト(ノード間通信)はTofuではなく、PCIeバスにInfiniBand EDRカード(オプション)を利用します。

機能のトピックス:

  • アラインされていないデータの読み込みを高速で行うことができる。
    アラインされていないアドレスからの読み込み時でも、次のキャッシュラインを同時に読み込み、その中からアクセスされたアドレスから128バイトの読み込みを行う機能を持っています。
  • アラインされた領域の2つのデータをまとめてレジスタにロードすることができる。
    「Combined Gather」と呼ばれる機能です。
    間接アドレッシングでデータを集めてレジスタにロードする際、128バイトのアラインされた領域に2つのデータが入っていれば、それらを纏めてレジスタに入れる機能で、条件によっては、1つずつロードするのと比べて半分の時間で処理ができます。
  • 省エネルギー性を考慮した4命令並列デコード
    各Computeコアは整数演算器と浮動小数点演算器を2セット持つ。また、省エネルギー性して、不要の時はこの部分の電源をオフにすることができます。
  • FP16 やInte8をサポートするSIMD(Single Instruction Multiple Data)演算機能
    機械学習/Deep Learningの畳み込みなどを想定して、精度の要らない演算を高速に処理できるよう、FP16やInt8をサポートしています。
  • 製造プロセスはTSMCの7nm FinFET
    搭載トランジスタ数は878億6000万で、パッケージの信号端子数は594です。

富士通の培ってきたソフトウェア環境

富士通はこれまで、スーパーコンピュータの分野のフトウェア環境についても、多くの先進的な取り組みを重ねてきました。コンパイラやライブラリ類、運用を支援する各種ソフトウェアなどが整備されています。また、各種コンサルテーションも充実しています。

商用アプリケーションの充実

「富岳」とPRIMEHPC FX700はバイナリ互換です。対応した商用アプリケーションが順次リリースされます。 非線形構造解析ソフト「LD-DYNA」や分子動力学計算ソフト「Amber」、量子化学計算ソフト「Gaussian16」、更にPAW法での平面波第一原理計算ソフト「VASP」や流体解析ソフト「AnsysFluent」、CAE用構造解析ソフト「Radioss」など多くのリリースが予定されています。

参照:スーパーコンピュータ「富岳」と今後の展開 商用アプリケーションの拡大

参照:スーパーコンピュータ「富岳」と今後の展開 商用アプリケーションの拡大

性能比較

Xeon 8168(Dual構成48コア)、A64FX(シングル構成48コア)、NECのSX-Aurora、NVIDIAのV100 GPUを比較した結果を、ISC 2019にて富士通が発表しています。

メモリ帯域の依存度が高い姫野ベンチの実行性能:

A64FXは同じコア数のXeon Plutnu8168 Dual構成の4倍、SX-AuroraやV100を凌駕する性能を示しています。

2019 HPCフォーラム発表 スーパーコンピュータ「富岳」の開発より
A64FXのアプリケーション性能 姫野ベンチマーク

2019 HPCフォーラム発表 スーパーコンピュータ「富岳」の開発より
A64FXのアプリケーション性能 姫野ベンチマーク

気象モデルのWRFでのベンチマーク:

WRF v3.8.1(48hour,12Km,CONUS)にて、A64FXは同じコア数のXeon8168 Dual構成より32%速いという結果となっています。更にディレクティブを使用したソースコードの調整により、コンパイラの最適化が促進され、56%速いとのこと。

2019 HPCフォーラム発表 スーパーコンピュータ「富岳」の開発より
A64FXのアプリケーション性能 WRF: Weather Research and Forecasting model

2019 HPCフォーラム発表 スーパーコンピュータ「富岳」の開発より
A64FXのアプリケーション性能 WRF: Weather Research and Forecasting model

PRIMEHPC FX700 の概要

19”サーバーラックに搭載できる空冷方式の2U筐体(最大8ノード/8CPU)とすることで、導入のしやすさに配慮したモデルです。また、インターコネクトに汎用のInfiniBandを採用し、OSはRead Hat Enterprise Linux 8.0(またはCentOS 8.0)、HPCミドルウェアにオープンソースソフトウェア(OSS):OpenHPCを活用するなど、スーパーコンピュータシステムにおけるスタンダード技術をベースとしています。

「富岳/A64FX」のすそ野を広げるモデルです。

※注意:Read Hat Enterprise Linux 8.0でご利用になる場合
 ライセンスは最小4ノードからの購入可能となります。
 また、管理やコンパイル用のノードとして富士通 PRIMERGYシリーズ(x86-64サーバ)が指定されます。

弊社製品ページ
FUJITSU A64FX 搭載製品 ~「富岳」の流れをくむ PRIMEHPC FX700~

■スーパーコンピュータ「富岳」由来のハードウェア

CPU「A64FX」(48コア)、1CPU/1ノード当たり32GBの広帯域メモリを搭載
「富岳」」とバイナリ互換

■高性能を容易に導入可能

通常の空冷方式を採用した19インチラックマウント2U筐体
2CPU/2ノード搭載のブレードを最大4枚搭載可能(合計8ノード:384コア構成
各ノードにInfiniBand EDR(100Gbps) 1ポート PCIeカード、NVMe SSD 512GB

■多彩な用途・分野に活用可能

「富岳」向けのアプリケーション開発・検証環境としてだけではなく、高性能Armサーバとして、また高性能HPCクラスタの計算ノードとしてもご活用いただけます。

■「FUJITSU Software Compiler Package」

Fortran、C言語、およびC++言語による、高性能な並列プログラムの開発/実行環境がご利用いただけます。

※ 現在「FUJITSU Software Compiler Package」でソースコードをコンパイルしてArm用のバイナリを作成するためには、x86-64環境が必要です。
 FX700単体での導入をご検討の場合、ご注意ください。

PRIMEHPC FX700 によるクラスタ構成例

FX700は2U筐体に2CPU/2ノードのブレードを単位として最大8ノート/8CPUを搭載可能です。各ノード(1CPU)のメモリ搭載量は最大32 GBですので、大規模なメモリが必要な用途には、高速なネットワークで構成されたクラスタ構成が必要です。
FX700は「富岳」と異なりInfiniBandでノード(CPU)間を接続します。
下記にFX700によるクラスタ構成例を示します。

NFSファイル共有は、10GbEth以上の高速なインタフェースを推奨します。
ご利用のアプリケーションの特質から、MPI用のInfiniBandや、制御系の1GbEthを使う構成も可能です。