Topics
    製品情報
    Menu

    IBM Power System S824L

    性能事例

    性能検証レポート1(汎用流体コード Front Flow Blue)

    東京大学生産技術研究所の加藤千幸教授を中心として開発されたFrontFlowBlue(以下FFB)を用いて並列計算性能測定を行いました。今回の測定では解析結果については特に言及せず、性能検証のみを行っております。データはパラメトリックな検証を目的として立方体形状の分割数を変えて作成しました。なお、計測に際しては加藤先生並びにみずほ情報総研の山出様にご協力、ご確認を頂いております。

    ※注:本性能検証は、IBM Power System S822Lで行いました。S824Lは、CPUアーキテクチャー・メモリアーキテクチャー共にS822Lと同じため、本ページにも掲載しております。本文中の「S822L」を「S824L」と読み替えてご覧ください。

    使用したマシンと計算環境

    使用したマシンはIBM POWER8, Xeon、 Xeon Phiなどのマシンで下記の5種類で計測を行いました。

     並列実行に際しては、OpenMP並列は用いず、すべてフラットMPIとしました。性能がこちらの方がよかったことが理由です。

     

    データについて

    立方体形状の領域を各辺均等分割しメッシュを生成し(図1)、このメッシュにてキャビティ計算(図2)を行いました。
    反復法行列ソルバーの収束判定は行わず一定回数の反復を行うことにより一定回数の演算からベンチマークデータ(GFlops値)を算出しました。

    図1:メッシュ形状

     

    図2:キャビティ計算

     

    計算規模とメモリ量


    図1で分割数n に対しグリッド数はn*n*nとなります。またFFBでは1グリッド(1点)当たりの演算量と必要メモリ量は下記のようにわかって
    メモリ量 S:= 4000Byte / 点  …式1
    演算量  F:= 20KFlops / 点   …式2
    いますので、並列計算に際しては領域分割プログラムMetisを用いてほぼ均等なグリッド数になるように分割して計算を行いました。

    今回の計測ではn=64, 80, 100 , 126 , 160 ,200にてデータ生成したので実際のGrid数等は式1,2により表1のようになります。

    FFBのバージョンとプログラム
    バージョン:FFB8.1
    プログラム:les3x.mpi

    IBM Power System S822Lにおける計測結果

    各グラフの赤線は理想的な並列性能が得られた場合の値を図示したものです。
    ※注:理想的な並列性能:2並列を基準に並列数の増加に比例して性能が増加した場合の値

    並列数を変えての計測(データはいずれも200x200x200)
    <計算時間(秒)>

    <計算性能(GFlops)>

    Intel Xeon(CPU E5-2695 v3 @ 2.30GH)における計測結果

    Xeon(CPU E5-2695 v3 @ 2.30GH)における計測結果を以下に示します。※続きは性能検証レポートをご覧ください。

     

    性能検証レポート(姫野ベンチマーク)

    POWER8での20並列での性能は、InfiniBand (FDR)で構成された最新Intel Haswell 4ノードクラスタに匹敵します。
    power8_result
    • 一般的な最適化オプション(-O3 -q64)で20並列のとき70 GFLOPSをマーク
      豊富なメモリ帯域が有効に働いている
    • Prefetchオプションをつけると20並列で一気に100 GFLOPS以上をマーク
      大容量なL4キャッシュが有効に働いている

    帯域比率およびB/F値の比較

    CPU POWER8
    (3.06GHz, 12cores)
    Ivy Bridge EP
    (2.70GHz, 12cores)※1
    Haswell EP
    (2.30GHz, 18cores)※2
    CPUコア数 24 (12/CPU) 24 (12/CPU) 36 (18/CPU)
    メモリー帯域 384 GB/s 119.4 GB/s 136 GB/s
    メモリー帯域/コア 16 GB/s/core 4.9 GB/s/core 3.7 GB/s/core
    FLOPS 587.52 GFLOPS 518.4 GFLOPS 1324.8 GFLOPS
    B/F値 0.65 0.23 0.10
    ※1 Xeon E5-2697 v2
    ※2 Xeon E5-2699 v3

     

    Intel Xeonとの比較

      Sandy
    Bridge
    EP
    Ivy
    Bridge
    EP
    Ivy
    Bridge
    EX
    Haswell
    EP
    Broadwell
    EP
    POWER8
    Clock rates 1.8-3.6 GHz 1.7-3.7 GHz 1.9-3.4 GHz 2.3 GHz 3.0-4.1 GHz
    SMT options 1, 2 * 1, 2 * 1, 2 * 1, 2 1, 2 1, 2, 4, 8
    Max Threads /
    socket
    16 24 30 28 36 96
    Max L1 Cache 32 KB 32 KB ** 32 KB ** 64 KB 64 KB(?) 64 KB
    Max L2 Cache 256 KB 256 KB 256 KB 256 KB 256 KB(?) 512 KB
    Max L3 Cache /
    socket
    20 MB 30 MB 37.5 MB 35 MB 45 MB 96 MB
    (eDRAM)
    Max L4 Cache 0 0 0 0 0 128 MB
    (eDRAM)
    Memory
    Bandwidth
    31.4-51.2 GB/s 42.6-59.7 GB/s 68-85 GB/s *** 68 GB/s 76.8 GB/s 192 GB/s
    * Intel calls this Hyper-Threading Technology (No HT and with HT)
    ** 32KB running in “Non-RAS mode” Only 16KB in RAS mode
    *** 85GB running in “Non-RAS mode” = dual-device error NOT supported

     

    POWER8プロセッサ構成

    power8