Topics
    イベント情報
    Menu

    科学技術計算 ディープラーニング用システム導入

    2017年12月14日


    セミナーレポートメインビジュアル

    計算科学技術革新セミナープログラム

    1. 計算科学実アプリケーション解析/検証結果から知る、今後の動向
      • 最先端原子分子ダイナミクス大規模解析プログラム性能検証からの見解
        電気通信大学 量子科学研究センター 教授 森下 亨 様
      • マルチスケール大規模解析プログラム性能検証からの見解
        大阪工業大学 ロボティクス&デザイン工学部 ロボット工学科 准教授 倉前 宏行 様
      • 大規模有限要素法構造プログラム性能検証からの見解
        東京大学大学院 新領域創成科学研究科 人間環境学専攻 教授 奥田 洋司 様
      • 大規模流体解析コードの開発と最新CPUによるコードの実効性能の検証
        東京大学 生産技術研究所 革新的シミュレーション研究センター
          センター長・教授 加藤 千幸 様
    2. 計算科学基盤技術を応用したDeep Learningへの取り組み
      • Deep Learningシステム導入のポイント・留意点
        ペンギンシステム株式会社 代表取締役社長
        一般社団法人 茨城研究開発型企業交流協会 会長 仁衡 琢磨 様
    3. 計算科学システム最新情報 他
      • HPC業界におけるHPEの戦略
        日本ヒューレット・パッカード株式会社 サーバー製品本部 部長 岡野 家和 様
      • 総括及び閉会のご挨拶
        ビジュアルテクノロジー株式会社

    1.計算科学実アプリケーション解析/検証結果から知る、今後の動向

    ■最先端原子分子ダイナミクス大規模解析プログラム性能検証からの見解

    電気通信大学 量子科学研究センター 教授 森下 亨 様

    電気通信大学 量子科学研究センター 教授 森下 亨 様 写真電気通信大学の森下教授は、理論原子・分子・光物理学を専門にご研究されています。最近の研究の対象は、アト秒(10のマイナス18乗秒)という非常に短い時間スケールに起こる原子や分子の振舞いについてです。本セミナーでは、森下教授が普段の研究に使用されているプログラムによる行列・ベクトル計算性能について、最新鋭の性能検証用機を使った実測結果が報告されました。

    研究分野の紹介

    理論 原子・分子・光物理学

    「物理学は非常に幅広い学問です。その中で、理論原子・分子・光物理学は、孤立した原子、分子を1個、2個といった単位で取り扱う物理学です。例えば、新しい素材を生み出す化学反応において、分子と分子がどのように結合して壊れるか、また、その際の原子核や電子単位での力を考え、その化学反応の過程を考察し制御するといった、物質科学の土台となる最も基礎的な学問です。原子・分子・光物理学では、数個から数十個程度の粒子と光からなる物理系が研究対象です。粒子間の相互作用であるクーロン力、及び、光との相互作用である電磁気力はよくわかっているので、物理系の分析や制御を高精度で行うことが可能です。最近の私の研究の1つとして、非常に強力なレーザー光線を原子や分子に照射した際に起こる、アト秒(10のマイナス18乗秒)という極短い時間スケールで起きる現象について精密に調べる、といものがあります。アト秒という時間スケールがどのくらいのものなのか、計算速度と比較をしてみましょう。HPCシステムの1つのスーパーコンピューターの京は、1秒間に10の16乗(10P:ペタ flops)の浮動小数点演算を行っています。逆数で見ると、100アト秒に1回の演算を行っています。私たちの研究は、京のシステム全体として1回の浮動小数点演算をするよりも短い時間に、原子や電子に何が起こっているかを、理論と実験を連携させながら調べています。本日は、こうした研究で行う数値計算についてお話させていただきます。」

    計算内容

    原子ダイナミクス計算

    「理論物理では京コンピューターを使うこともありますが、私のいる研究分野では、ほとんどがクラスター規模の高速計算機を使用して研究を行っています。研究対象が多岐に渡り、新たな問題に次々に取り組むために、常にコード開発が必要となる、というのが1つの理由かもしれません。また、高精度の実験に対応するには、高精度の計算が要求されます。通常は10桁くらい、時には300桁の精度が要求されることもあります。このような計算を次々にこなすためには、性能のチューニングにあまり時間をかけることができません。ちょっとした工夫で、高精度の計算が早くできるクラスター規模の高速計算機が最適です。

    実際の計算は、原子・分子内での電子の動きは量子力学の基礎方程式であるシュレーディンガー方程式に従い、波動関数ψ(x,y,z,t)で記述されます。シュレーディンガー方程式は行列×ベクトルの形で表されます。これを数値的に解く際に、ブロック行列を3次元配列に入れて、時々刻々と変化する電子の動きを、高密度で時間幅を短くした高次展開により、行列xベクトルで繰り返し計算します。

    計算のプロトタイプ(1)は、水素原子1個に対して直線偏光のレーザー光線が照射されるという単純なものです。N(およそ数千)xNの行列L(およそ数百)個をT回繰り返します。行列データを大量に取り込むために、計算機には数百GBのメモリが必要になります。
    プロトタイプ(2)は、円偏光の計算です。NxNの行列LN(およそ数万)個をT回繰り返し、LxLの行列LN個を3T回繰り返すという、大変な数の計算になります。

    今回の性能比較検証には、プロトタイプの1と2のプログラムを使いました。パフォーマンス測定のために作ったプログラム(ベンチマーク用プログラム)ではありません。実際の研究に使っている大規模マルチスレッドアプリケーション用のプログラムによって、HPCシステムのパフォーマンスを測定しました。」

    計算時間の実測

    AMD EPYC,Xeon Gold,Xeon Platinum

    これまで使ってきたIntel Ivy Bridge上で動いていたプログラムを、性能比較検証環境に移植して、Intelコンパイラを使い、openMPで並列化し、dgemmとDO loopで行列計算し、計算性能を実測しました。私の研究に必要な計算の90%以上は行列計算です。

    • 比較1「N=2000,L=200,T=10の直線偏光」
    • 比較2「N=1000,L=100,T=3の円偏光」
    • 比較3「N=2000,L=200,T=3の円偏光」

    計算性能についての考察

    比較1で最も速かったのがPlatinumです。スピードが2倍になるので、従来のIVY Bridgeでは1日かかっていた計算が半日で、3日かかっていた計算が1日半で終わります。プログラムのコードを変更せずに、スピードが速くなるのはユーザにとって大きなメリットです。従来と比べて明確な差を感じる新しいIntelのアークテクチャがリリースされたと思いました。 比較2は、さらに複雑な計算です。あまりにもスピードが遅かったので、dgemmを使うのは止めて、Do loopだけで計算しました。計算結果は、従来の30-40%の時間ですむようになって驚きました。
    比較3は、さらに計算の規模を大きくしたものです。EPYCでは計算時間が半分になり、Platinum、Goldでは1/3になりました。

     

    ■マルチスケール大規模解析プログラム性能検証からの見解

    大阪工業大学 ロボティクス&デザイン工学部 ロボット工学科
    准教授 倉前 宏行 様

    大阪工業大学 ロボティクス&デザイン工学部 ロボット工学科 准教授 倉前 宏行 様 写真大阪工業大学の倉前准教授は、大阪駅前に2017年4月に開設されたロボティクス&デザイン工学部で、有限要素法(FEM)による構造解析(弾塑性解析)を利用した機械工学を専門に研究されています。有限要素法(FEM)の概要と、実際に使用されているプログラムによる検証結果が報告されました。

    大規模計算観点からの有限要素法(FEM)

    私は有限要素法の大規模な問題を並列計算で解くことを、学生時代から20年も続けています。最初は3次元の立方体の構造物をシングルスケールで弾性解析を行い、メッシュをどれだけ小さくして、並列計算で解けるかに挑戦していました。その後、マルチフィジックスの方向に向かいました。例えば、電磁場が作用する中に構造物が置かれていて、電磁場と構造変形を同時に解くというような大規模計算です。

    今日お話しするのは、マルチスケールです。板成形(アルミニウムの板を絞り込んで成形する際の微視的な多結晶構造のすべり変形)から、板の塑性変形がどう起こるかといった、スケールの違う現象(マルチスケール)の並列計算も行っています。そして、ここ数年でようやく可能になったのが、マルチフィジックス・マルチスケールの計算です。

    シングルスケール

    「単一のテーマについて弾性問題の解(構造解析によって応力・ひずみ)を求める大規模な解析です。演算コア単体による逐次処理と、MPIによる並列化も行っています。有限要素法(FEM)の計算において、最も重い部分が連立一次式方程式を解くプロセスです。このため、今回のベンチマークでは、直接法(ガウスの消去法)のMPI並列化プログラムによる並列演算性能を比較します。」

    マルチフィジックス

    「複数の物理現象が相互作用を及ぼす際の解を求める問題です。磁場閉じ込め型の核融合炉の第一構造壁では、大きな磁場の力が構造壁にかかり、プラズマが不安定になると渦電流が流れます。そして、構造壁には電磁力が発生して熱が発生します。このような構造物にかかる「応力・ひずみ」、「電流」、「電磁力」といった複数の物理現象が同時に発生する問題(マルチフィジックス)の並列計算を行います。」

    マルチスケール

    「アルミニウム合金板材をプレス成形により絞り込む板成形問題について、マイクロメートル(micro- meter , 記号µm)やナノメートル(nano-meter、記号nm)単位での微視的な多結晶構造の塑性変形(結晶のすべり変形)から、マクロ(cm単位)の巨視的な板の塑性変形がどう起こるかをという、スケールの違う現象(マルチスケール)の並列計算を行います。」

    マルチフィジックス・マルチスケール

    「マルチフィジックス・マルチスケールの計算の具体的な例としては、2枚の薄板鋼板を重ね、上下で加圧しながら電極に電流を流し、鋼板と電極との間の接触抵抗によるジュール発熱を利用した溶融(抵抗スポット溶接)のシミュレーションを、「熱」「構造」「電流」の3つの物理現象を解いています。このとき、被溶接材間に生じる接触電気抵抗は、鋼板表面の凹凸(表面粗さ)によって大きく異なるので、時々刻々と変化していくミクロスケールでの表面の弾塑性接触を求め、その変形形状に対する電流解析によって求めます。マクロに接触要素について、接触電気抵抗を求めるミクロ解析を行いますが、これは完全独立に計算可能なため、並列計算を導入しています。」

    有限要素マトリックスの格納形式

    バンド法(バンドソルバ)
    :非零成分の最大位置までを帯行列(バンドマトリックス)として記憶・計算
    スカイライン法(アクティブカラムソルバ)
    :各行(または列)毎にバンド幅を変えて記憶・計算
    CRS(疎行列ソルバ)
    :非零成分のみを記憶して求解

    ベンチマーク計算機環境

    AMD EPYC,Xeon Gold,Xeon Platinumと、Xeon E5-2673v3,IBM Power8を比較

    「3次元弾性解析のベンチマークには、自作のFortran(固定長フォーマット)を使用します。連立一次方程式求解のソルバの部分も含めたプログラムです。分割(メッシュ)を変えて解析します。三次元弾性解析の計算時間は、連立一次方程式の解法(前進消去過程)88,000元が計算時間の大半を占めます。なお、コンパイラには、Intelコンパイラ2017、Intelコンパイラ2018、PGIコンパイラ17.4を使用して、それぞれの所要時間を測定しました。」

    演算コア単体の性能比較

    全体的にはIntelコンパイラを使用した方が処理速度は速い傾向がありました。現在、AMD EPYCに対応したコンパイラが無いので、今後のリリースに期待しています。
    Xeon PlatinumとXeon Goldでは、Intelコンパイラ2017と2018との間にほとんど差はありません。コンパイラオプションのO3-AVXを使用すると、性能は明らかに向上しました。
    Xeon Goldは、Xeon Platinumの1.048倍の性能が出ましたが、クロック周波数の差程度と認識しています。
    AMD EPYCは、Xeonとの性能比で、1.732倍(対Xeon Gold)、1.661倍(対Xeon Platinum)低いという結果になりました。

    3次元弾性解析の大規模解析ベンチマーク

    バンド法に基づくガウス消去法による連立1次方程式の求解を、メッシュ10分割(方程式3,869元)、20分割(27,339元)、30分割(88,409元)、40分割(205,079元)でベンチマークしました。10分割程度では、AMD EPYCもそれなりの性能を出しますが、計算規模が大きくなると、Xeon GoldやXeon Platinumの性能が上回るのですが、性能比はバラバラになりました。メモリキャッシュのサイズが大きく影響していると考えています。

    MPI通信を使ってバンドソルバ(ガウス消去法)の並列化を行なったケースのベンチマーク

    ピボット行に対して、消去対象行に対する操作を並列化することができますが、並列化の効率を上げるために、サイクリックにブロック分割を行なって通信の頻度を下げる手法を使っています。
    ベンチマークの結果、AMD EPYCはスーパーリニア(加速度がコア数とリニア以上に伸びる)の性能が16コアと32コアの場合に出ています。Xeon Platinumは96コアで、加速度48倍と、並列効率があまり出ていないように見えますが、私はXeon PlatinumのXeon Goldも、良い性能を出していると考えています。CPU内に多数のコアがあることが一定の性能を出していると考える理由です。
    AMD EPYCの性能のバラつきの原因がMPI通信にあるのではないかと考えて、ノード内のメモリ転送性能(通信性能)を計測しました。計測方法はピポットのブロックを転送するMPI_Send / MPI_Recvの同期の通信時間(実効転送速度)を測定しました。
    CPU内のコア間の通信、同じノード内で離れたCPUのコア間の通信、ノード間の通信の3種類について、200KB、2MB、20MBのデータサイズで測定しました。驚いたことに、Xeon Platinum、Xeon Gold共に、CPU内で速く、CPU間の通信では速度が遅くなり、ノード間の通信では再び速くなるという傾向が出ました。ノード間はIntelのOmni-Pathでつないでいるので速いと考えられます。CPUの計算能力が速くても、通信速度が遅ければ、処理能力は遅くなるという結果が出ています。
    ノード内の通信に限定して分析すると、AMD EPYCは通信の実効処理速度にバラつきが多いことがわかりました。Xeon PlatinumもXeon Goldも、Xeon E2-2637v2と比較して、通信の実効処理速度が落ちているという衝撃的なこともわかりました。ノード間通信を分析すると、Xeon PlatinumもXeon Goldも、処理速度が遅いケースは変わらず、処理速度の速いケースが出るようになりました。

    板成形問題の結晶均質化マルチスケール解析ベンチマーク

    自動車のボディパネル用のアルミニウム合金板材を対象に、深絞りのプレス成形をした際のシミュレーションを紹介します。マクロレベルでの塑性変形ミクロレベルでの結晶のすべり変形とを連成した解析です。ミクロ解析に用いる初期板材の結晶方位分布を実験計測し、マクローミクロの階層構造的な解析を行います。プログラム的には、マクロ有限要素法プログラム(弾塑性解析プログラム)の中に、ミクロ有限要素法プログラム(結晶塑性解析プログラム)が存在します。
    このような非線形の解析を動的に繰り返し行います。有限要素方程式は、陽解法による時間積分を用いることで、連立一次方程式を解かずに行います。ミクロ解析はマクロメッシュの応力評価点(ガウス積分点)にそれぞれ対応づけるため、マクロメッシュを領域分割して並列計算を行っています。今回のベンチマークは、マクロ784要素とミクロ27要素について、マクロ1要素につき8個の応力評価点(積分点)を持っています。本来は求解のために10万から20万ステップ程度が必要ですが、今回ベンチマークでは最初の1,000ステップのみ走らせて、動的陽解法の領域分割計算の所要時間を計測しました。

    AMD EPYCは、やや並列性能にバラつきがありますが、3次元弾性解析ほどのバラツキはありません。Xeon PlatinumとXeon Goldは加速性が非常に良いことが分かります。通信にはOmni-Pathを使っているので通信の問題は無く、演算性能の差が加速性に出ていると考えます。

    今回のベンチマークの結果、計算性能は、解析対象の問題の規模に大きく依存し、MPI通信性能、メモリアアクセス、ネットワーク通信容量が大きなファクタになることが分かりました。

     

    ■大規模有限要素法構造プログラム性能検証からの見解

    東京大学大学院 新領域創成科学研究科 人間環境学専攻 教授 奥田 洋司 様

    東京大学大学院 新領域創成科学研究科 人間環境学専攻 教授 奥田 洋司 様東京大学大学院の奥田教授は、ものづくりにおける設計、物理現象の究明、製造工程における力学現象の解析を目的として、大規模並列有限要素法の構造解析システムであるFrontISTRを開発されました。FrontISTRを産業分野の構造解析に使用することによって、産業機器の開発時間縮小化・低コスト化、および産業機器に潜む複雑な力学現象の解明に貢献します。高速走行列車の車輪の転がりに起因するレール・車輪間の動的接触解析、大変形するフィラー充填ゴムの引張評価、高性能タービンブレードの設計、電子機器の熱変形・落下衝撃解析、地震時における地盤・原子力建屋の動的挙動評価など、幅広い産学連携研究に取り組んでおられます。

    並列有限要素法プログラムFrontISTRの産業応用

    FrontISTRは、並列計算でメッシュ領域分割によって分散メモリ環境に対応し、通信ライブラリにはMPIを利用(ノード間のMPI並列)し、CPU内はOpenMPによるスレッド並列を組み合わせて構造解析を行うプログラムです。WindowsやLinuxのPCクラスター、京コンピューターや地球シミュレータなどの超並列スパコンにも対応しています。構造計算でも大規模並列計算が必要です。民間企業との共同研究も行っています。

    最近のICチップは6万㎛(マイクロメートル:数センチ)幅に対して配線の幅が3㎛マイクロメートルです。以前は、熱変形させた時の反りとメッシュの細かさとの関係はよく分からなかったのです。
    しかし、メッシュを非常に細かくして大規模計算を行うと解が得られるようになりました。構造解析の大規模計算でのニーズは、京コンピューターのような大きなノード数ではなく、90数パーセントの大規模計算は比較的少ないノード数で、明日までに解が欲しいというようなタイプだと考えています。そのためには、ノード単体の性能をいかに引き出すかが課題です。

    実は、ノード間並列の性能は簡単に出すことができます。1つのノードの中に多くのメッシュを入れると、通信の割合は下がります。領域分割さえ上手にすれば、ノードをたくさん使った場合に性能を引き出すことが比較的容易に実現できます。このセッションのポイントは、ノード単体の性能をいかに引き出すかにあります。

    ハードウェアのクロックやメモリによって決まるカタログ性能が、自動車でいう理想的な燃費だとすると、アプリケーションによって決まる性能が実際の燃費に相当します。FrontISTRでは実際の燃費が5-6%です。CPUの利用は自動車の実燃費のようなものと考えることが必要です。有限要素法というのは2つの面があって、解くべき連立一次方程式を作ることと、方程式を解くことの2つの部分に分かれます。連立一次方程式を解くことをソルバと呼びます。この前のセッションでの倉前先生のお話しは、連立一次方程式を解くためのガウスの消去法ベースの直接法が中心でしたが、私が紹介するのは行列とベクトルの積を反復的に収束させる反復法と呼ばれるソルバ(アルゴリズム)で非構造格子が特徴です。直接法と同じ処理をする前処理と、計算のほとんどを占める行列ベクトル積があります。行列ベクトル積と、多少は依存性がある計算の並列化の2つを行なうことで、OpenMPの並列処理を行っています。

    SpMV(matvec)の分析によるFlop/Byte

    トータルなパフォーマンスとは、CPU自体の演算の速さとメモリの速さのバランスが取れている計算機のことで、このバランスによりパフォーマンスが良い計算機を選ぶことが重要です。バランスはFlop/Byte、またはByte/Floで表現されます。

    パフォーマンスモデル

    京コンピューターのCPUは1コア当たり16G Flopsあります。1ノードに8CPUあるので、ノード単位では128G Flopsあります。Flop/Byte(演算量とデータ量の比)とG Flops(実効性能)からだけでプロセッサーの性能を評価するのではなく、さらにメモリの速さを考慮する必要があります。

    CPU速度が遅く、メモリの転送だけが速い計算機があり、メモリからデータを取ってくるスピードで全体の演算性能が決まるようなアプリケーションを使っているとすれば、メモリの速度が実行性能になります。京コンピューターの場合は64GB/secあり、L2、L1はさらに速くなります。これから紹介するFlop/Byteが0.1程度の有限要素法のプログラムを使った演算では、メモリのデータ供給能力で実行性能が決まります。京コンピューターの「燃費」にあたる実行性能を見ると、メモリの速さが原因で実行性能が頭打ちになります。そこで、メモリの速い計算機が欲しいと考えます。一方、Flop/Byteが2程度の、データをメモリの中で繰り返し処理できる演算の場合には、CPU速度で実行性能が決まり、カタログ性能のとおりの実行性能が出ます。

    推定限界ピーク性能比

    限界ピーク性能を推定することが重要です。京コンピューターを使って、matvec_33のコードおよび例題データから特性を分析すると、matvec_33のアプリケーションが要求する1回当たりのB/F値は5.66から5.75ですが、実効B/F値は0.36です。推定限界ピーク性能比は6.25から6.36%です。京コンピューターのピーク値とは大きく異なることを認識しておく必要があります。京コンピューターの管理者からは、こんなに低い限界ピーク性能比のアプリケーションを動かしてほしくないと言われることもあるのですが、性能を実測すると限界ピーク性能比は非常に低いという現実があります。
    最近のコンピューターのCPUスペック、バンド幅、B/F値などを一覧表にすると、B/F値が0.1から0.2程度になりますが、私はこの値をもっと大きくしたいと考えます。B/F値を大きくするにはメモリを速くするか、または相対的にクロックを遅くして、あたかも速いように見せるしかありません。そのために、B/F値が低いことは当面続くと考えています。

    SpMV有限要素法プログラムを使ったベンチマーク

    1つのベンチマークは行列ベクトル積のみで、立方体の分割数は200x200x200メッシュです。疎行列になっている有限要素法プログラムのデータを使いました。CPUタイプを変えたときのFlops値を測定しました。Xeon Gold、Xeon Platinum、AMD EPYC、E5-2695v3を比較しました。
    Xeon Gold、Xeon Platinumは、ピーク性能比で3-4%と思われます。メッシュがあまり細かくないので、CPUのコア数を増やした時に、性能がリニアに近い形で伸びています。なお、並列化はOpenMPでステートメントを1つ入れるだけです。

    FrontISTRのソルバ部ベンチマーク
    構造解析の実プログラムをMPI/OpenMPのハイブリッド環境で、3つの例題を使ってコア数を変えながらベンチマークしました。性能がリニアに上がらずに、すぐに横ばいになりますが、例題の計算規模がそれほど大きくないことが原因と考えられます。
    1つの例題に絞って、OpenMPIとそれに合わせてMPIのスレッド数を変えてベンチマークすると、30-40コアを使えば性能が20倍程度になります。

    まとめ
    1. まず、アプリケーションの特性を把握すること
    2. すべてのアプリケーションを速くすることはできない。
    3. どこが速くなるかを見極める
    4. アプリケーションが要求するB/F値を把握する
    5. 選ぼうとしているCPUのB/F値を把握して、アプリケーションがとバランスが取れているか
    6. アプリケーション的にはノード内並列機能が重要
    7. メモリのデータスループットを実測して評価する

     

    ■大規模流体解析コードの開発と最新CPUによるコードの実効性能の検証

    東京大学 生産技術研究所 革新的シミュレーション研究センター
    センター長・教授 加藤 千幸 様

    東京大学 生産技術研究所 革新的シミュレーション研究センター センター長・教授 加藤 千幸 様 写真東京大学の加藤教授は、専門が熱流体システム制御工学で、大規模流体解析の産業応用や流体騒音の予測と制御などの研究課題を持っておられます。

    HPCシステムのハードウェアの性能だけでなく、国が推進しているポスト京のプロジェクトなど、ハードウェアとソフトウェアの利用状況などを幅広く考えたいと講演が始まりました。

    コンピューターのパフォーマンスの伸び

    スーパーコンピューター京は2012年に運用が開始されましたが、どれだけ速いかにはそれほどの関心が持たれなくなっています。CPUのピーク性能がどれだけ速いかよりも、CPUがどれだけ安いかということと、実際のアプリケーションでどれだけの性能がでるかによる、コストパフォーマンスに関心が持たれるようになりました。
    京は現在でも実行性能では世界で第6位くらいのスーパーコンピューターで、CPUのピーク性能は128G Flopsです。注目すべきは128bitのSIMDです。同じ命令を多くの要素に対して実行できます。変数が2つ入った時点で1回の演算を行います。通常はFMA(乗算の後に加算する仕組み)です。FMAの演算機を2つ持っているコアが8コアあるので、2x8x2(32)の要素を同時に計算することができます。

    富士通が2015年に出したFX100は1T Flops、256bitのSIMD演算ができるコアが32コア実装されています。
    bit長が2倍になっているので、京の場合には2つのデータがあれば性能が発揮されたのですが、FX100では4つ集まらないと性能が出ないという問題があります。SIMDのbit長とコア数が増えたことでCPU性能は京と比べて約8倍高くなりました。

    Intelが2016年に出したIntel Knight Landingは3.4T Flopsです。最新のほとんどのCPUで採用されている512bitのSIMDと、64から72の多数のコアが実装されるようになりました。現在は、大規模な計算を大量に実行する方向に進んでいます。

    乱流解析の方向性

    残念ながら大規模解析はまだ設計では使っていません。設計したものを評価するために使っています。いろいろな現象が同時に起こるので、それらの現象を同時に最適化することを考えています。そのためには、各現象間のインターフェースを明確にして最適化を実現します。
    計算は大規模化に向っています。大規模計算の意味は、新しい価値を創造することにあります。1つはテストを完全に無くして、実物を使ったテストをシミュレーションに置換えることです。その結果、設計サイクルを高速で回すことができるようになります。テストを行なうことは試作品を作ることで、製作には何か月もかかります。シミュレーションによって、設計段階で製品の良し悪しを判断することが可能になります。もう1つの価値は、これまでには経験から何となく決めていたことの本質を見極めることです。

    Wall-resolved LES(WR-LES)
    「乱流解析はメッシュがより細かくなる方向に進み、信頼性の高い解を求める方向に進んでいます。
    ボーイングのB-787航空機は、主翼の長さが7m程度で、速度は秒速270mです。翼の後部にできる小さな渦は50μm(ミクロン)程度の大きさです。翼の横幅が50m程度なので、横幅に対して6桁も小さな渦をどうするかが永遠の課題になっていました。渦が小さいからと言って決して無視することはできません。小さな渦が乱流のほとんどのエネルギーを作っているからです。

    DNS(直接数値計算)で乱流のすべてを解析する方法は、精度は高いのですが、工業的には使う必要がなく、LESという、乱れを生成している渦までは解析するというのが現実です。その他には伝統的なRANSという時間平均した乱流モデルの計算方法があり、ほとんどの解析に用いられています。この方法はチューニングさえすれば、ほとんどの解析に利用できますが、絶対的な信頼性を置くことができません。私は、RANSではテストの代替手段にはならないと考えています。

    船舶の抵抗計算は難しいのです。ほとんどが摩擦抵抗だからです。海洋を航海する際には、自然の波や船自体が作る波もあり、実際の推進性能を計算するのが非常に難しく、航空機以上に難しい計算なので、実際にはモデルを作ります。Wall-resolved LES(WR-LES)は、DNSと同様に精度の高い結果を得ることができ、テストの代替手段となります。

     

    2.計算科学基盤技術を応用したDeep Learningへの取り組み

    ■Deep Learningシステム導入のポイント・留意点

    ペンギンシステム株式会社 代表取締役社長
    一般社団法人 茨城研究開発型企業交流協会 会長 仁衡 琢磨 様

    ペンギンシステム株式会社 代表取締役社長 一般社団法人 茨城研究開発型企業交流協会 会長 仁衡 琢磨 様ペンギンシステムは、1983年の創業以来、35年にわたって研究開発・科学技術計算を支援するソフトウェア開発企業です。北海道から沖縄までの地域と研究所・大学・大手企業から中小規模の企業まで幅広くサポートしています。
    HPC分野で35年の実績があり、GPGPUクラスター、Deep Learningなどを「オーダーメイド屋」スタイルで支えることが特徴です。Deep Learningの事例としては、病名診断を行なうAI開発、文書を読み取って内容を仕分けするAIなどの実績があります。

    Deep Learningシステム導入に当たっての課題

    1. データ
      データを集めたものが勝者
    2. データの前処理
      データの特性を見極めた、信頼性のあるデータの蓄積が重要
       ごみを入れないような、データの整備(クレンジング、標準化)
    3. データ処理
      トライ&エラーで多数のパターンを実行して、ヒトが確認するプロセスが重要
      学習法が大切

    ハードウェア、フレームワーク+手を動かすことがポイントです。VT+ペンギンシステムですぐに使い始めるDeep Learningシステムを提供します。実データを取得する段階からお客様を手厚くサポートします。

     

    3.計算科学システム最新情報

    ■HPC業界におけるHPEの戦略

    日本ヒューレット・パッカード株式会社 サーバー製品本部 部長 岡野 家和 様

    日本ヒューレット・パッカード株式会社 サーバー製品本部 部長 岡野 家和 様 写真HPCとAIに関するHPEの戦略および製品ポートフォリオ
    (※HPEは、ヒューレット・パッカード エンタープライズの略称となります。)
    2017年8月に公開された、HPEとNASAが共同で、スーパーコンピューターを宇宙に持って行くプロジェクトの紹介からセッションが始まりました。

    火星への有人宇宙飛行を支援するためには、高速で通信しても20分かかるので予知できない危機には対応できません。問題に対応するために、スーパーコンピューターを宇宙に持って行くことになりました。HPEと統合した旧SGIのメンバーが中心になってプロジェクトをリードしています。新しいコンピューターを作るのではなく、宇宙線を防ぐ岩盤洞窟を作ることになっています。

    火星プロジェクトに限らず、米国エネルギー省のエクサスケールのスーパーコンピューターの開発パートナーになるなど、HPEはテクノロジーリーダーとして、コンピューティングの世界をリードしています。

    HPEの戦略 今日から将来にわたる、HPCとAIでのリーダーシップを強化するために、HPC/AIに最適化された製品ポートフォリオとソリューションを強化しています。SGIとの統合により製品数が格段に充実しました。また、ハードウェアだけでなく、ソフトウェアのポートフォリオも大幅に強化されました。

    HPC領域では、HPE Apolloで市場シェアを拡大します。大規模スパコンに強みを持っていたSGIを統合したことで、世界のTOP500企業に対するベンダー別ランキングで他社を圧倒しています。
    ディープラーニングによる不正検知などのソリューションのパッケージ化により、HPCとAIのソリューションの導入を容易にします。

    効率の良い冷却手法が採用され、パフォーマンスとスケーラビリティに優れたHPE SGI8600と、HPCを活用した総合化学メーカーにおけるHPE Apollon事例と合わせて、製品の概要と特長が紹介されました。最後にディープラーニングのエバンジェリストの誕生が紹介されました。