GPUコンピューティングとNVIDIA Ampereアークテクチャ
GPUもVTにお任せください!
ビジュアルテクノロジーは、HPCシステムのハードウェアとソフトウェアのスぺシャリストです。メニーコアCPUによるクラスタ構成などはもとより、GPUを含めた各種アクセラレータを搭載した、多目的でハイパフォーマンスなシステムもお任せください。
NVIDIA社のGPGPU (General-purpose computing on graphics processing units; GPUによる汎用計算)または「GPUコンピューティング」による、数値計算やシミュレーションの高速化、Deep Learning手法によるAI/機械学習、ビックデータ解析など、様々な研究開発に最適なコンピュータシステムをご提案いたします。ご利用になるアプリケーションに応じた、適切なGPUの選択と、CUDAやコンパイラ、OpenACC、MPIライブラリ、Python環境、Docker等のコンテナ環境といったミドルウェアや各種APIなど、システム構築とサポートをご提供いたします。
もちろん、プリ/ポスト処理で必要な各種ビジュアライゼーション用途もご相談ください。
NVIDIA GPU製品
NVIDIA Ampere アーキテクチャ Tensor Core GPU
最新のラインアップ
- コンピューティングボード:
倍精度浮動小数点演算を必要とする数値計算やシミュレーション用途
A100/A30
- プロフェッショナル・ゲーミング グラフィックスボード:
AI推論/機械学習、データサイエンス用途、グラフィックス/vGPU用途
A40/A16 /A10 /A2 (vGPU対応)
RTX A6000/A5000/A4500/A4000/A2000
GeForce RTX3090/3080/3070/3060

NVIDIA Ampere アーキテクチャ Tensor Core GPU
NVIDIA A100
現在最新のNVIDIA社GPUは、Ampere アーキテクチャの製品群です。
その最上位モデルがNVIDIA A100です。
NVIDIA A100
NVIDIA Ampere アーキテクチャで設計された、HPCとAIなど、どのようなシーンでも、最もパワフルなGPGPUです。前世代のNVIDIA V100と比較しても、最大20倍のパフォーマンスを発揮します。
また、7つの GPUインスタンス(1インスタンス最大10GB)に分割して利用することができ、変化する需要に合わせて動的にご利用環境を調整可能となっています。。
当初40GBのメモリを搭載していましたが、現在はメモリ帯域を約 25%拡張(1,935GB/s)した高速なHBM2(帯域2TB/s)メモリを80GB搭載しモデルに切り替わりました。
NVIDIAA100 はその最上位モデルで、PCIe拡張カード(PCIe Ver4 x16)製品と、基板状のSXM(SXM4)と呼ばれるある製品がリリースされています。
製品仕様
こちら をご覧ください。

-
ハイパフォーマンス コンピューティング
科学者たちは、私たちを取り巻いている世界をより良く理解するために、数値解析、シミュレーションを活用しています。
NVIDIA A100 は、Tensorコアを導入することで、飛躍的内 HPCパフォーマンスの向上を実現しています。また80 GB の最速の GPU メモリを搭載し、研究者は 10 時間かかる倍精度シミュレーションをA100 では 4 時間たらすに短縮できます。HPC アプリケーションで TensorFloat-32 (TF32)を活用すれば、単精度の密行列積演算のスループットが最大 11 倍向上(2016年NVIDIA P100比)します。また、第 3 世代 Tensor コアを搭載し倍精度浮動小数点演算(FP64)パフォーマンスは19.5 FP64 TFLOPSに及びます。
大規模データセットを扱う HPC アプリケーションでは、A100の80GBメモリは、マテリアル シミュレーションの Quantum Espresso において最大 2 倍のスループットの増加を実現します。この膨大なメモリと前例のないメモリ帯域幅により、A100 80GB は次世代のワークロードに最適なプラットフォームとなっています。
参考
※倍精度 Tensor コアが、ハイパフォーマンス コンピューティングを高速化
※A100 GPUの TensorFloat-32 が AI の学習とHPC を最大 20 倍高速化
4年間で 11倍の HPCパフォーマンス向上
Geometric mean of application speedups vs. P100: Benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs. 80GBメモリはHPCアプリケーションで最大 1.8倍高速なパフォーマンス
Quantum Espresso
Quantum Espresso measured using CNT10POR8 dataset, precision = FP64. -
AI/機械学習:Deep Learningトレーニング
AIモデルのトレーニングには、大規模な計算処理能力とスケーラビリティが必要になります。
NVIDIA A100 の Tensor コア と Tensor Float (TF32) を利用することで、NVIDIA Volta と比較して最大 20 倍のパフォーマンスがコードを変更することなく得られます。加えて、Automatic Mixed Precision と FP16 の活用でさらに 2 倍の高速化が可能になります。
FacebookのDeep-Learning Recommendation Model(DLRM)といった大きなデータ テーブルを持つ最大級のモデルの場合、A100 80GB であれば、ノードあたり最大 1.3 TB の統合メモリに到達し、A100 40GB の最大 3 倍のスループットの増加が可能です。バッチサイズを大きくとることができます。
NVIDIA は、AI トレーニングの業界標準ベンチマークであるMLPerf で複数のパフォーマンス記録を打ち立て、そのリーダーシップを確立しました。最大級のモデルで最大 3 倍高速な AI トレーニング
Deep-Learning Recommendation Model (DLRM)でのトレーニング
DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32. -
AI/機械学習:Deep Learning 推論
NVIDIA A100 には、推論ワークロードを最適化する画期的な機能が導入されています。FP32 から INT4 まで、あらゆる精度を加速します。
また、Multi-Instance GPU (MIG) テクノロジでは、1 個の A100 で複数のネットワークを同時に動作できるため、コンピューティング リソースの使用率が最適化されます。さらに、Deep Learning手法の重み行列のスパース性を利用して、比較的簡単なハードウェア追加で重み行列を半分に圧縮し積和演算性能を2倍にする仕組み(Sparse Tensor Core of NVIDIA Ampere)を備えています。これによりA100 は、数々の推論性能の高速化に加え、さらに最大 2 倍のパフォーマンスがもたらされます。
Googleの自然言語処理モデルBidirectional Encoder Representations from Transformers(BERT)などの最先端の対話型 AI モデルでは、NVIDIA A100 は推論スループットを CPU の最大 249 倍に高めます。
また、メモリ容量の大きな A100 80GB では各 MIG のサイズが 40GBモデルの2 倍の10GBまで割り当てが可能です。自動音声認識用の Recurrent Neural Network Transducer (RNN-T) といった非常に複雑なモデルであっても、最大7分割されたMIGのインスタンスにバッチサイズが収まる様に利用するのであれば、各インスタンスのスループットの低下は見られません。
参考
※スパース性が AI 推論をパワーアップする方法
※マルチインスタンス GPU が、AI の生産性向上への最短ルートを提供CPU と比較して最大249倍高速なAI推論パフォーマンス
Bidirectional Encoder Representations from Transformers(BERT) 大規模推論
BERT-Large Inference | CPU only: Dual Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 with 80GBメモリは最大1.25倍高速なAI推論パフォーマンス
Recurrent Neural Network Transducer (RNN-T)推論: 単一のストリーム
<
MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16. -
ハイパフォーマンス データ分析
データ サイエンティストは、大量のデータセットを分析し、可視化し、インサイトに変えられる能力を求めています。しかしながら、スケールアウト ソリューションは行き詰まることが多々あります。複数のサーバー間でデータセットが分散されるためです。
A100 を搭載したアクセラレーテッド サーバーなら、大容量メモリ、2 TB/秒を超えるメモリ帯域幅、NVIDIA® NVLink® と NVSwitch™ によるスケーラビリティに加えて、必要な計算処理能力を提供し、データ分析ワークロードに対応することができます。
A100 80GB はビッグ データ分析ベンチマークで、CPU の 83 倍高いスループット、A100 40GB では 2 倍高いスループットでインサイトをもたらします。データセット サイズが爆発的に増える昨今のワークロードに最適です。
ビッグ データ分析ベンチマークでCPUより最大83倍、A100(40GB)より2倍高速
MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16. -
企業で効率的に利用
NVIDA A100 とMulti-Instance GPU(MIG)の組み合わせにより、GPU 活用インフラストラクチャを最大限に利用できます。MIG を利用することで、A100 GPU を 7 つもの独立したインスタンスに分割できます。複数のユーザーが GPU アクセラレーションを利用できます。A100 40GB では、各 MIG インスタンス に最大 5GB まで割り当てることができ、A100 80GB のメモリ容量が増えたことで、そのサイズは 2 倍の 10GB になります。
MIG は、Kubernetes、コンテナ、ハイパーバイザーベースのサーバー仮想化. 等と連動させることが可能です。
MIG を利用することで、インフラストラクチャ管理者は、あらゆるジョブに適切なサイズの GPU を提供し、サービスの品質 (QoS) を保証できます。アクセラレーテッド コンピューティング リソースをすべてのユーザーに届けることが可能です。
参考
※NVIDIA マルチインスタンス GPU 1 つの GPU に 7 つのアクセラレータ
Multi-Instance GPU (MIG) による7倍の推論スループット
BERT 大規模推論によるMIGによる並列処理性能
BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.
導入をご検討の場合はお気軽にご相談ください
構築から導入、保守までワンストップでのサポートが可能です
また、エンジニアチームは、提案部門と構築‧導入‧保守部門が一体となっていますので、お客様に寄り添った柔軟な対応が可能です。
- 導入コンサルテーション
- HPCプラットフォーム構築サービス
- 保守サービス
- 運用支援サービス