Amazon Web Services ブログ Amazon SageMaker の NVIDIA Triton Inference Server を使用して高速でスケーラブルな AI をデプロイする 機械学習 (ML) とディープラーニング (DL) は、医療診断における画像分類、チャットボットにおける会話型 AI、e コマースにおけるレコメンデーションシステムに至るまで、さまざまなコンピューティングの問題を解決するための効果的なツールになりつつあります。ただし、特定のレイテンシーまたは高スループットの要件を持つ ML モデルは、一般的なコンピューティングインフラストラクチャで大規模に実行するには莫大なコストがかかる可能性があります。企業や顧客が期待する厳しいスループット、スケール、レイテンシーでの推論を最小限のコストで実行するために、ML モデルは GPU などの推論アクセラレータを必