Aller au contenu principal

AI・推論

モデル保護付き分散推論

FPGAが転送中の重みを暗号化、CPUがモデルサービングを統括、GPUが推論を実行。

FPGA

重み・活性化保護

ワークロード
  • 転送中重み暗号化
  • モデル電子透かし
  • モデル抽出対策
性能
70Bモデル重みロード<5秒
CPU

モデルサービング・ルーティング

ワークロード
  • vLLM / TensorRT-LLM
  • バッチスケジューラ
  • OpenAI互換API
性能
千req/s/アプライアンス
GPU

LLM・ビジョン推論

ワークロード
  • 70Bデコーダーtransformer
  • 拡散モデル
  • マルチモーダルLLM
性能
70Bで300tok/s

マルチエージェントシナリオ

クライアントがプロンプト送信:CPUが適切なモデルへルーティング、FPGAがGPUメモリへ重みを復号、GPUが推論、FPGAが応答を再暗号化して返送します。