Aller au contenu principal
← Retour aux applications · FPGA · CPU · GPU

IA & Inférence

Inférence distribuée avec protection modèle

FPGA chiffre les poids en transit, CPU orchestre le model serving, GPU exécute l'inférence.

FPGA

Protection poids + activations

Charges de travail
  • Chiffrement poids en transit
  • Watermarking modèle
  • Anti-extraction de modèle
Performance
Load poids < 5 s pour 70B
CPU

Model serving + routing

Charges de travail
  • vLLM / TensorRT-LLM
  • Batch scheduler
  • API OpenAI-compatible
Performance
1 000 req/s /appliance
GPU

Inférence LLM / vision

Charges de travail
  • Transformers decoder 70B
  • Diffusion models
  • Multimodal LLM
Performance
300 tok/s sur 70B

Scénario multi-agent

Un client soumet un prompt : le CPU route vers le bon modèle, le FPGA déchiffre les poids dans le GPU memory, le GPU infère, le FPGA rechiffre la réponse avant renvoi.