Architecture Cluster SEFR-PLUS + NVIDIA DGX Spark - Architecture technique détaillée
Solution d'IA souveraine sur site
Cluster SEFR-PLUS + NVIDIA DGX Spark - Architecture technique détaillée
1. Présentation générale
Architecture d'ensemble de la solution Osfria
Osfria est une appliance d'intelligence artificielle privée, installée directement dans les locaux du client.
Elle s'appuie sur :
- un cluster redondant de mini-PC SEFR-PLUS (nœuds tête)
- un cluster GPU de NVIDIA DGX Spark (nœuds calcul)
- une pile 100% open-source (hors pilotes NVIDIA gratuits) orchestrée par k3s
- des mécanismes HA + autoscale garantissant la continuité de service
La solution fournit :
- un Chat IA (OpenWebUI) multimodèle
- la création automatisée d'assistants via n8n
- une option RAG+ pour interroger les documents internes
2. Architecture matérielle
Spécifications détaillées des composants
| Rôle | Matériel | Spécifications (exemple) |
|---|---|---|
| Nœuds tête (minimum 1x, recommandé 3x) |
SEFR-PLUS i3 • Intel i3-N305 (8 cores @ 3.8GHz) • 32GB LPDDR5 + 16GB swap • 1TB NVMe M.2 (min 160K IOPS) • 2x 1GbE + 1x 10GbE SFP+ • 65W TDP max |
Control-plane k3s, HAProxy/Keepalived, OpenWebUI, n8n, Postgres, Qdrant, Longhorn |
| Nœuds GPU (minimum 1x, scaling +1) |
NVIDIA DGX Spark • 1000 TOPS FP4 avec sparsity • NVIDIA Blackwell GPU + 20-core ARM CPU • ~400W max par unité + marge • RAM: 128GB LPDDR5x unified memory • Storage: 1-4TB NVMe auto-chiffrement • Network: 10GbE + WiFi 7 + ConnectX-7 • Dimensions: 150x150x50.5mm compact |
vLLM + Ray worker / DeepSeek-R2-78B INT4 |
| Réseau | Switch 10 GbE (8 ports min) | VLAN Prod / DMZ – latence < 0,2 ms |
| Énergie | Onduleur 1500VA | Autonomie 10min + arrêt propre |
Matériel SEFR-PLUS - Illustration
Serveurs compacts haute performance pour l'orchestration cluster
SEFR-PLUS i3 - Nœud unique
Intel i3-N305 • 32GB RAM • 1TB NVMe
Optimisé pour orchestration k3s
Cluster SEFR-PLUS complet
Redondance N+1 • Stockage distribué
Basculement automatique
3. Empilement logiciel
Stack technique complet avec justifications
| Couche | Composant | Licence | Raison du choix |
|---|---|---|---|
| OS | Ubuntu 22.04 LTS / NVIDIA AI Enterprise | GPL / NVIDIA EULA | LTS + NVIDIA AI Enterprise runtime |
| Orchestration | k3s HA (embedded etcd) | Apache 2 | Kubernetes léger, déploiement en 45 s |
| Provisioning | cloud-init + Flux CD | Apache 2 | GitOps → zéro-touch & audit continu |
| Stockage | Longhorn + Velero/Restic | Apache 2 | Réplication n × 2, snapshots & backups |
| Sécurité | mTLS k3s, Vaultwarden, clés FIDO2 | AGPL / MPL | Secrets chiffrés, tokens rotatifs |
| LB / HA | HAProxy + Keepalived / Traefik | GPL / MIT | VIP < 2 s, ingress L7, TLS auto |
| Compute IA | Ray 2.x + vLLM | Apache 2 | Multi-GPU, reload 15 s, latence < 310ms |
| Modèles | DeepSeek-R2-78B INT4, E5-Large INT8 | Open weights | Qualité GPT-4-like, VRAM maîtrisée |
| Interface | OpenWebUI | AGPL 3 | Multi-tenant, ACL, quotas |
| Automatisation | n8n (on-prem) | GPL v3 | Low-code, 400+ intégrations |
| Vector store | Qdrant | Apache 2 | RAG haute perf + filtres métadonnées |
| Observabilité | Prometheus / Grafana | Apache 2 | KPIs VRAM, tokens/s, alertes Telegram |
4. Flux de requête standard
Séquence technique détaillée
Séquence d'interaction utilisateur
Utilisateur → Question
Interface OpenWebUI
OpenWebUI → Requête HTTPS
Vers VIP Traefik/HAProxy
Load Balancer → gRPC
Ray Head (métrique tokens/s)
Ray → DGX Spark
Inférence DeepSeek-R2
DGX Spark → Réponse textuelle
Retour vers Ray
Utilisateur ← Réponse < 310ms
JSON via interface
RAG+ (option)
- Watcher (SEFR-PLUS-B) détecte dépôt de fichier → Extract → pod Embed (DGX Spark) → Qdrant
- vLLM joint passages à la génération, cite la source
5. Haute disponibilité & redondance
Mécanismes de résilience
Bascule DGX Spark
Nœud DGX Spark down → pod vLLM recréé sur un autre DGX Spark, Ray recharge modèle < 15 s.
Failover VIP
SEFR-PLUS down → VRRP transfère l'adresse en < 2 s.
Stockage
Longhorn maintient 2 réplicas → aucun volume perdu si un nœud tombe.
Backups
Velero export chiffré quotidien (USB ou cloud FR).
Autoscale
HPA vLLM si `tokens/s` > 80% sur 30 s.
6. Création d'assistants (n8n)
Workflow automatisé de création
Webhook POST /new-assistant
(nom, prompt, quota)
n8n appelle l'API OpenWebUI
→ crée workspace + prompt système
n8n stocke URL et métadonnées
dans Postgres
Option : n8n déclenche flux RAG
(upload docs)
Utilisateur reçoit son lien assistant
sécurisé (token JWT)
Temps de création
Du webhook à la livraison
7. Spécifications de performance
Métriques pack 3 DGX Spark
| Mesure | Valeur pack 3 DGX Spark | Justification |
|---|---|---|
| Débit | 600+ tokens/sec | Performance conservative pack 3x DGX |
| Concurrence | 50+ utilisateurs simultanés | Estimation conservative (peut dépasser) |
| Latence p95 | < 310ms | Marge sécurité conditions réelles |
| Capacité/jour | 2M tokens | Usage normal 8h/jour conservative |
| VRAM totale | 384 Go (3x 128GB unified) | Modèles IA jusqu'à 78B paramètres |
| Conso électrique | ~1200W max (3x DGX + SEFR-PLUS + marge) | Consommation électrique harmonisée → coût énergie sur demande/devis. |
| Conso totale cluster | ~1200W max (3x DGX + SEFR-PLUS + marge) | Configuration complète + sécurité |
8. Avantages clés
Points différenciants de la solution
Souverain
Données et modèles 100% on-prem (RGPD, AI Act).
Évolutif
Pack initial 3x DGX Spark, puis scaling +1 DGX = +200 tokens/s (hot-plug).
Fiable
RTO < 20 s, RPO = 0 grâce à la réplication Longhorn.
Économique
Consommation électrique harmonisée → coût énergie sur demande/devis.
Pilotable
GitOps, métriques Prometheus, alertes Telegram en temps réel.
9. Checklist de déploiement (résumé)
Étapes principales d'installation
1 Réseau
VLAN IA + VLAN DMZ, DHCP réservé.
2 Branchement
Câbler SEFR-PLUS puis DGX Spark, alimentation sur onduleur.
3 Boot
cloud-init → join k3s → Flux CD sync (≈ 60 s).
4 Tests
kubectl get nodes, kubectl get pods -A.
5 Failover
Couper SEFR-PLUS-A (simulateur) → vérifier VIP.
6 Bench
osfria-bench --prompt lorem --tokens 500.
7 Formation client
2 h (OpenWebUI, n8n, sauvegardes).
8 Rapport
Exporter dashboard Grafana PDF + Velero log.
Documentation Osfria
Explorez tous les niveaux de documentation selon votre profil et vos besoins.