📋 Documentation technique - Version 1.0 - Juin 2025

Architecture Cluster SEFR-PLUS + NVIDIA DGX Spark - Architecture technique détaillée

Solution d'IA souveraine sur site
Cluster SEFR-PLUS + NVIDIA DGX Spark - Architecture technique détaillée

1. Présentation générale

Architecture d'ensemble de la solution Osfria

Osfria est une appliance d'intelligence artificielle privée, installée directement dans les locaux du client.

Elle s'appuie sur :
  • un cluster redondant de mini-PC SEFR-PLUS (nœuds tête)
  • un cluster GPU de NVIDIA DGX Spark (nœuds calcul)
  • une pile 100% open-source (hors pilotes NVIDIA gratuits) orchestrée par k3s
  • des mécanismes HA + autoscale garantissant la continuité de service
La solution fournit :
  • un Chat IA (OpenWebUI) multimodèle
  • la création automatisée d'assistants via n8n
  • une option RAG+ pour interroger les documents internes

2. Architecture matérielle

Spécifications détaillées des composants

Rôle Matériel Spécifications (exemple)
Nœuds tête (minimum 1x, recommandé 3x) SEFR-PLUS i3
• Intel i3-N305 (8 cores @ 3.8GHz)
• 32GB LPDDR5 + 16GB swap
• 1TB NVMe M.2 (min 160K IOPS)
• 2x 1GbE + 1x 10GbE SFP+
• 65W TDP max
Control-plane k3s, HAProxy/Keepalived, OpenWebUI, n8n, Postgres, Qdrant, Longhorn
Nœuds GPU (minimum 1x, scaling +1) NVIDIA DGX Spark
• 1000 TOPS FP4 avec sparsity
• NVIDIA Blackwell GPU + 20-core ARM CPU
• ~400W max par unité + marge
• RAM: 128GB LPDDR5x unified memory
• Storage: 1-4TB NVMe auto-chiffrement
• Network: 10GbE + WiFi 7 + ConnectX-7
• Dimensions: 150x150x50.5mm compact
vLLM + Ray worker / DeepSeek-R2-78B INT4
Réseau Switch 10 GbE (8 ports min) VLAN Prod / DMZ – latence < 0,2 ms
Énergie Onduleur 1500VA Autonomie 10min + arrêt propre

Matériel SEFR-PLUS - Illustration

Serveurs compacts haute performance pour l'orchestration cluster

SEFR-PLUS i3 - Nœud tête cluster
SEFR-PLUS i3 - Nœud unique
Format compact professionnel
Intel i3-N305 • 32GB RAM • 1TB NVMe
Optimisé pour orchestration k3s
Cluster SEFR-PLUS - 3 nœuds redondants
Cluster SEFR-PLUS complet
Configuration 3 nœuds haute disponibilité
Redondance N+1 • Stockage distribué
Basculement automatique

3. Empilement logiciel

Stack technique complet avec justifications

Couche Composant Licence Raison du choix
OS Ubuntu 22.04 LTS / NVIDIA AI Enterprise GPL / NVIDIA EULA LTS + NVIDIA AI Enterprise runtime
Orchestration k3s HA (embedded etcd) Apache 2 Kubernetes léger, déploiement en 45 s
Provisioning cloud-init + Flux CD Apache 2 GitOps → zéro-touch & audit continu
Stockage Longhorn + Velero/Restic Apache 2 Réplication n × 2, snapshots & backups
Sécurité mTLS k3s, Vaultwarden, clés FIDO2 AGPL / MPL Secrets chiffrés, tokens rotatifs
LB / HA HAProxy + Keepalived / Traefik GPL / MIT VIP < 2 s, ingress L7, TLS auto
Compute IA Ray 2.x + vLLM Apache 2 Multi-GPU, reload 15 s, latence < 310ms
Modèles DeepSeek-R2-78B INT4, E5-Large INT8 Open weights Qualité GPT-4-like, VRAM maîtrisée
Interface OpenWebUI AGPL 3 Multi-tenant, ACL, quotas
Automatisation n8n (on-prem) GPL v3 Low-code, 400+ intégrations
Vector store Qdrant Apache 2 RAG haute perf + filtres métadonnées
Observabilité Prometheus / Grafana Apache 2 KPIs VRAM, tokens/s, alertes Telegram

4. Flux de requête standard

Séquence technique détaillée

Séquence d'interaction utilisateur
1
Utilisateur → Question

Interface OpenWebUI

2
OpenWebUI → Requête HTTPS

Vers VIP Traefik/HAProxy

3
Load Balancer → gRPC

Ray Head (métrique tokens/s)

4
Ray → DGX Spark

Inférence DeepSeek-R2

5
DGX Spark → Réponse textuelle

Retour vers Ray

6
Utilisateur ← Réponse < 310ms

JSON via interface

RAG+ (option)
  • Watcher (SEFR-PLUS-B) détecte dépôt de fichier → Extract → pod Embed (DGX Spark) → Qdrant
  • vLLM joint passages à la génération, cite la source

5. Haute disponibilité & redondance

Mécanismes de résilience

Bascule DGX Spark

Nœud DGX Spark down → pod vLLM recréé sur un autre DGX Spark, Ray recharge modèle < 15 s.

Failover VIP

SEFR-PLUS down → VRRP transfère l'adresse en < 2 s.

Stockage

Longhorn maintient 2 réplicas → aucun volume perdu si un nœud tombe.

Backups

Velero export chiffré quotidien (USB ou cloud FR).

Autoscale

HPA vLLM si `tokens/s` > 80% sur 30 s.

6. Création d'assistants (n8n)

Workflow automatisé de création

1
Webhook POST /new-assistant

(nom, prompt, quota)

2
n8n appelle l'API OpenWebUI

→ crée workspace + prompt système

3
n8n stocke URL et métadonnées

dans Postgres

4
Option : n8n déclenche flux RAG

(upload docs)

5
Utilisateur reçoit son lien assistant

sécurisé (token JWT)

Temps de création
~30s

Du webhook à la livraison

7. Spécifications de performance

Métriques pack 3 DGX Spark

Mesure Valeur pack 3 DGX Spark Justification
Débit 600+ tokens/sec Performance conservative pack 3x DGX
Concurrence 50+ utilisateurs simultanés Estimation conservative (peut dépasser)
Latence p95 < 310ms Marge sécurité conditions réelles
Capacité/jour 2M tokens Usage normal 8h/jour conservative
VRAM totale 384 Go (3x 128GB unified) Modèles IA jusqu'à 78B paramètres
Conso électrique ~1200W max (3x DGX + SEFR-PLUS + marge) Consommation électrique harmonisée → coût énergie sur demande/devis.
Conso totale cluster ~1200W max (3x DGX + SEFR-PLUS + marge) Configuration complète + sécurité

8. Avantages clés

Points différenciants de la solution

Souverain

Données et modèles 100% on-prem (RGPD, AI Act).

Évolutif

Pack initial 3x DGX Spark, puis scaling +1 DGX = +200 tokens/s (hot-plug).

Fiable

RTO < 20 s, RPO = 0 grâce à la réplication Longhorn.

Économique

Consommation électrique harmonisée → coût énergie sur demande/devis.

Pilotable

GitOps, métriques Prometheus, alertes Telegram en temps réel.

9. Checklist de déploiement (résumé)

Étapes principales d'installation

1 Réseau

VLAN IA + VLAN DMZ, DHCP réservé.

2 Branchement

Câbler SEFR-PLUS puis DGX Spark, alimentation sur onduleur.

3 Boot

cloud-init → join k3s → Flux CD sync (≈ 60 s).

4 Tests

kubectl get nodes, kubectl get pods -A.

5 Failover

Couper SEFR-PLUS-A (simulateur) → vérifier VIP.

6 Bench

osfria-bench --prompt lorem --tokens 500.

7 Formation client

2 h (OpenWebUI, n8n, sauvegardes).

8 Rapport

Exporter dashboard Grafana PDF + Velero log.

Documentation Osfria

Explorez tous les niveaux de documentation selon votre profil et vos besoins.

Pour toute question ou mise à jour : [email protected]