📋 Documentation technique - Version 1.0 - Juin 2025

Architecture Cluster SEFR-PLUS + NVIDIA DGX Spark - Architecture technique détaillée

Solution d'IA souveraine sur site
Cluster SEFR-PLUS + NVIDIA DGX Spark - Architecture technique détaillée

Version accessible

Document interne

1. Présentation générale

Architecture d'ensemble de la solution Osfria

Osfria est une appliance d'intelligence artificielle privée, installée directement dans les locaux du client.

Elle s'appuie sur :

un cluster redondant de mini-PC SEFR-PLUS (nœuds tête)
un cluster GPU de NVIDIA DGX Spark (nœuds calcul)
une pile 100% open-source (hors pilotes NVIDIA gratuits) orchestrée par k3s
des mécanismes HA + autoscale garantissant la continuité de service

La solution fournit :

un Chat IA (OpenWebUI) multimodèle
la création automatisée d'assistants via n8n
une option RAG+ pour interroger les documents internes

2. Architecture matérielle

Spécifications détaillées des composants

Rôle	Matériel	Spécifications (exemple)
Nœuds tête (minimum 1x, recommandé 3x)	SEFR-PLUS i3 • Intel i3-N305 (8 cores @ 3.8GHz) • 32GB LPDDR5 + 16GB swap • 1TB NVMe M.2 (min 160K IOPS) • 2x 1GbE + 1x 10GbE SFP+ • 65W TDP max	Control-plane k3s, HAProxy/Keepalived, OpenWebUI, n8n, Postgres, Qdrant, Longhorn
Nœuds GPU (minimum 1x, scaling +1)	NVIDIA DGX Spark • 1000 TOPS FP4 avec sparsity • NVIDIA Blackwell GPU + 20-core ARM CPU • ~400W max par unité + marge • RAM: 128GB LPDDR5x unified memory • Storage: 1-4TB NVMe auto-chiffrement • Network: 10GbE + WiFi 7 + ConnectX-7 • Dimensions: 150x150x50.5mm compact	vLLM + Ray worker / DeepSeek-R2-78B INT4
Réseau	Switch 10 GbE (8 ports min)	VLAN Prod / DMZ – latence < 0,2 ms
Énergie	Onduleur 1500VA	Autonomie 10min + arrêt propre

Matériel SEFR-PLUS - Illustration

Serveurs compacts haute performance pour l'orchestration cluster

SEFR-PLUS i3 - Nœud unique

Format compact professionnel
Intel i3-N305 • 32GB RAM • 1TB NVMe
Optimisé pour orchestration k3s

Cluster SEFR-PLUS complet

Configuration 3 nœuds haute disponibilité
Redondance N+1 • Stockage distribué
Basculement automatique

3. Empilement logiciel

Stack technique complet avec justifications

Couche	Composant	Licence	Raison du choix
OS	Ubuntu 22.04 LTS / NVIDIA AI Enterprise	GPL / NVIDIA EULA	LTS + NVIDIA AI Enterprise runtime
Orchestration	k3s HA (embedded etcd)	Apache 2	Kubernetes léger, déploiement en 45 s
Provisioning	cloud-init + Flux CD	Apache 2	GitOps → zéro-touch & audit continu
Stockage	Longhorn + Velero/Restic	Apache 2	Réplication n × 2, snapshots & backups
Sécurité	mTLS k3s, Vaultwarden, clés FIDO2	AGPL / MPL	Secrets chiffrés, tokens rotatifs
LB / HA	HAProxy + Keepalived / Traefik	GPL / MIT	VIP < 2 s, ingress L7, TLS auto
Compute IA	Ray 2.x + vLLM	Apache 2	Multi-GPU, reload 15 s, latence < 310ms
Modèles	DeepSeek-R2-78B INT4, E5-Large INT8	Open weights	Qualité GPT-4-like, VRAM maîtrisée
Interface	OpenWebUI	AGPL 3	Multi-tenant, ACL, quotas
Automatisation	n8n (on-prem)	GPL v3	Low-code, 400+ intégrations
Vector store	Qdrant	Apache 2	RAG haute perf + filtres métadonnées
Observabilité	Prometheus / Grafana	Apache 2	KPIs VRAM, tokens/s, alertes Telegram

4. Flux de requête standard

Séquence technique détaillée

Séquence d'interaction utilisateur

Utilisateur → Question

Interface OpenWebUI

OpenWebUI → Requête HTTPS

Vers VIP Traefik/HAProxy

Load Balancer → gRPC

Ray Head (métrique tokens/s)

Ray → DGX Spark

Inférence DeepSeek-R2

DGX Spark → Réponse textuelle

Retour vers Ray

Utilisateur ← Réponse < 310ms

JSON via interface

RAG+ (option)

Watcher (SEFR-PLUS-B) détecte dépôt de fichier → Extract → pod Embed (DGX Spark) → Qdrant
vLLM joint passages à la génération, cite la source

5. Haute disponibilité & redondance

Mécanismes de résilience

Bascule DGX Spark

Nœud DGX Spark down → pod vLLM recréé sur un autre DGX Spark, Ray recharge modèle < 15 s.

Failover VIP

SEFR-PLUS down → VRRP transfère l'adresse en < 2 s.

Stockage

Longhorn maintient 2 réplicas → aucun volume perdu si un nœud tombe.

Backups

Velero export chiffré quotidien (USB ou cloud FR).

Autoscale

HPA vLLM si `tokens/s` > 80% sur 30 s.

6. Création d'assistants (n8n)

Workflow automatisé de création

Webhook POST /new-assistant

(nom, prompt, quota)

n8n appelle l'API OpenWebUI

→ crée workspace + prompt système

n8n stocke URL et métadonnées

dans Postgres

Option : n8n déclenche flux RAG

(upload docs)

Utilisateur reçoit son lien assistant

sécurisé (token JWT)

Temps de création

~30s

Du webhook à la livraison

7. Spécifications de performance

Métriques pack 3 DGX Spark

Mesure	Valeur pack 3 DGX Spark	Justification
Débit	600+ tokens/sec	Performance conservative pack 3x DGX
Concurrence	50+ utilisateurs simultanés	Estimation conservative (peut dépasser)
Latence p95	< 310ms	Marge sécurité conditions réelles
Capacité/jour	2M tokens	Usage normal 8h/jour conservative
VRAM totale	384 Go (3x 128GB unified)	Modèles IA jusqu'à 78B paramètres
Conso électrique	~1200W max (3x DGX + SEFR-PLUS + marge)	Consommation électrique harmonisée → coût énergie sur demande/devis.
Conso totale cluster	~1200W max (3x DGX + SEFR-PLUS + marge)	Configuration complète + sécurité

8. Avantages clés

Points différenciants de la solution

Souverain

Données et modèles 100% on-prem (RGPD, AI Act).

Évolutif

Pack initial 3x DGX Spark, puis scaling +1 DGX = +200 tokens/s (hot-plug).

Fiable

RTO < 20 s, RPO = 0 grâce à la réplication Longhorn.

Économique

Consommation électrique harmonisée → coût énergie sur demande/devis.

Pilotable

GitOps, métriques Prometheus, alertes Telegram en temps réel.

9. Checklist de déploiement (résumé)

Étapes principales d'installation

1 Réseau

VLAN IA + VLAN DMZ, DHCP réservé.

2 Branchement

Câbler SEFR-PLUS puis DGX Spark, alimentation sur onduleur.

3 Boot

cloud-init → join k3s → Flux CD sync (≈ 60 s).

4 Tests

kubectl get nodes, kubectl get pods -A.

5 Failover

Couper SEFR-PLUS-A (simulateur) → vérifier VIP.

6 Bench

osfria-bench --prompt lorem --tokens 500.

7 Formation client

2 h (OpenWebUI, n8n, sauvegardes).

8 Rapport

Exporter dashboard Grafana PDF + Velero log.

Documentation Osfria

Explorez tous les niveaux de documentation selon votre profil et vos besoins.

Version accessible Document interne Support technique

Pour toute question ou mise à jour : [email protected]