OSFRIA Découvrir les outils

OSIALab · Documents / RAG

Paperless-ngx — archiver et retrouver vos documents en local

Paperless-ngx est un système de gestion documentaire open source : il numérise, classe et indexe vos fichiers grâce à l'OCR, puis les rend cherchables depuis une interface web — tout en restant sur votre infrastructure.

Cette page est informative et sans valeur de conseil. Téléchargez toujours depuis la source officielle de chaque outil, vérifiez la licence du logiciel et des modèles, et gardez en tête qu'un modèle d'IA peut se tromper : croisez les informations importantes.

À quoi ça sert

Paperless-ngx prend en charge vos documents papier numérisés, vos PDF et vos fichiers texte, les passe à travers un moteur OCR (Tesseract), extrait les métadonnées, propose des étiquettes et des correspondants, puis les stocke dans une base indexée. Vous retrouvez n'importe quel document en quelques secondes par mots-clés, date ou tag.

C'est un outil de gestion documentaire, pas un chatbot. Il peut cependant alimenter un pipeline RAG en servant de source structurée pour des outils comme AnythingLLM ou Khoj.

Pour qui

Pour les particuliers et les petites structures qui veulent mettre fin aux dossiers papier et aux PDF éparpillés — sans confier leurs documents à un service cloud. Niveau requis : avancé — l'installation via Docker demande quelques connaissances techniques. Une fois en place, l'interface quotidienne est très accessible.

Installation

Prérequis

Docker et Docker Compose installés sur votre machine ou votre serveur local.

Déploiement avec Docker Compose

La méthode officielle recommandée utilise un fichier docker-compose.yml fourni par le projet :

# Télécharger le fichier de configuration officiel
curl -O https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/docker/compose/docker-compose.postgres-tika.yml
curl -O https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/docker/compose/.env.example

# Copier et adapter la configuration
cp .env.example .env
# Éditer .env pour définir vos mots de passe

# Lancer les services
docker compose -f docker-compose.postgres-tika.yml up -d

L'interface est ensuite accessible sur http://localhost:8000.

Créer le premier compte administrateur

docker compose exec webserver python manage.py createsuperuser

Importer vos premiers documents

Déposez vos fichiers dans le dossier de consommation (défini dans .env). Paperless-ngx les détecte automatiquement, les traite par OCR et les ajoute à votre bibliothèque.

Précautions d'usage

  • Sauvegardez régulièrement. La base de données et le dossier de stockage constituent votre seule copie — un disque peut tomber. Planifiez des sauvegardes automatiques.
  • L'OCR n'est pas infaillible. Les documents mal numérisés ou manuscrits peuvent produire une transcription erronée. Vérifiez les documents importants.
  • Vérifiez la licence (AGPL-3.0). Paperless-ngx est distribué sous licence AGPL — lisez-la avant tout déploiement dans un contexte professionnel ou commercial.
  • Ne l'exposez pas directement sur Internet sans sécuriser l'accès (reverse proxy avec HTTPS et authentification forte).

Matrice de risque

Risque Niveau Mitigation
Perte de données (panne disque) 🔴 Élevé sans sauvegarde Planifier des sauvegardes automatiques et régulières
Accès non autorisé si exposé en ligne 🔴 Élevé si exposition directe Reverse proxy HTTPS, authentification forte, accès restreint au réseau local
Erreur OCR sur documents dégradés 🟡 Moyen Vérifier manuellement les documents critiques
Licence AGPL contraignante 🟡 Moyen en contexte commercial Lire la licence AGPL-3.0 avant tout usage professionnel ou redistribution

Sécurité

Vos documents restent sur votre infrastructure. Quelques bonnes pratiques essentielles :

  • Ne jamais exposer le port 8000 directement sur Internet. Utilisez un reverse proxy (Nginx, Caddy) avec HTTPS et un certificat valide.
  • Définissez des mots de passe forts dans votre fichier .env dès l'installation.
  • Mettez à jour régulièrement. Les mises à jour de sécurité arrivent fréquemment — suivez les releases sur le dépôt officiel.
  • Limitez les permissions des dossiers de stockage à l'utilisateur qui fait tourner Docker.

Aller plus loin

  • Docling — convertir vos PDF en Markdown structuré avant ingestion RAG.
  • AnythingLLM — interroger vos documents avec une IA locale.
  • Khoj — assistant personnel avec recherche dans vos fichiers.
  • OSIALab — vue d'ensemble de tous les outils.

Sources