OSFRIA Découvrir les outils

Cartographie · Concept

Les embeddings : le sens en chiffres

Un embedding transforme un texte en une liste de nombres, de façon à ce que deux idées proches aient des nombres proches. C'est ce qui permet à une machine de « comprendre » par le sens.

Note informative, sans valeur de conseil. Une idée par note, reliée à ses voisines et aux outils concernés.

L'idée en deux mots

Un embedding (ou « plongement vectoriel ») est un modèle qui convertit un mot, une phrase ou un paragraphe en un vecteur — une suite de nombres, par exemple 384 ou 1 536 dimensions. La magie tient en une phrase : les textes de sens voisin reçoivent des vecteurs voisins. « Facture » et « devis » se retrouvent côte à côte ; « facture » et « tortue » s'éloignent. On mesure cette proximité par la similarité cosinus, qui regarde l'angle entre deux vecteurs.

Concrètement, on indexe ses documents sous forme d'embeddings dans une base vectorielle. Quand une question arrive, on la vectorise avec le même modèle et on récupère les passages les plus proches. C'est exactement le cœur de la recherche sémantique — chercher par le sens, pas par les mots exacts.

Pourquoi c'est utile

Les embeddings sont la fondation discrète du RAG et de toute recherche intelligente dans vos fichiers. De petits modèles d'embedding tournent très bien en local, sur le processeur même, ce qui garde vos documents chez vous — un atout direct pour la confidentialité. Des outils comme AnythingLLM ou Khoj s'en servent sans que vous ayez à y penser.

À relier