Comment construire un système RAG simple de A à Z ?

Un système RAG combine un moteur de recherche avec un modèle de langage pour fournir des réponses précises et à jour. Cette méthode réduit les hallucinations en alimentant le modèle avec des données externes. Découvrez comment bâtir ce système en 7 étapes concrètes et claires.

3 principaux points à retenir.

RAG améliore la pertinence des réponses en intégrant des données réelles.
La structuration des données en morceaux permet de gérer la limite de contexte des LLM.
Stocker et rechercher via un index vectoriel est clé pour la rapidité et la précision.

Quels sont les fondamentaux d’un système RAG ?

Un système RAG, ou Retrieval-Augmented Generation, représente une avancée significative dans le domaine de l’intelligence artificielle, en alliant deux composants maîtres : le retriever et le générateur. Le rôle du retriever est d’extraire des passages pertinents d’une base de connaissances, tandis que le générateur, généralement un modèle de langage (LLM), produit la réponse finale en se basant sur ces extraits. Ce duo fonctionne ensemble comme une fine orchestration, transformant des données brutes en réponses nuancées.

Imaginons un workflow simple. Lorsqu’un utilisateur pose une question, le processus commence. Premièrement, le retriever parcourt les documents indexés dans la base de données pour en extraire les passages les plus pertinents. Ensuite, ces extraits sont fournis au LLM, qui les examine pour générer une réponse contextuelle et pertinente. Ce mécanisme de collaboration entre le retriever et le générateur est essentiel pour obtenir des réponses fiables et contextualisées, en tenant compte d’informations à jour et spécifiques à la demande.

La complémentarité de ces deux modules est la clé de voûte du système RAG. Un LLM standard, par exemple, dépend uniquement de ses connaissances internes, qui peuvent rapidement devenir obsolètes ou être limitées. En revanche, en intégrant le retriever, le système peut puiser dans une base de connaissances actualisée, réduisant ainsi les risques d’erreurs et de désinformation. En d’autres termes, RAG ne se contente pas de « savoir », il apprend et s’adapte en continu. Pour une exploration plus approfondie des concepts fondamentaux des systèmes RAG, vous pouvez consulter cet article : Bien comprendre l’architecture RAG et ses fondamentaux.

Cette approche réglée offre une réponse plus robuste et précieuse à l’utilisateur, ouvrant des portes vers des applications concrètes et dynamisant ainsi l’accès à l’information. L’innovation réside dans cette interaction synergique, qui non seulement enrichit la précision des réponses, mais permet aussi aux utilisateurs d’obtenir des informations qu’ils ne pourraient pas reproduire en utilisant un LLM conventionnel.

Comment préparer et segmenter les données pour RAG ?

Avant même de plonger dans la magie de RAG, il est crucial de se concentrer sur la préparation et la segmentation des données. Pourquoi ? Simplement parce qu’un système de RAG se nourrit d’informations précises et bien formatées. Si vos documents internes sont bruyants ou mal structurés, attendez-vous à des réponses tout aussi erronées. Par exemple, imaginez un client qui pose une question sur votre service et reçoit une réponse erronée basée sur des notes de réunion mal nettoyées. C’est le genre d’erreur que l’on veut absolument éviter.

Le prétraitement des données consiste à nettoyer les documents pour éliminer toute information superflue, ce qui nous amène à la nécessité de diviser les documents longs en morceaux courts ou “chunks”. En effet, les modèles de langage (LLM) ont une limite en termes de taille de contexte à traiter. Si vous leur balancez un roman entier, ils ne sauront pas par où commencer. Voici où le LangChain’s RecursiveCharacterTextSplitter entre en jeu. Cet outil découpe les documents à des points naturels, comme à la fin d’une phrase ou d’un paragraphe, afin que chaque morceau soit compréhensible et pertinent.

Voyons comment tout ça fonctionne en pratique avec un peu de code Python. On commence par charger et nettoyer nos documents. Ce processus s’effectue en plusieurs étapes :


import os

def load_documents(folder_path):
    docs = []
    for file in os.listdir(folder_path):
        if file.endswith(".txt"):
            with open(os.path.join(folder_path, file), 'r', encoding='utf-8') as f:
                docs.append(f.read())
    return docs

Ensuite, nous nettoyons nos documents pour éviter que le modèle récupère du bruit :


import re

def clean_text(text: str) -> str:
    text = re.sub(r'\\s+', ' ', text)
    text = re.sub(r'[^\x00-\x7F]+', ' ', text)
    return text.strip()

Une fois nettoyés, place au découpage des documents :


from langchain.text_splitter import RecursiveCharacterTextSplitter

def split_docs(documents, chunk_size=500, chunk_overlap=100):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    chunks = splitter.create_documents(documents)
    print(f"Total chunks created: {len(chunks)}")
    return chunks

Le chevauchement entre les morceaux n’est pas qu’un caprice ; il est essentiel pour garantir la continuité contextuelle. Il aide le modèle à lier des idées entre différents chunks, évitant ainsi toute confusion au bord d’un chunk. Voilà donc la clé pour préparer et segmenter efficacement vos données pour un système RAG performant !

Comment vectoriser et indexer les données efficacement ?

Pour vectoriser et indexer efficacement vos données, la première étape cruciale est de transformer vos textes en vecteurs numériques. Cela se fait grâce à des modèles d’embeddings comme SentenceTransformer. Un embedding est une représentation numérique d’un texte qui capture son sens sémantique tout en permettant aux machines de le traiter. En d’autres termes, il convertit le caractère ambigu des mots en chiffres que les ordinateurs peuvent facilement gérer.

Pourquoi est-ce si important ? Lorsqu’un modèle de langage ou un système de recherche fait face à une question, il ne peut pas comprendre les mots de la même manière qu’un humain. Au lieu de cela, il utilise les embeddings pour évaluer la similarité sémantique entre deux textes. En utilisant un modèle d’embeddings bien entraîné, vous vous assurez que la signification contextuelle des morceaux de texte est conservée, ce qui réduit les risques d’hallucinations lors des réponses générées.

Pour créer des embeddings pour vos chunks, il vous suffit d’intégrer le code suivant dans votre projet :

from sentence_transformers import SentenceTransformer
import numpy as np

def get_embeddings(text_chunks):
    # Load embedding model
    model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
    
    print(f"Creating embeddings for {len(text_chunks)} chunks:")
    embeddings = model.encode(text_chunks, show_progress_bar=True)
    
    print(f"Embeddings shape: {embeddings.shape}")
    return np.array(embeddings)

Une fois vos textes vectorisés, l’étape suivante consiste à stocker ces vecteurs dans un index vectoriel comme FAISS (Facebook AI Similarity Search). Cet index vous permettra d’effectuer des recherches rapides basées sur la proximité des vecteurs. Imaginez les vecteurs comme des points dans un espace multidimensionnel : quand une requête est posée, FAISS aide à identifier les points les plus proches, et donc les textes les plus pertinents.

Voici un exemple de code pour construire et sauvegarder votre index FAISS :

import faiss
import numpy as np
import pickle

def build_faiss_index(embeddings, save_path="faiss_index"):
    dim = embeddings.shape[1]
    print(f"Building FAISS index with dimension: {dim}")

    index = faiss.IndexFlatL2(dim)
    index.add(embeddings.astype('float32'))

    faiss.write_index(index, f"{save_path}.index")
    print(f"Saved FAISS index to {save_path}.index")

    return index

N’oubliez pas de conserver la metadata des textes originaux pour relier ces vecteurs à leur contenu. Cela vous permettra de retrouver facilement les textes lorsque vous aurez besoin d’afficher les résultats lors d’une requête. Pour plus de détails sur la manière de réussir vos premiers projets RAG, vous pouvez consulter cet article ici.

Comment récupérer et combiner les informations pertinentes ?

Une fois que nous avons nos données de texte découpées en morceaux gérables, il est temps d’entrer dans le vif du sujet : comment transformer une question d’utilisateur en un vecteur d’embedding, et comment retrouver les passages les plus pertinents grâce à l’index FAISS.

Tout commence par la transformation de la question. Utilisons un modèle pré-entraîné, comme SentenceTransformer, pour convertir notre question en un vecteur numérique. Ce vecteur est essentiel, car il nous permettra de rechercher dans notre base d’embeddings. Voici comment procéder :

from sentence_transformers import SentenceTransformer

def embed_query(query):
    model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
    query_vector = model.encode([query]).astype('float32')
    return query_vector

Ensuite, nous allons charger notre index FAISS. Cet index est notre base pour effectuer des recherches rapides et efficaces. En général, on utilise une fonction simple pour le chargement :

import faiss

def load_faiss_index(index_path="faiss_index.index"):
    return faiss.read_index(index_path)

Une fois que nous avons notre index et notre vecteur de requête, nous pouvons procéder à la recherche des top-k passages similaires. Grâce à la puissance de FAISS, cela devient un jeu d’enfant :

def retrieve_similar_chunks(query, index, text_chunks, top_k=3):
    query_vector = embed_query(query)
    distances, indices = index.search(query_vector, top_k)
    return [text_chunks[i] for i in indices[0]]

Après avoir récupéré ces éléments, nous devons les combiner en un seul contexte cohérent que nous allons fournir au modèle de langage. Il est crucial que ce contexte soit riche et pertinent pour que le modèle puisse générer des réponses précises et robustes. Voici comment procéder :

context_chunks = retrieve_similar_chunks(query, index, text_chunks, top_k=3)
context = "\n\n".join(context_chunks)

Avoir un contexte bien formulé est la clé pour des réponses de haute qualité. Cela permet au modèle de ne pas seulement \”remplir\” la réponse, mais bien de s’ancrer dans des données riches et pertinentes. Pour approfondir ce sujet, je vous recommande de consulter cet article, qui fournit des insights précieux.

Comment générer la réponse finale avec un LLM ?

Pour générer la réponse finale avec un modèle de langage, c’est un peu comme préparer une recette de cuisine : chaque ingrédient doit être soigneusement sélectionné pour obtenir un plat savoureux. Ainsi, après avoir récupéré les extraits pertinents, il est crucial de les combiner avec la question de l’utilisateur. C’est exactement ce que nous allons voir ici.

Le cœur de ce processus réside dans la construction du prompt. Ce dernier est une sorte de guide pour notre modèle, lui indiquant ce qu’il doit prendre en compte avant de formuler sa réponse. Un prompt bien formulé peut grandement améliorer la qualité de la réponse. En intégrant le contexte pertinent récupéré et la question, on associe les connaissances du modèle aux données spécifiques que nous avons rassemblées.

Voici un exemple de code qui montre comment charger un modèle open source de Hugging Face, comme TinyLlama. Nous allons voir comment alimenter le modèle en construisant notre prompt :

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

def generate_answer(query, context, top_k=3):
    # Charger le modèle et le tokenizer
    model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

    # Construire le prompt
    prompt = f"""
    Contexte:
    {context}
    Question:
    {query}
    Réponse:
    """

    # Générer la réponse
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=200, pad_token_id=tokenizer.eos_token_id)

    # Extraire la réponse
    full_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    answer = full_text.split("Réponse:")[1].strip() if "Réponse:" in full_text else full_text.strip()
    
    return answer

Dans cet exemple, le choix de l’architecture du modèle et du tokenizer impacte non seulement la qualité de la réponse générée, mais aussi la vitesse de traitement. Les modèles plus lourds fournissent généralement des résultats plus riches, mais peuvent nécessiter plus de temps pour produire une réponse. Il est donc essentiel de trouver le bon équilibre entre précision et performance, surtout si votre application nécessite des réponses rapides.

En somme, combiner le contexte fourni par les extraits récupérés avec la question de l’utilisateur au sein d’un prompt bien construit permet de maximiser les chances d’une réponse précise et contextuellement pertinente. Pour approfondir ce sujet, je vous invite à consulter cet article sur la génération augmentée par la récupération.

Prêt à intégrer un système RAG dans vos projets pour des réponses précises ?

Le système RAG transforme l’accès à l’information en combinant la puissance des LLM avec des données externes actuelles, réduisant considérablement les erreurs liées aux données obsolètes ou absentes. En maîtrisant le prétraitement, la vectorisation et la recherche efficace, vous pouvez créer un moteur de réponses fiable et personnalisé à vos besoins. Bénéficiez ainsi d’une puissance cognitive augmentée, pertinente et maîtrisée, à la portée de votre stack technique. Appréhender ces sept étapes ouvre la voie à des solutions concrètes qui améliorent significativement la qualité et la confiance dans vos systèmes d’IA générative.

FAQ

Qu’est-ce qu’un système Retrieval-Augmented Generation (RAG) ?

Un système RAG combine un module de recherche d’informations (retriever) avec un modèle de langage (LLM). Il extrait des passages pertinents d’une base de données externe pour fournir au LLM un contexte précis et à jour, améliorant la qualité et la fiabilité des réponses générées.

Pourquoi faut-il découper les documents en morceaux dans RAG ?

Parce que les LLM ont une fenêtre de contexte limitée (nombre de tokens traitables en une fois). Diviser les documents en chunks facilite une recherche plus fine et évite d’envoyer trop de données simultanément, ce qui améliorerait la qualité de la réponse. Le chevauchement assure la continuité entre morceaux.

Quels outils pour vectoriser et indexer mes données ?

Les principaux outils sont les modèles d’embeddings comme SentenceTransformers pour vectoriser, puis des bases de données vectorielles comme FAISS (open source local), Pinecone ou Chroma pour le stockage et la recherche rapide selon la similarité sémantique. Ces outils sont essentiels pour une recherche efficace dans RAG.

Comment garantir la pertinence des réponses générées ?

En préparant soigneusement les données, en nettoyant et segmentant les documents, en optimisant les embeddings et en sélectionnant les chunks les plus pertinents. L’utilisation du contexte récupéré et intégré dans le prompt du LLM réduit les risques d’hallucinations et garantit des réponses fondées sur des informations vérifiées.

Puis-je utiliser n’importe quel modèle de langage avec RAG ?

Théoriquement oui, mais le choix dépend du contexte, des ressources et des performances requises. Les modèles open source (ex TinyLlama) ou les API commerciales (OpenAI, Cohere) sont couramment utilisés. L’important est qu’ils acceptent un contexte externe pour générer des réponses cohérentes et fiables.

A propos de l’auteur

Franck Scandolera est expert en data engineering, automatisation et IA générative, avec plus de 10 ans d’expérience à architecturer des systèmes data complexes et des workflows intelligents. Responsable chez webAnalyste et formateur reconnu, il accompagne entreprises et professionnels dans la mise en place de solutions avancées mêlant analytics, NLP et outils no code, avec un focus pointu sur la robustesse, la conformité RGPD et l’industrialisation des pipelines IA.