Comment générer du SQL à partir de texte avec les LLMs ?

Les LLMs peuvent convertir des requêtes en langage naturel en code SQL efficace, simplifiant l’accès aux données pour les non-experts. Cette méthode s’appuie sur des promptings précis intégrant les schémas de bases et des rôles pour garantir la pertinence du SQL généré.

3 principaux points à retenir.

Choisir entre LLMs connectés ou non à la base selon le besoin d’exécution en temps réel.
Fournir un schéma clair dans le prompt est essentiel pour un SQL pertinent.
Vérifier et affiner le code SQL généré pour éviter erreurs et biais.

Quels sont les types de LLMs pour générer du SQL ?

Dans la jungle des modèles de langage, deux catégories se détachent pour générer des requêtes SQL : ceux qui n’ont pas accès direct aux bases de données et ceux qui peuvent interroger et exécuter des requêtes en temps réel. Examinons-les plus en détail.

LLMs sans accès direct :
Exemples : ChatGPT, Claude. Ces modèles fonctionnent en acceptant des descriptions textuelles des schémas de base de données. Ils ont l’avantage de pouvoir générer des requêtes SQL basées sur des explications fournies par l’utilisateur. Par exemple, si vous avez un schéma complexe, vous pouvez décrire les relations et les attributs en détails, et le modèle peut produire une requête SQL pour vous.
Cas d’usage : idéal pour les développeurs qui ont besoin d’obtenir rapidement des requêtes sans plonger dans le code. Cela peut être utile dans des sessions de brainstorming ou lorsque vous devez prouver un concept à un client.
Inconvénients : la qualité des réponses dépend directement de la clarté et de la précision des descriptions fournies. Si vous omettez une clé ou décrivez mal une relation, attendez-vous à des résultats erronés.
LLMs avec accès direct :
Découvrez égalementQu'est-ce que Google Antigravity et comment révolutionne-t-il le coding ?
Exemples : Text2SQL.ai, BlazeSQL. Ces outils se connectent directement à votre base de données et peuvent exécuter des requêtes en temps réel. Cela en fait des alliés puissants pour les analystes de données qui ont besoin d’interroger des systèmes dynamiques.
Cas d’usage : parfait pour les situations où l’exactitude et l’instantanéité des données sont essentielles. Par exemple, si un utilisateur pose une question sur les ventes récentes, l’outil peut générer et exécuter la requête SQL en quelques secondes, vous fournissant des données à jour.
Inconvénients : cela nécessite une configuration initiale plus complexe et le respect des protocoles de sécurité. Vous devez également être prudent avec les permissions d’accès, car des requêtes malveillantes pourraient être exécutées si les contrôles ne sont pas en place.

En somme, le choix entre ces deux types de LLM dépend de votre besoin spécifique : un accès rapide à des requêtes basées sur vos descriptions ou une interaction dynamique avec votre base de données. Peu importe votre choix, l’utilisation de ces technologies peut significativement améliorer votre efficacité dans la gestion des données.

Comment préparer un prompt efficace pour transformer du texte en SQL ?

Pour générer du SQL à partir de texte, la préparation d’un prompt efficace est cruciale. Cela commence par une définition claire du schéma de base de données. Imaginez que vous deviez expliquer votre database à quelqu’un qui n’a jamais mis les pieds dans le monde des données. Vous devez être précis : quelles sont vos tables, quelles colonnes comportent-elles, quels types de données sont en jeu et quelles sont les relations entre toutes ces pièces. Cela évite toute confusion et aide le modèle à produire des requêtes SQL valables.

Un bon prompt doit suivre une structure bien définie. Voici les éléments clés à inclure :

Schéma de la base de données : décrivez les tables, les colonnes avec leur type de données, et les relations entre les tables.
Question métier : indiquer clairement la requête que vous souhaitez exécuter.
Hypothèses : mentionnez toute hypothèse que le LLM devrait considérer pour comprendre le contexte de la requête.
Définition du rôle : spécifiez le rôle que le LLM doit adopter, comme celui d’un expert SQL.

Voilà un exemple concret de prompt pour ChatGPT :


Schéma de la base de données : 
- Table "Clients" (id INT, nom VARCHAR(100), age INT, ville VARCHAR(50))
- Table "Commandes" (id INT, client_id INT, produit VARCHAR(100), date_commande DATE)

Question : 
Quelle est la moyenne d'âge des clients qui ont passé des commandes de produits spécifiques en 2022 ?

Hypothèses : 
Les produits considérés contiennent le mot "électronique".
 
Rôle : 
Tu es un expert SQL. Génère une requête SQL qui répond à cette question.

Avec un prompt comme celui-ci, vous avez maximisé vos chances d’obtenir une réponse pertinente. Il situe le LLM dans un contexte précis, tout en lui donnant une direction claire sur ce qui est attendu. Pour un projet avec un schéma complexe, consultez cette discussion pratique sur Reddit, ici. Cela peut vous aider à mieux naviguer dans des structures plus sophistiquées.

Quelle est la démarche pour obtenir, exécuter et améliorer un code SQL via un LLM ?

Pour obtenir, exécuter et améliorer une requête SQL via un LLM (Langage de Modèle de Langage), il est essentiel de suivre une séquence structurée. Voici comment procéder :

Génération de la requête : Commencez par rédiger un prompt clair et précis pour le LLM, en spécifiant le type de données que vous souhaitez interroger et les conditions filtrant ces données. Par exemple, un prompt pourrait être : “Génère-moi une requête SQL pour sélectionner les noms des clients ayant passé plus de 5 commandes dans l’année.” Le LLM analysera cette demande et vous fournira une requête SQL.
Exécution de la requête : Une fois la requête générée, exécutez-la dans votre environnement de base de données ou un simulateur SQL. Assurez-vous d’avoir bien configuré votre base de données pour éviter les erreurs de connexion ou de syntaxe.
Vérification des résultats : Après exécution, examinez les résultats. Sont-ils pertinents ? Correspondent-ils à vos attentes ? Si vous avez demandé des clients ayant passé plus de 5 commandes, assurez-vous que le nombre de résultats est cohérent avec cette définition.
Affinement de la requête : Engagez un dialogue itératif avec le LLM pour améliorer la requête. Cela peut inclure des ajouts comme des jointures ou des conditions supplémentaires. Par exemple, vous pourriez reformuler votre question : “Peux-tu ajouter une condition pour que la commande ait été passée en 2023 ?” Le LLM réajustera alors la requête en conséquence.

Voici un exemple de requête SQL générée par un LLM :

SELECT customer_name FROM orders WHERE order_count > 5;

Dans cette requête, customer_name est la colonne qui contient les noms des clients, et order_count est supposée être une colonne qui compte le nombre de commandes passées. Si vous réalisez que tant de colonnes n’existent pas, vous aurez probablement besoin de les corriger en fonction de votre structure de base de données réelle.

Intérêt d’une visualisation : Visualiser les résultats peut offrir une meilleure compréhension des données. Sélectionnez un outil de visualisation pour transformer ces données en graphiques ou tableaux. Une approche adaptative face aux résultats obtenus vous permettra d’itérer et d’ajuster vos requêtes pour maximiser la pertinence des données extraites, concrétisant ainsi votre analyse.

Quels sont les pièges et bonnes pratiques pour utiliser les LLMs en Text-to-SQL ?

Les modèles de langage comme GPT-3 sont puissants, mais leur utilisation pour générer des requêtes SQL à partir de texte comporte des risques. Voici les principaux pièges à éviter et les bonnes pratiques à suivre.

Tout d’abord, la **compréhension du schéma** est critique. Un LLM peut interpréter un schéma de manière erronée, ce qui peut mener à des requêtes qui n’interrogent pas les bonnes tables ou colonnes. Par exemple, si l’utilisateur demande de joindre les tables “Clients” et “Commandes”, mais que le modèle ne voit pas comment ces tables sont liées dans le schéma, le résultat sera erroné. On peut éviter cela en fournissant des descriptions claires et contextualisées du schéma au LLM.

Ensuite, les **biais dans les données d’entraînement** représentent un danger. Si le modèle a été formé principalement sur des bases de données spécifiques, il peut ne pas performer aussi bien sur d’autres types de données. Par exemple, une recherche sur des bases de données orientées objets pourrait générer des requêtes inefficaces dans un contexte relationnel. Il est donc essentiel de tester et d’évaluer le modèle avec des jeux de données représentatifs de vos besoins.

Pour éviter les **requêtes inefficaces**, l’intégration de validations humaines est primordiale. Un expert peut vérifier les requêtes générées avant leur exécution pour s’assurer de leur pertinence. Cela inclut d’examiner les performances des requêtes sur des données réelles.

Parmi les bonnes pratiques, l’utilisation d’un **rôle clair dans les prompts** est également essentielle. Formuler le prompt pour que le LLM sache qu’il doit agir comme un expert SQL peut améliorer la qualité des résultats. De plus, instaurer un **feedback itératif** permet au modèle d’apprendre de ses erreurs en réajustant ses futures requêtes sur la base de retours concrets.

Enfin, un **contrôle de cohérence** des résultats est crucial. En comparant les requêtes générées aux données brutes, on peut s’assurer qu’elles produisent des résultats valides et utiles.

Voici un tableau synthétique comparant les pièges et les solutions adaptées :

Pièges	Solutions
Mauvaise compréhension du schéma	Fournir des descriptions claires du schéma
Biais dans les données d’entraînement	Tester sur des jeux de données représentatifs
Requêtes inefficaces	Intégration de validations humaines
Manque de clarté dans les prompts	Utiliser un rôle clair pour le LLM
Absence de feedback	Instaurer un processus de feedback itératif
Résultats incohérents	Contrôler la cohérence des résultats générés

Faut-il maîtriser le SQL pour tirer profit des LLMs en analyse de données ?

Les LLMs représentent un puissant levier pour convertir du langage courant en SQL, rendant l’exploration des données plus accessible. Néanmoins, réussir cette approche demande une compréhension fine du schéma de base, une formulation précise dans les prompts, et une supervision rigoureuse des résultats. L’expertise SQL reste un atout majeur pour superviser, valider et affiner les requêtes générées, garantissant ainsi la pertinence et la performance des analyses effectuées.

FAQ

Qu’est-ce qu’un LLM dans le contexte SQL ?

Un LLM (Large Language Model) est un modèle d’IA capable de comprendre et générer du langage naturel. Dans le cadre SQL, il peut transformer des questions en langage courant en requêtes SQL exécutables.

Peut-on utiliser un LLM sans accès direct à la base ?

Oui. Dans ce cas, il faut fournir manuellement le schéma de la base dans le prompt, et le LLM génère un code SQL qui devra être exécuté séparément.

Comment rédiger un prompt efficace pour générer du SQL ?

Incluez toujours la description complète du schéma, la question métier précise, toute hypothèse pertinente, et un rôle clair pour le LLM (par exemple expert SQL) afin d’obtenir une requête pertinente et optimisée.

Le SQL généré par un LLM est-il toujours fiable ?

Non, surtout pour les requêtes complexes ou bases volumineuses, il faut toujours vérifier et tester le code. Le LLM peut faire des erreurs ou générer du code inefficace.

Quels sont les avantages des LLMs avec accès direct aux bases ?

Ils permettent de générer, exécuter et obtenir les résultats en temps réel, favorisant l’exploration interactive de données et des assistants intégrés plus performants.

A propos de l’auteur

Franck Scandolera est consultant expert et formateur en Data Engineering, SQL et IA générative. Responsable de l’agence webAnalyste et fondateur de Formations Analytics, il accompagne depuis plus d’une décennie des professionnels dans la maîtrise de la donnée, de la collecte à l’exploitation avancée. Sa pratique quotidienne intègre automatisation no-code, prompt engineering et architecture data, faisant de lui un référent pour transformer les textes métier en solutions analytiques performantes.