L’IA s’est rapidement imposée dans notre façon de rechercher des informations et de réfléchir. C’est également le cas pour les journalistes et les éditeurs. La rédaction du bon prompt est presque aussi importante que la recherche de contenu. Nous sommes allés frapper à la porte de l’expert en IA David Grunewald. Il nous explique comment fonctionne le prompt engineering.
Le 5 juin, WE MEDIA a accueilli la deuxième partie de la Masterclass sur les outils d’IA pour les professionnels des médias et de la communication : « Converser avec l’IA, au-delà des bases ». Joeri Dehouwer (Thomas More) a exploré des techniques telles que le role-based prompting, le perfectionnement itératif et l’orientation intelligente de l’IA vers le résultat souhaité. Cet article va plus loin sur ce sujet avec l’aide de l’expert en IA David Grunewald.
Après avoir travaillé pendant des années dans la publicité (numérique), David a suivi le cours « Implications de l’IA pour la stratégie d’entreprise » à la MIT Sloan School of Management. Il a obtenu son diplôme avec mention en 2023 et a ensuite fondé Pluginto.ai, une agence à travers laquelle il guide stratégiquement des organisations et des entreprises de divers secteurs dans l’utilisation de l’IA. Il s’est récemment rendu au Viêt Nam où il a présenté à 60 journalistes d’un grand éditeur de presse écrite des techniques rapides de prompt engineering et des outils d’IA.
Commençons par expliquer une technique de prompting importante, celle du role-based prompting. Pourquoi est-elle si importante dans le cadre du prompt engineering ?
Les techniques de prompt engineering ont été mises au point il y a quelques années. Il s’agit simplement de techniques permettant de mieux communiquer avec les grands modèles de langage (LLM). Lorsque les débutants commencent à utiliser un LLM (tel que ChatGPT, Copilot, Mistral, Gemini ou tout autre), ils posent souvent leur question comme ils le feraient sur Google. Ils obtiennent alors une réponse, mais la qualité de la réponse s’améliore considérablement si elle est formulée de manière plus structurée.
Cette structure se compose de trois parties :
- Tout d’abord, vous définissez le persona ou le rôle – c’est-à-dire que vous définissez l’expertise que ChatGPT ou un autre outil doit prendre en charge (par exemple, journaliste dans un journal).
- Ensuite, vous donnez le contexte et, surtout, vous donnez beaucoup de détails sur votre question ou votre sujet.
- Enfin, vous décrivez la tâche que vous souhaitez que ChatGPT effectue.
Ces trois éléments constituent le strict minimum pour obtenir une bonne réponse. Si vous ne le faites pas et que vous posez immédiatement une question du type « faites ceci ou cela », le modèle linguistique effectuera cette tâche, mais probablement d’une manière moins appropriée et moins qualitative.
Pourquoi ? Parce que ChatGPT a intégré dans sa mémoire tout ce qui est disponible sur le web. En bref, toute la littérature, les livres, le contenu des médias sociaux, les publications scientifiques et les articles académiques. Sa mémoire est énorme. Dès que vous posez une question, le modèle va mot par mot, token par token, à la recherche de la bonne information avec la plus grande probabilité d’exactitude. Lorsque vous définissez le rôle, vous aidez l’outil à mettre une sorte de baromètre dans sa mémoire, pour ainsi dire, afin qu’il puisse récupérer l’information avec plus de précision et d’exactitude. C’est pourquoi il est si important de le faire.
Dans quelle mesure les modèles linguistiques de plus en plus sophistiqués influencent-ils les promptings ?
Les promptings et les modèles eux-mêmes ont connu une évolution considérable. Nous en sommes aujourd’hui à un stade où il existe trois types différents au sein de ChatGPT et d’autres modèles. Tout d’abord, il y a le modèle traditionnel, tel que GPT-4o, 4.1 ou 4.5. Ils sont très doués pour le brainstorming, les réponses, le travail créatif sur le texte et la synthèse d’informations. C’est en fait la base de ce qu’était ChatGPT il y a quelques années, mais il a été amélioré depuis grâce à une plus grande puissance de calcul et il peut analyser de plus grandes quantités de données.
Deuxièmement, il y a ce que l’on appelle les modèles de raisonnement. Ces modèles sont conçus non pas pour rédiger les meilleurs textes ou fournir des réponses, mais plutôt pour analyser les problèmes en profondeur. Vous pouvez les utiliser pour analyser de grands fichiers contenant de nombreuses données. Si vous avez un problème en tant qu’entreprise, par exemple que vos revenus diminuent parce qu’un concurrent a lancé un nouveau service, et que vous disposez des chiffres, vous pouvez demander au modèle quelle est la meilleure chose à faire. Si vous posez la même question au modèle traditionnel, vous obtiendrez également une réponse, mais elle ne sera pas aussi bonne que celle du modèle de raisonnement.
Un troisième type de recherche concerne la « recherche approfondie ». Dans ce cas, vous posez différents types de questions et utilisez une structure différente. Supposons que vous souhaitiez obtenir davantage d’informations sur l’évolution de votre marché, par exemple sur la manière dont les magazines traditionnels ont adopté de nouveaux modèles d’abonnement pour attirer les jeunes générations, et que vous vouliez savoir quelles sont les innovations les plus avancées en Asie et en Amérique. Dans ce cas, l’outil de recherche approfondie consulte le web, et non sa mémoire. Le modèle utilise des agents d’intelligence artificielle pour effectuer des recherches sur le web, en parcourant 200 à 300 sources différentes, en lisant, en analysant, en collectant des données et en créant ensuite un résumé pouvant aller jusqu’à 30 pages.
Comprendre ces différents types de LLM donne une toute nouvelle dimension au travail avec l’IA.
Concrètement maintenant : quelles techniques de prompt engineering pouvez-vous recommander aux éditeurs de presse écrite, qu’il s’agisse de journalistes ou de profils commerciaux ?
Il n’y a pas de formule magique, il s’agit surtout d’une nouvelle façon d’apprendre et de communiquer. La base est que vous reformulez chaque question, en précisant le rôle de la personne qui doit répondre : « Vous êtes un expert en… ». Ensuite, vous donnez le contexte et prenez le temps de rédiger un bon briefing, avec suffisamment d’informations sur le job que vous allez effectuer ensemble et sur l’objectif à atteindre. Formulez ensuite la tâche et le format souhaité, comme un texte, un tableau, une feuille Excel, … Indiquez également le tone of voice que vous attendez.
Vous pouvez également définir des lignes directrices dans les paramètres de ChatGPT, basées sur le style d’écriture de vos rédacteurs, afin que le modèle puisse imiter les modèles de vos textes. En outre, vous pouvez spécifier le type de jargon que vous souhaitez utiliser, par exemple juridique ou scientifique, les mots que vous voulez éviter, ou si le texte doit être rédigé de manière inclusive ou éducative. Ces éléments sont encore sous-utilisés, mais ils sont très importants.
Enfin, apprenez à bien formuler et à choisir le bon modèle de raisonnement. Tout le monde devrait aujourd’hui et dans un avenir proche être capable de formuler de meilleures questions à ChatGPT ou à tout autre modèle de langage. Prenez le temps d’écrire des prompts plus longs avec différentes instructions et apprenez à itérer. En bref, continuez à affiner ChatGPT jusqu’à ce que vous soyez satisfait du résultat. Cela nécessite une courbe d’apprentissage, mais permet en fin de compte d’obtenir de bien meilleurs résultats.
Cela nous amène au domaine du perfectionnement itératif ?
Il s’agit en effet d’une technique permettant d’affiner constamment votre question ou votre message. Nous nous dirigeons en fait vers un nouveau monde avec un type d’interaction différent, où vous ne tapez pas seulement vos questions, mais communiquez également avec ChatGPT via votre voix. Ce dernier devient un assistant IA qui vous conseille et vous parle. En effet, ChatGPT a en mémoire toutes vos conversations précédentes, depuis votre toute première interaction. Vous pouvez donc dire : « En vous basant sur toutes nos conversations, pouvez-vous m’indiquer quels sont mes points forts et mes points faibles ? Ou encore : « Pouvez-vous m’aider à éviter la procrastination, par exemple ? ».
Votre assistant devient alors un coach personnel, et non un simple répondeur téléphonique. Il faut du temps pour comprendre cela et entrer dans cette nouvelle relation avec la technologie. Parler à une machine peut sembler un peu étrange, mais une fois qu’on l’a fait, c’est un outil fantastique.
Les prompts vont donc évoluer du texte à la parole ?
Oui, et davantage de manière normalisée et structurée. C’est déjà le cas avec certains systèmes d’IA spécialisés dans la génération d’images. Par exemple, vous dites : « Je veux ce genre d’image avec un humain, avec un chien, … Le système réécrit alors lui-même la demande, en y ajoutant des détails, afin de générer une meilleure image. Ce filtrage et cette adaptation de votre requête auront certainement lieu également dans ChatGPT et autres….
L’amélioration des prompts sera donc effectuée par la machine et non par nous ?
Oui, et il y a aussi beaucoup de GPT spécifiques, pour améliorer et optimiser vos propres prompts, comme Prompt Maestro et PromptPerfect.
Ce qui est ennuyeux avec les modèles linguistiques, c’est qu’ils vous parlent parfois trop. Ils veulent vous faire plaisir et vous donnent donc la réponse qu’ils pensent que vous voulez entendre. Comment gérer au mieux cette situation ?
Il s’agit le plus souvent d’entreprises américaines, donc le style est très américain. Chez Mistral (une start-up française), je le remarque moins. Elle donne des réponses différentes, plus dans un style européen. C’est pourquoi je plaide en faveur d’une norme européenne pour les LLM. Je ne pense pas que l’intention soit d’influencer toutes nos entreprises, structures et objectifs par une solution américaine ou chinoise. Il est temps de donner une chance à une bonne solution mature comme Mistral. En attendant, je vous recommande d’ajuster les « instructions personnalisées » dans ChatGPT. Dans les paramètres, vous pouvez spécifier exactement comment vous voulez que le modèle vous réponde, par exemple de manière directe et sans positivité excessive.
Les éditeurs doivent-ils adopter une stratégie d’incitation différente selon le type d’outil qu’ils utilisent ?
Avec Midjourney ou Videogram, qui génèrent des images et des vidéos, la structure est différente de celle des modèles linguistiques. Avec ChatGPT, ChatGPT Cloud, Mistral et Copilot, la structure est presque la même. Plus vous donnez de contexte, meilleure est la réponse. Avec des prompts plus longs et plus d’informations, vous obtenez généralement de meilleures réponses. C’est la règle. Dans la vie réelle, il en va de même. Si vous préparez bien une réunion d’information, vous pouvez également vous attendre à un meilleur résultat. En bref, plus l’entrée est bonne, plus le résultat est bon.
Pourquoi utiliser les versions payantes des outils d’IA ?
Avec la version gratuite, vous pouvez utiliser cinq fois la meilleure version de ChatGPT. Ensuite, vous revenez à la version de base du modèle. Je me sens un peu limité. Il me semble donc logique d’investir. 20 à 25 euros par mois, ce n’est pas non plus insurmontable pour un outil aussi puissant, à mon avis. Un autre point important est de toujours faire attention aux informations confidentielles. Avec la version gratuite, vous n’êtes de toute façon pas tout à fait sûr que les informations de vos messages ou pièces jointes ne se retrouveront pas dans la mémoire d’une future version de ChatGPT. Si vous avez déjà téléchargé quelque chose de confidentiel dans ChatGPT, il est possible que d’autres personnes puissent encore en extraire une réponse contenant des informations confidentielles.
Les générateurs d’images par IA fonctionnent-ils déjà bien pour les éditeurs d’imprimés ?
Depuis le début de cette année, nous avons atteint un tel niveau de professionnalisme dans la génération d’images qu’il devient vraiment difficile de dire que ces images ont été créées par l’IA. Surtout si vous maîtrisez bien avec Midjourney, vous obtenez d’excellents résultats. Ce n’était pas encore le cas pour la vidéo, mais avec le lancement de Veo 3 par Google il y a environ un mois, nous avons atteint le niveau de perfection dans ce domaine également. Cela change beaucoup de choses pour le storytelling ou pour tout créateur de contenu. Ces derniers peuvent désormais visualiser des choses sans aucun enregistrement ou séquence et le faire de manière très créative. Cela va avoir un impact considérable sur l’industrie du divertissement, les médias et la publicité.
Comment cela se traduit-il dans la pratique ?
Il faut s’adapter à une grammaire très stricte et complexe propre à Midjourney. J’utilise trois ou quatre outils différents. Ideogram et Leonardo.Ai, par exemple, sont beaucoup plus faciles à utiliser que Midjourney. Vous pouvez presque demander en langage humain ordinaire et vous obtenez des images hyperréalistes. Vous pouvez éditer et retoucher vos images. En fait, je n’utilise plus Photoshop car ces outils permettent de tout retoucher et de tout combiner.
Mais ce sont Gemini et ChatGPT qui changent vraiment la donne avec leur génération d’images, car pour la première fois, il ne s’agit pas seulement d’un modèle qui, comme DALL-E auparavant, génère simplement des images sans vraiment « comprendre » ce que vous voulez dire. Vous ne pourriez pas demander à DALL-E ou à Midjourney : « Qu’en est-il de la Révolution française ? Ils ne font que générer des images, mais ne donnent pas de réponse substantielle. ChatGPT a évolué. Il peut désormais générer des images sans faire appel à un modèle de génération d’images spécifique comme DALL-E. Il peut penser et produire des images.
Si je dis « Je veux une bande dessinée de cinq pages sur la Révolution française, avec les faits principaux, des personnages étoffés, des dessins et des dialogues pour chaque page », le modèle va lui-même trouver les dialogues, déterminer le contenu de chaque page et générer le prompt pour chaque page et rendre l’image cohérente. Il n’est donc pas nécessaire de créer cinq messages différents pour cinq images différentes ; le modèle s’en charge lui-même.
L’IA devient pour ainsi dire une agence totalement intégrée
C’est une révolution, car pour écrire des scénarios, des story-boards, etc., il suffit désormais de demander : « Élaborez pour moi un story-board pour une publicité de 30 secondes sur ce sujet, et je veux un dessin ou une image pour chaque scène qui explique ce qui se passe sur le plan artistique ». Et vous obtenez cela d’une manière très cohérente, sans avoir à ajuster quelque chose cinq ou dix fois. C’est donc une autre étape. Ce n’est pas encore idéal et ce n’est pas encore parfait, mais cela va changer toute l’industrie.
Le studio de conception graphique d’un journal ou d’un magazine en bénéficie également.
En effet, je pense à peaufiner et à modifier la mise en page. La conception de sites web est devenue beaucoup plus facile parce qu’il est possible de demander au modèle de le faire et de le traduire ensuite en HTML5 ou dans d’autres langages de programmation. Cela ne remplacera pas la créativité humaine, mais il en résultera de nouvelles formes ou de nouveaux formats pour les lecteurs et les annonceurs. Nous ne devons pas avoir peur de cela. Je ne crois pas à la standardisation de l’utilisation de l’IA. Nous irons plus loin qu’avant et de manière beaucoup plus rapide.
Mais n’est-ce pas justement cette vitesse, l’accélération de tout, qui fait peur ?
En effet, et c’est pourquoi il est important de fournir une bonne formation. Non seulement pour l’utilisation des outils, mais aussi pour guider les gens vers une autre façon de travailler. Il s’agit de responsabiliser les gens, et non de les remplacer par des machines. Bien sûr, certains emplois changeront, mais de nouveaux emplois apparaîtront également.
Envie d’en savoir plus ? David donne une formation (gratuite pour nos membres) sur ce sujet dans le cadre de WE MEDIA Academy.
AVEZ-VOUS DEJA LU CECI ?