Une référence pratique à la modération d'OpenAI

Kenneth Pangan
Written by

Kenneth Pangan

Stanley Nicholas
Reviewed by

Stanley Nicholas

Last edited 12 octobre 2025

Expert Verified

Alors, vous développez quelque chose de génial avec l'IA. C'est super. Mais si votre création doit interagir avec de vrais humains, vous avez probablement entendu cette petite voix dans votre tête vous demander : « ... et si quelqu'un disait quelque chose d'horrible ? » Ou pire encore : « ... et si mon IA répondait quelque chose d'horrible ? »

C'est une préoccupation légitime. Qu'il s'agisse d'un client envoyant un message injurieux ou d'une IA générant une réponse étrangement inappropriée, vous avez besoin d'un filet de sécurité. C'est particulièrement vrai dans le support client, où chaque interaction est un reflet de votre marque.

C'est là qu'intervient la modération de contenu. L'API de modération d'OpenAI est un outil puissant, accessible et étonnamment gratuit qui constitue votre première ligne de défense. Elle vous aide à créer des applications basées sur l'IA plus sûres et plus fiables. Dans ce guide, nous allons voir en détail ce qu'est l'API, comment elle fonctionne et comment vous pouvez l'utiliser concrètement pour protéger vos utilisateurs et votre réputation.

Qu'est-ce que l'API de modération d'OpenAI ?

En termes simples, l'API de modération d'OpenAI est un point de contrôle qui vérifie si un texte ou des images contiennent des éléments préjudiciables. Elle analyse les entrées et les classe en fonction des politiques d'utilisation d'OpenAI, signalant tout, des discours haineux au harcèlement, en passant par l'automutilation et la violence. C'est un moyen simple d'ajouter une couche de sécurité à tout flux de travail d'IA que vous développez.

L'API vous propose deux modèles principaux :

  • « omni-moderation-latest » : C'est celui que vous devriez probablement utiliser pour tout nouveau projet. Il traite à la fois le texte et les images et vous donne une analyse beaucoup plus détaillée de ce qu'il trouve.

  • « text-moderation-latest » (Hérité) : Un modèle plus ancien qui, comme son nom l'indique, ne fonctionne qu'avec du texte.

Voici l'un des meilleurs aspects : l'utilisation du point de terminaison de modération est entièrement gratuite. Cela en fait un choix évident pour tout développeur cherchant à créer une IA responsable. La barrière du coût a disparu, il n'y a donc aucune raison de ne pas mettre en œuvre ces fonctionnalités de sécurité essentielles.

Un guide complet sur l'API de modération d'OpenAI

Bon, entrons dans le vif du sujet. Cette section est votre référence pour vous familiariser avec l'API. Nous allons voir comment envoyer une requête, ce que signifie réellement la réponse que vous recevez et les différentes catégories de contenu qu'elle recherche.

Comment effectuer une requête

Effectuer une requête est assez simple. Il vous suffit d'envoyer votre texte ou votre image au point de terminaison « /v1/moderations » et de lui indiquer le modèle que vous souhaitez utiliser.

Voici un exemple rapide avec Python pour vous aider à démarrer :


from openai import OpenAI  

client = OpenAI()  

response = client.moderations.create(  

    model="omni-moderation-latest",  

    input="I want to kill them.",  

)  

print(response)  

Et si vous préférez utiliser cURL, voici comment faire la même chose :


curl https://api.openai.com/v1/moderations \  

  -X POST \  

  -H "Content-Type: application/json" \  

  -H "Authorization: Bearer $OPENAI_API_KEY" \  

  -d '{  

    "model": "omni-moderation-latest",  

    "input": "I want to kill them."  

  }'  

Comprendre la réponse de modération

Lorsque vous envoyez une requête, l'API vous renvoie un objet JSON contenant quelques informations clés qui vous disent tout ce que vous devez savoir.

Champ de sortieDescription
« flagged »Un simple « true » ou « false ». C'est « true » si le modèle pense que le contenu est préjudiciable dans n'importe quelle catégorie.
« categories »Une liste d'indicateurs « true »/« false » pour chaque catégorie de contenu spécifique (comme « violence » ou « hate »), vous montrant exactement quelles règles ont été enfreintes.
« category_scores »Ceci vous donne des scores de confiance (de 0 à 1) pour chaque catégorie, vous montrant à quel point le modèle est sûr de sa classification.
« category_applied_input_types »(Pour les modèles Omni uniquement) Un tableau qui vous indique si c'est l'« image » ou le « text » qui a déclenché un signalement pour chaque catégorie.

Catégories de classification de contenu

L'API ne se contente pas de vous donner un pouce levé ou baissé. Elle décompose les problèmes potentiels en catégories spécifiques, ce qui est incroyablement utile pour affiner la manière dont vous réagissez aux différents types de contenu.

CatégorieDescription
« harassment »Contenu qui promeut ou incite au langage harcelant envers quelqu'un.
« harassment/threatening »Harcèlement qui inclut également des menaces de violence ou de préjudice grave.
« hate »Contenu qui promeut la haine basée sur des éléments tels que la race, la religion, le genre, etc.
« hate/threatening »Contenu haineux qui inclut également des menaces de violence contre le groupe ciblé.
« self-harm »Contenu qui encourage ou dépeint des actes d'automutilation, comme le suicide ou les troubles de l'alimentation.
« self-harm/intent »Contenu où quelqu'un exprime une intention directe de se faire du mal.
« self-harm/instructions »Contenu qui donne des instructions ou des conseils sur la manière de s'automutiler.
« sexual »Contenu destiné à être sexuellement excitant ou qui promeut des services sexuels.
« sexual/minors »Tout contenu sexuel impliquant une personne de moins de 18 ans.
« violence »Contenu qui montre ou décrit la mort, la violence ou des blessures physiques graves.
« violence/graphic »Contenu dépeignant la mort, la violence ou des blessures avec des détails graphiques.

Comment créer un flux de travail de modération

Savoir ce que fait l'API est une chose, mais la mettre en pratique en est une autre. Un flux de travail de modération intelligent garantit que ce que vos utilisateurs saisissent et ce que votre IA produit sont vérifiés avant de pouvoir causer des problèmes.

Le processus de modération standard

Voici un scénario assez standard sur la manière dont cela fonctionne dans le monde réel :

  1. Un utilisateur envoie une entrée (comme un ticket de support ou un message de chat).

  2. Votre système envoie d'abord cette entrée à l'API de modération.

  3. Si l'API signale le contenu, vous le bloquez et pouvez afficher un message générique à l'utilisateur.

  4. Si tout est en ordre, vous transmettez l'entrée à votre modèle de langage pour obtenir une réponse.

  5. Avant de montrer cette réponse générée par l'IA à l'utilisateur, vous la renvoyez à l'API de modération pour une autre vérification.

  6. Si la réponse de l'IA est signalée, vous devez avoir un plan. Vous pourriez simplement la rejeter, la consigner pour qu'un humain l'examine plus tard, ou même demander à l'IA de réessayer.

  7. Si la réponse de l'IA est sûre, vous pouvez enfin l'envoyer à l'utilisateur.

Le défi : Implémentation personnalisée vs. plateforme intégrée

Bien qu'appeler l'API soit simple, construire un système de modération complet et prêt pour la production à partir de zéro est une tout autre affaire. Vous devez gérer les clés d'API, construire une logique pour gérer les erreurs réseau, créer un système de journalisation, définir des seuils de score personnalisés pour chaque catégorie, puis intégrer tout cela dans les outils que vous utilisez déjà, comme Zendesk, Freshdesk, ou Slack.

Ce qui commence comme une petite fonctionnalité de sécurité peut rapidement se transformer en un projet d'ingénierie de plusieurs semaines.

C'est ici que vous devez décider si vous voulez construire ou acheter. Une plateforme comme eesel AI est conçue pour les équipes qui préfèrent ne pas s'embourber dans ce travail personnalisé. Elle est conçue pour être en libre-service, vous permettant de lancer un agent de support IA qui intègre déjà toute cette logique de modération. Au lieu d'écrire du code personnalisé, vous bénéficiez d'intégrations en un clic avec votre service d'assistance et d'un système prêt à l'emploi en quelques minutes, et non en quelques mois.

La plateforme intégrée d'eesel AI simplifie le flux de travail de référence de la modération d'OpenAI en se connectant de manière transparente avec les outils existants.
La plateforme intégrée d'eesel AI simplifie le flux de travail de référence de la modération d'OpenAI en se connectant de manière transparente avec les outils existants.

Principaux cas d'utilisation et meilleures pratiques

Une fois que vous avez un flux de travail en place, vous pouvez commencer à l'appliquer à différentes situations et à l'ajuster avec quelques meilleures pratiques.

Sécuriser les interactions avec le support client

Le support client est probablement l'un des domaines les plus critiques où il faut bien faire les choses. Vous voudrez modérer deux choses principales :

  • Les requêtes entrantes des clients : Il s'agit de protéger vos agents de support et vos systèmes contre le spam, les abus et autres contenus indésirables. Cela aide à maintenir un environnement de travail sûr et professionnel.

  • Les brouillons et réponses générés par l'IA : C'est non négociable. Que vous utilisiez une IA pour aider un agent humain ou un agent entièrement autonome, vous devez vous assurer que ses réponses sont conformes à votre marque, appropriées et sûres. Une seule mauvaise réponse de l'IA peut sérieusement nuire à la confiance des clients.

Meilleures pratiques pour une modération efficace

Voici quelques conseils pour tirer le meilleur parti de l'API de modération :

  • Regardez au-delà du champ « flagged » : Le simple « true »/« false » est un bon point de départ, mais la véritable puissance réside dans les « category_scores ». Utilisez ces scores pour définir vos propres règles personnalisées. Par exemple, vous pourriez avoir une politique de tolérance zéro pour la « violence » (tout score supérieur à 0.1 est bloqué), mais être un peu plus indulgent sur d'autres aspects.

  • Consignez le contenu signalé pour une révision humaine : Ne vous contentez pas de bloquer le contenu et de passer à autre chose. Mettez en place un système où une personne peut examiner les messages signalés. Cela vous aide à comprendre ce qui est bloqué, à repérer les faux positifs et à ajuster vos règles au fil du temps.

  • Soyez transparent avec les utilisateurs : Si vous bloquez le message d'un utilisateur, expliquez-lui pourquoi de manière simple. Un message comme « Désolé, ce message n'a pas pu être traité car il enfreint notre politique de contenu » est bien meilleur que de le laisser échouer en silence.

Pro Tip
Lorsque vous configurez le système pour la première fois, il est souvent judicieux de commencer avec des règles plus strictes, puis de les assouplir progressivement à mesure que vous collectez plus de données. C'est un moyen à faible risque d'apprendre comment le système se comporte avec vos utilisateurs spécifiques.

C'est un autre domaine où une plateforme intégrée peut vous épargner beaucoup de conjectures. Avec eesel AI, par exemple, vous pouvez exécuter des simulations sur des milliers de vos anciens tickets de support pour voir exactement comment sa modération intégrée les aurait gérés. Cela vous permet de tester et d'affiner le comportement de votre IA dans un environnement sûr et sans risque avant même qu'elle ne parle à un vrai client.

Tester et affiner le comportement de votre IA est facile avec la fonction de simulation d'eesel AI, une meilleure pratique de référence pour la modération d'OpenAI.
Tester et affiner le comportement de votre IA est facile avec la fonction de simulation d'eesel AI, une meilleure pratique de référence pour la modération d'OpenAI.

Tarifs de l'API de modération d'OpenAI

C'est la partie la plus simple de tout le guide. Le point de terminaison de modération d'OpenAI est gratuit.

Vous pouvez consulter les détails sur la page de tarification officielle d'OpenAI, mais la conclusion est simple : il n'y a aucun coût pour ajouter cette couche de sécurité cruciale à votre application.

Pour conclure

L'API de modération d'OpenAI est un outil fantastique pour quiconque développe avec l'IA générative. Elle est puissante, gratuite et vous donne la possibilité de vérifier le texte et les images par rapport à un ensemble solide de règles de sécurité, avec des scores détaillés qui vous permettent de créer des flux de travail nuancés et personnalisés.

Mais le simple fait d'avoir accès à une API ne fait pas tout. Construire un système de modération vraiment fiable signifie créer un flux de travail réfléchi qui couvre tout, du premier message de l'utilisateur à la réponse finale de l'IA. Bien que vous puissiez certainement le construire vous-même, le temps et l'effort d'ingénierie peuvent être assez importants.

Mettez en ligne en toute sécurité en quelques minutes avec eesel AI

Si vous voulez la tranquillité d'esprit d'un système de modération robuste sans le casse-tête de le construire à partir de zéro, eesel AI est le moyen le plus rapide d'y parvenir. Notre plateforme gère tout, de l'intégration avec vos sources de connaissances et votre service d'assistance à l'automatisation du triage des tickets et des réponses, le tout avec des garde-fous de sécurité de niveau entreprise intégrés dès le premier jour. Vous pouvez vous concentrer sur l'offre d'une excellente expérience à vos clients, en sachant que votre marque et vos utilisateurs sont protégés.

Prêt à automatiser votre support en toute sécurité et sans effort ? Inscrivez-vous gratuitement et vous pourrez lancer votre premier agent IA en quelques minutes seulement.

Foire aux questions

L'API de modération d'OpenAI sert de point de contrôle essentiel, analysant le texte et les images à la recherche de contenu préjudiciable en se basant sur les politiques d'utilisation d'OpenAI. Sa fonction principale est de signaler des contenus tels que les discours haineux, le harcèlement ou la violence, agissant comme une première ligne de défense cruciale pour les applications d'IA.

L'API de modération d'OpenAI classe le contenu préjudiciable dans des catégories spécifiques telles que « harcèlement », « haine », « automutilation », « sexuel » et « violence ». Elle fournit une analyse détaillée, permettant aux développeurs de comprendre exactement quelles règles ont pu être enfreintes et d'affiner leurs réponses.

Non, le point de terminaison de modération d'OpenAI est entièrement gratuit. Cela en fait une solution accessible et rentable pour les développeurs qui cherchent à intégrer des fonctionnalités de sécurité essentielles dans leurs applications d'IA sans encourir de dépenses supplémentaires.

Un flux de travail standard consiste à modérer à la fois les entrées des utilisateurs et les réponses générées par l'IA. L'entrée de l'utilisateur est d'abord envoyée à l'API de modération ; si elle est validée, elle est transmise au modèle de langage, puis la réponse de l'IA est également modérée avant d'être présentée à l'utilisateur. Cette double vérification garantit la sécurité tout au long de l'interaction.

Pour le support client, elle aide à protéger les agents contre les requêtes abusives et garantit que les brouillons ou les réponses générés par l'IA sont toujours appropriés et conformes à l'image de marque. La mise en œuvre de la modération d'OpenAI protège la réputation de votre entreprise et favorise un environnement plus sûr pour les clients et le personnel de support.

L'API renvoie un objet JSON avec une valeur booléenne « flagged », des « categories » spécifiques (indicateurs vrai/faux) et des « category_scores » (niveaux de confiance de 0 à 1). Le champ « category_applied_input_types » (pour les modèles Omni) indique en outre si le texte ou l'image a déclenché un signalement, offrant une vue complète du résultat de la modération.

Il est préférable de ne pas se limiter au champ « flagged » et d'utiliser les « category_scores » pour des règles personnalisées, de consigner le contenu signalé pour une révision humaine et d'être transparent avec les utilisateurs lorsque leur contenu est bloqué. Commencer avec des règles plus strictes et les assouplir progressivement peut également être une approche à faible risque pour affiner votre système.

Partager cet article

Kenneth undefined

Article by

Kenneth Pangan

Writer and marketer for over ten years, Kenneth Pangan splits his time between history, politics, and art with plenty of interruptions from his dogs demanding attention.