Una referencia práctica de moderación de OpenAI

Stevia Putri
Written by

Stevia Putri

Stanley Nicholas
Reviewed by

Stanley Nicholas

Last edited 12 octubre 2025

Expert Verified

Así que estás construyendo algo genial con IA. Es increíble. Pero si tu creación va a interactuar con humanos de verdad, probablemente has tenido esa vocecita en tu cabeza que te pregunta: "...¿y si alguien dice algo horrible?". O peor aún, "...¿y si mi IA responde algo horrible?".

Es una preocupación válida. Ya sea un cliente enviando un mensaje abusivo o una IA generando una respuesta extrañamente inapropiada, necesitas una red de seguridad. Esto es especialmente cierto en la atención al cliente, donde cada interacción es un reflejo de tu marca.

Ahí es donde entra en juego la moderación de contenido. La API de Moderación de OpenAI es una herramienta potente, accesible y sorprendentemente gratuita que actúa como tu primera línea de defensa. Te ayuda a crear aplicaciones más seguras y fiables impulsadas por IA. En esta guía, explicaremos exactamente qué es la API, cómo funciona y cómo puedes usarla para proteger a tus usuarios y tu reputación.

¿Qué es la API de Moderación de OpenAI?

En pocas palabras, la API de Moderación de OpenAI es un punto de control que verifica si el texto o las imágenes contienen algo dañino. Escanea las entradas y las clasifica según las políticas de uso de OpenAI, marcando todo, desde discursos de odio y acoso hasta autolesiones y violencia. Es una forma sencilla de añadir una capa de seguridad a cualquier flujo de trabajo de IA que estés construyendo.

La API te ofrece dos modelos principales para elegir:

  • "omni-moderation-latest": Este es el que probablemente deberías usar para cualquier proyecto nuevo. Maneja tanto texto como imágenes y te ofrece un desglose mucho más detallado de lo que encuentra.

  • "text-moderation-latest" (Heredado): Un modelo más antiguo que, como su nombre indica, solo funciona con texto.

Aquí viene una de las mejores partes: usar el endpoint de moderación es completamente gratis. Esto prácticamente lo convierte en una decisión obvia para cualquier desarrollador que intente construir IA de manera responsable. La barrera del costo ha desaparecido, así que no hay razón para no implementar estas características de seguridad esenciales.

Una guía completa de la API de Moderación de OpenAI

Bien, entremos en materia. Esta sección es tu referencia principal para ensuciarte las manos con la API. Cubriremos cómo enviar una solicitud, qué significa realmente la respuesta que recibes y las diferentes categorías de contenido que busca.

Cómo hacer una solicitud

Enviar una solicitud es bastante simple. Todo lo que tienes que hacer es enviar tu texto o imagen al endpoint "/v1/moderations" e indicarle qué modelo quieres usar.

Aquí tienes un ejemplo rápido usando Python para empezar:


from openai import OpenAI  

client = OpenAI()  

response = client.moderations.create(  

    model="omni-moderation-latest",  

    input="I want to kill them.",  

)  

print(response)  

Y si prefieres usar cURL, así es como harías lo mismo:


curl https://api.openai.com/v1/moderations \  

  -X POST \  

  -H "Content-Type: application/json" \  

  -H "Authorization: Bearer $OPENAI_API_KEY" \  

  -d '{  

    "model": "omni-moderation-latest",  

    "input": "I want to kill them."  

  }'  

Entendiendo la respuesta de moderación

Cuando envías una solicitud, la API te devuelve un objeto JSON con algunas piezas clave de información que te dicen todo lo que necesitas saber.

Campo de salidaDescripción
"flagged"Un simple "true" o "false". Es "true" si el modelo cree que el contenido es perjudicial en cualquier categoría.
"categories"Una lista de indicadores "true"/"false" para cada categoría de contenido específica (como "violence" u "hate"), que te muestra exactamente qué reglas se infringieron.
"category_scores"Te proporciona puntuaciones de confianza (de 0 a 1) para cada categoría, mostrando qué tan seguro está el modelo de su clasificación.
"category_applied_input_types"(Solo para modelos Omni) Un array que te dice si fue la "image" o el "text" lo que activó una marca para cada categoría.

Categorías de clasificación de contenido

La API no solo te da un pulgar arriba o pulgar abajo. Desglosa los posibles problemas en categorías específicas, lo cual es increíblemente útil para ajustar cómo respondes a diferentes tipos de contenido.

CategoríaDescripción
"harassment"Contenido que promueve o incita a un lenguaje de acoso hacia alguien.
"harassment/threatening"Acoso que también incluye amenazas de violencia o daño grave.
"hate"Contenido que promueve el odio basado en aspectos como raza, religión, género, etc.
"hate/threatening"Contenido de odio que también incluye amenazas de violencia contra el grupo objetivo.
"self-harm"Contenido que alienta o representa actos de autolesión, como el suicidio o los trastornos alimentarios.
"self-harm/intent"Contenido en el que alguien expresa una intención directa de hacerse daño.
"self-harm/instructions"Contenido que da instrucciones o consejos sobre cómo realizar autolesiones.
"sexual"Contenido destinado a ser sexualmente excitante o que promueve servicios sexuales.
"sexual/minors"Cualquier contenido sexual que involucre a alguien menor de 18 años.
"violence"Contenido que muestra o describe la muerte, la violencia o lesiones físicas graves.
"violence/graphic"Contenido que representa la muerte, la violencia o lesiones con detalles gráficos.

Cómo construir un flujo de trabajo de moderación

Saber lo que hace la API es una cosa, pero ponerla en práctica es otra. Un flujo de trabajo de moderación inteligente asegura que tanto lo que escriben tus usuarios como lo que produce tu IA se verifiquen antes de que puedan causar problemas.

El proceso de moderación estándar

Aquí tienes un manual bastante estándar de cómo funciona esto en el mundo real:

  1. Un usuario envía una entrada (como un ticket de soporte o un mensaje de chat).

  2. Tu sistema envía primero esa entrada a la API de Moderación.

  3. Si la API marca el contenido, lo bloqueas y puedes mostrar al usuario un mensaje genérico.

  4. Si todo está en orden, pasas la entrada a tu modelo de lenguaje para obtener una respuesta.

  5. Antes de mostrar esa respuesta generada por la IA al usuario, la envías de vuelta a la API de Moderación para otra verificación.

  6. Si la respuesta de la IA es marcada, necesitas un plan. Podrías simplemente descartarla, registrarla para que un humano la revise más tarde, o incluso pedirle a la IA que lo intente de nuevo.

  7. Si la respuesta de la IA es segura, entonces finalmente puedes enviársela al usuario.

El desafío: Implementación personalizada vs. una plataforma integrada

Aunque llamar a la API es simple, construir un sistema de moderación completo y listo para producción desde cero es harina de otro costal. Tienes que gestionar claves de API, construir la lógica para manejar errores de red, crear un sistema de registro, definir umbrales de puntuación personalizados para cada categoría y luego integrarlo todo en las herramientas que ya usas, como Zendesk, Freshdesk o Slack.

Lo que comienza como una pequeña característica de seguridad puede convertirse rápidamente en un proyecto de ingeniería de varias semanas.

Aquí es donde tienes que decidir si quieres construir o comprar. Una plataforma como eesel AI está diseñada para equipos que prefieren no empantanarse en ese trabajo personalizado. Está creada para ser autoservicio, permitiéndote lanzar un agente de soporte con IA que ya tiene toda esta lógica de moderación incorporada. En lugar de escribir código personalizado, obtienes integraciones con un solo clic con tu servicio de asistencia y un sistema listo para usar en minutos, no en meses.

La plataforma integrada de eesel AI simplifica el flujo de trabajo de referencia de OpenAI Moderation al conectarse sin problemas con las herramientas existentes.
La plataforma integrada de eesel AI simplifica el flujo de trabajo de referencia de OpenAI Moderation al conectarse sin problemas con las herramientas existentes.

Casos de uso clave y mejores prácticas

Una vez que tienes un flujo de trabajo establecido, puedes empezar a aplicarlo a diferentes situaciones y ajustarlo con algunas mejores prácticas.

Salvaguardando las interacciones de atención al cliente

El soporte al cliente es probablemente una de las áreas más críticas para hacerlo bien. Querrás moderar dos cosas principales:

  • Consultas entrantes de clientes: Se trata de proteger a tus agentes de soporte y a tus sistemas de spam, abusos y otra basura. Ayuda a mantener tu entorno de trabajo seguro y profesional.

  • Borradores y respuestas generados por IA: Esto no es negociable. Ya sea que estés usando una IA para ayudar a un agente humano o una totalmente autónoma, tienes que asegurarte de que sus respuestas se ajusten a la marca, sean apropiadas y seguras. una sola mala respuesta de la IA puede dañar seriamente la confianza del cliente.

Mejores prácticas para una moderación efectiva

Aquí tienes algunos consejos para sacarle más partido a la API de Moderación:

  • Mira más allá del campo "flagged": El simple "true"/"false" es un buen punto de partida, pero el verdadero poder está en los "category_scores". Usa estas puntuaciones para establecer tus propias reglas personalizadas. Por ejemplo, podrías tener una política de tolerancia cero para la "violence" (cualquier puntuación por encima de 0.1 se bloquea), pero ser un poco más flexible en otras cosas.

  • Registra el contenido marcado para que un humano lo revise: No te limites a bloquear el contenido y seguir adelante. Configura un sistema donde una persona pueda revisar los mensajes marcados. Esto te ayuda a entender qué se está bloqueando, detectar falsos positivos y ajustar tus reglas con el tiempo.

  • Sé transparente con los usuarios: Si bloqueas el mensaje de un usuario, dile por qué de una manera sencilla. Un mensaje como, "Lo sentimos, este mensaje no se pudo procesar porque infringe nuestra política de contenido", es mucho mejor que simplemente dejar que falle en silencio.

Pro Tip
Cuando estás configurando todo por primera vez, a menudo es una buena idea empezar con reglas más estrictas y luego relajarlas gradualmente a medida que recopilas más datos. Esta es una forma de menor riesgo para aprender cómo se comporta el sistema con tus usuarios específicos.

Este es otro punto donde una plataforma integrada puede ahorrarte muchas conjeturas. Con eesel AI, por ejemplo, puedes ejecutar simulaciones en miles de tus tickets de soporte pasados para ver exactamente cómo su moderación incorporada los habría manejado. Esto te permite probar y ajustar el comportamiento de tu IA en un entorno seguro y sin riesgos antes de que hable con un cliente real.

Probar y ajustar el comportamiento de tu IA es fácil con la función de simulación de eesel AI, una de las mejores prácticas de referencia de OpenAI Moderation.
Probar y ajustar el comportamiento de tu IA es fácil con la función de simulación de eesel AI, una de las mejores prácticas de referencia de OpenAI Moderation.

Precios de la API de Moderación de OpenAI

Esta es la parte más fácil de toda la guía. El endpoint de Moderación de OpenAI es de uso gratuito.

Puedes consultar los detalles en la página de precios oficial de OpenAI, pero la conclusión es simple: no hay costo por añadir esta capa crucial de seguridad a tu aplicación.

Poniéndolo todo junto

La API de Moderación de OpenAI es una herramienta fantástica para cualquiera que construya con IA generativa. Es potente, gratuita y te da la capacidad de verificar texto e imágenes contra un sólido conjunto de reglas de seguridad, con puntuaciones detalladas que te permiten crear flujos de trabajo matizados y personalizados.

Pero tener acceso a una API no es toda la historia. Construir un sistema de moderación verdaderamente fiable significa crear un flujo de trabajo bien pensado que cubra todo, desde el primer mensaje del usuario hasta la respuesta final de la IA. Aunque definitivamente puedes construir esto tú mismo, el tiempo y el esfuerzo de ingeniería pueden ser bastante significativos.

Lanza tu proyecto de forma segura en minutos con eesel AI

Si quieres la tranquilidad que brinda un sistema de moderación robusto pero no quieres el dolor de cabeza de construirlo desde cero, eesel AI es la forma más rápida de lograrlo. Nuestra plataforma se encarga de todo, desde la integración con tus fuentes de conocimiento y tu servicio de asistencia hasta la automatización de la clasificación de tickets y las respuestas, todo con barreras de seguridad de nivel empresarial incorporadas desde el primer día. Puedes concentrarte en brindar a tus clientes una gran experiencia, sabiendo que tu marca y tus usuarios están protegidos.

¿Listo para automatizar tu soporte de forma segura y sin esfuerzo? Regístrate gratis y podrás lanzar tu primer agente de IA en solo unos minutos.

Preguntas frecuentes

La API de Moderación de OpenAI sirve como un punto de control crítico, escaneando texto e imágenes en busca de contenido dañino basado en las políticas de uso de OpenAI. Su función principal es marcar contenido como discursos de odio, acoso o violencia, actuando como una primera línea de defensa crucial para las aplicaciones de IA.

La API de Moderación de OpenAI clasifica el contenido dañino en categorías específicas como "acoso", "odio", "autolesión", "sexual" y "violencia". Proporciona un desglose detallado, permitiendo a los desarrolladores entender exactamente qué reglas podrían haberse infringido y ajustar sus respuestas.

No, el endpoint de Moderación de OpenAI es de uso completamente gratuito. Esto lo convierte en una solución accesible y rentable para los desarrolladores que buscan integrar características de seguridad esenciales en sus aplicaciones de IA sin incurrir en gastos adicionales.

Un flujo de trabajo estándar implica moderar tanto la entrada del usuario como las respuestas generadas por la IA. La entrada del usuario se envía primero a la API de Moderación; si es segura, se pasa al modelo de lenguaje, y luego la respuesta de la IA también se modera antes de mostrarla al usuario. Esta doble verificación garantiza la seguridad durante toda la interacción.

Para la atención al cliente, ayuda a proteger a los agentes de consultas entrantes abusivas y garantiza que los borradores o respuestas generados por la IA sean siempre apropiados y acordes con la marca. Implementar la Moderación de OpenAI salvaguarda la reputación de tu empresa y fomenta un entorno más seguro tanto para los clientes como para el personal de soporte.

La API devuelve un objeto JSON con un booleano "flagged", "categories" específicas (indicadores de verdadero/falso) y "category_scores" (niveles de confianza de 0 a 1). El campo "category_applied_input_types" (para modelos Omni) indica además si el texto o la imagen activaron una marca, ofreciendo una visión completa del resultado de la moderación.

Es mejor ir más allá del campo "flagged" y usar los "category_scores" para reglas personalizadas, registrar el contenido marcado para revisión humana y ser transparente con los usuarios cuando su contenido sea bloqueado. Empezar con reglas más estrictas y relajarlas gradualmente también puede ser un enfoque de bajo riesgo para ajustar tu sistema.

Compartir esta entrada

Stevia undefined

Article by

Stevia Putri

Stevia Putri is a marketing generalist at eesel AI, where she helps turn powerful AI tools into stories that resonate. She’s driven by curiosity, clarity, and the human side of technology.