
Então, está a construir algo fantástico com IA. Isso é ótimo. Mas se a sua criação vai interagir com humanos reais, provavelmente já ouviu aquela vozinha na sua cabeça a perguntar, "...e se alguém disser algo horrível?" Ou pior ainda, "...e se a minha IA responder com algo horrível?"
É uma preocupação válida. Seja um cliente a enviar uma mensagem abusiva ou uma IA a gerar uma resposta estranhamente inadequada, precisa de uma rede de segurança. Isto é especialmente verdade no suporte ao cliente, onde cada interação é um reflexo da sua marca.
É aqui que entra a moderação de conteúdo. A API de Moderação da OpenAI é uma ferramenta poderosa, acessível e surpreendentemente gratuita que funciona como a sua primeira linha de defesa. Ajuda a construir aplicações alimentadas por IA mais seguras e fiáveis. Neste guia, vamos analisar exatamente o que é a API, como funciona e como pode realmente usá-la para proteger os seus utilizadores e a sua reputação.
O que é a API de Moderação da OpenAI?
Em termos simples, a API de Moderação da OpenAI é um ponto de verificação que analisa se texto ou imagens contêm algo prejudicial. Ela examina os inputs e classifica-os de acordo com as políticas de uso da OpenAI, sinalizando tudo, desde discurso de ódio e assédio a automutilação e violência. É uma forma direta de adicionar uma camada de segurança a qualquer fluxo de trabalho de IA que esteja a construir.
A API oferece dois modelos principais à escolha:
-
"omni-moderation-latest": Este é o que provavelmente deve usar para qualquer novo projeto. Lida com texto e imagens e fornece uma análise muito mais detalhada do que encontra.
-
"text-moderation-latest" (Legado): Um modelo mais antigo que, como o nome sugere, funciona apenas com texto.
Aqui está uma das melhores partes: usar o endpoint de moderação é totalmente gratuito. Isto torna-o uma escolha óbvia para qualquer programador que tente construir uma IA responsável. A barreira do custo desapareceu, por isso não há razão para não implementar estas funcionalidades de segurança essenciais.
Um guia completo para a API de Moderação da OpenAI
Ok, vamos ao que interessa. Esta secção é a sua referência para começar a trabalhar com a API. Vamos abordar como enviar um pedido, o que a resposta que recebe realmente significa e as diferentes categorias de conteúdo que ela procura.
Como fazer um pedido
Enviar um pedido é bastante simples. Tudo o que precisa fazer é enviar o seu texto ou imagem para o endpoint "/v1/moderations" e indicar qual modelo deseja usar.
Aqui está um exemplo rápido usando Python para começar:
from openai import OpenAI
client = OpenAI()
response = client.moderations.create(
model="omni-moderation-latest",
input="I want to kill them.",
)
print(response)
E se preferir usar cURL, aqui está como faria a mesma coisa:
curl https://api.openai.com/v1/moderations \
-X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "omni-moderation-latest",
"input": "I want to kill them."
}'
Compreender a resposta da moderação
Quando envia um pedido, a API devolve um objeto JSON com algumas informações chave que lhe dizem tudo o que precisa de saber.
Campo de Saída | Descrição |
---|---|
"flagged" | Um simples "true" ou "false". É "true" se o modelo considerar que o conteúdo é prejudicial em qualquer categoria. |
"categories" | Uma lista de sinalizadores "true"/"false" para cada categoria de conteúdo específica (como "violence" ou "hate"), mostrando exatamente quais regras foram violadas. |
"category_scores" | Fornece pontuações de confiança (de 0 a 1) para cada categoria, mostrando o quão seguro o modelo está da sua classificação. |
"category_applied_input_types" | (Apenas para modelos Omni) Um array que informa se foi a "imagem" ou o "texto" que acionou um sinalizador para cada categoria. |
Categorias de classificação de conteúdo
A API não se limita a dar um polegar para cima ou para baixo. Ela divide os potenciais problemas em categorias específicas, o que é incrivelmente útil para ajustar a forma como responde a diferentes tipos de conteúdo.
Categoria | Descrição |
---|---|
"harassment" | Conteúdo que promove ou incita linguagem de assédio contra alguém. |
"harassment/threatening" | Assédio que também inclui ameaças de violência ou danos graves. |
"hate" | Conteúdo que promove ódio com base em características como raça, religião, género, etc. |
"hate/threatening" | Conteúdo odioso que também inclui ameaças de violência contra o grupo visado. |
"self-harm" | Conteúdo que incentiva ou descreve atos de automutilação, como suicídio ou distúrbios alimentares. |
"self-harm/intent" | Conteúdo onde alguém expressa uma intenção direta de se automutilar. |
"self-harm/instructions" | Conteúdo que dá instruções ou conselhos sobre como praticar a automutilação. |
"sexual" | Conteúdo destinado a ser sexualmente excitante ou que promove serviços sexuais. |
"sexual/minors" | Qualquer conteúdo sexual que envolva alguém com menos de 18 anos. |
"violence" | Conteúdo que mostra ou descreve morte, violência ou lesões físicas graves. |
"violence/graphic" | Conteúdo que retrata morte, violência ou lesões com detalhe gráfico. |
Como construir um fluxo de trabalho de moderação
Saber o que a API faz é uma coisa, mas colocá-la em prática é outra. Um fluxo de trabalho de moderação inteligente garante que tanto o que os seus utilizadores inserem como o que a sua IA produz são verificados antes que possam causar problemas.
O processo de moderação padrão
Aqui está um manual bastante padrão de como isto funciona no mundo real:
-
Um utilizador envia um input (como um ticket de suporte ou uma mensagem de chat).
-
O seu sistema envia esse input primeiro para a API de Moderação.
-
Se a API sinalizar o conteúdo, você bloqueia-o e pode mostrar ao utilizador uma mensagem genérica.
-
Se estiver tudo limpo, passa o input para o seu modelo de linguagem para obter uma resposta.
-
Antes de mostrar essa resposta gerada por IA ao utilizador, envia-a de volta para a API de Moderação para outra verificação.
-
Se a resposta da IA for sinalizada, precisa de um plano. Pode simplesmente descartá-la, registá-la para um humano analisar mais tarde, ou até pedir à IA para tentar novamente.
-
Se a resposta da IA for segura, então pode finalmente enviá-la ao utilizador.
O desafio: Implementação personalizada vs. uma plataforma integrada
Embora chamar a API seja simples, construir um sistema de moderação completo e pronto para produção do zero é uma tarefa completamente diferente. Tem de gerir chaves de API, construir lógica para lidar com erros de rede, criar um sistema de registo, definir limiares de pontuação personalizados para cada categoria e depois integrar tudo isso nas ferramentas que já usa, como Zendesk, Freshdesk ou Slack.
O que começa como uma pequena funcionalidade de segurança pode rapidamente transformar-se num projeto de engenharia de várias semanas.
É aqui que tem de decidir se quer construir ou comprar. Uma plataforma como a eesel AI foi concebida para equipas que preferem não se prender a esse trabalho personalizado. Foi construída para ser self-service, permitindo-lhe lançar um agente de suporte de IA que já tem toda esta lógica de moderação incorporada. Em vez de escrever código personalizado, obtém integrações de um clique com o seu helpdesk e um sistema pronto a usar em minutos, não em meses.
A plataforma integrada da eesel AI simplifica o fluxo de trabalho de referência da Moderação da OpenAI ao conectar-se de forma transparente com as ferramentas existentes.
Casos de uso chave e melhores práticas
Assim que tiver um fluxo de trabalho estabelecido, pode começar a aplicá-lo a diferentes situações e a ajustá-lo com algumas melhores práticas.
Proteger as interações de suporte ao cliente
O suporte ao cliente é provavelmente uma das áreas mais críticas para acertar nisto. Vai querer moderar duas coisas principais:
-
Consultas de clientes recebidas: Trata-se de proteger os seus agentes de suporte e os seus sistemas contra spam, abuso e outro lixo. Ajuda a manter o seu ambiente de trabalho seguro e profissional.
-
Rascunhos e respostas gerados por IA: Isto não é negociável. Quer esteja a usar uma IA para ajudar um agente humano ou um totalmente autónomo, tem de garantir que as suas respostas estão alinhadas com a marca, são apropriadas e seguras. Uma má resposta da IA pode prejudicar seriamente a confiança do cliente.
Melhores práticas para uma moderação eficaz
Aqui ficam algumas dicas para tirar mais partido da API de Moderação:
-
Vá além do campo "flagged": O simples "true"/"false" é um bom ponto de partida, mas o verdadeiro poder está nos "category_scores". Use estas pontuações para definir as suas próprias regras personalizadas. Por exemplo, pode ter uma política de tolerância zero para "violence" (qualquer coisa acima de uma pontuação de 0.1 é bloqueada), mas ser um pouco mais tolerante com outras coisas.
-
Registe o conteúdo sinalizado para revisão humana: Não se limite a bloquear o conteúdo e seguir em frente. Crie um sistema onde uma pessoa possa rever as mensagens sinalizadas. Isto ajuda-o a entender o que está a ser bloqueado, a detetar falsos positivos e a ajustar as suas regras ao longo do tempo.
-
Seja transparente com os utilizadores: Se bloquear a mensagem de um utilizador, diga-lhe porquê de forma simples. Uma mensagem como, "Lamentamos, mas esta mensagem não pôde ser processada porque viola a nossa política de conteúdo," é muito melhor do que deixá-la falhar silenciosamente.
Este é outro ponto em que uma plataforma integrada pode poupar-lhe muita adivinhação. Com a eesel AI, por exemplo, pode executar simulações em milhares dos seus tickets de suporte passados para ver exatamente como a sua moderação incorporada os teria tratado. Isto permite-lhe testar e ajustar o comportamento da sua IA num ambiente seguro e sem riscos antes que ela interaja com um cliente real.
Testar e ajustar o comportamento da sua IA é fácil com a funcionalidade de simulação da eesel AI, uma das melhores práticas chave de referência da Moderação da OpenAI.
Preços da API de Moderação da OpenAI
Esta é a parte mais fácil de todo o guia. O endpoint de Moderação da OpenAI é de utilização gratuita.
Pode consultar os detalhes na página de preços oficial da OpenAI, mas a conclusão é simples: não há custo para adicionar esta camada crucial de segurança à sua aplicação.
Juntando tudo
A API de Moderação da OpenAI é uma ferramenta fantástica para quem está a construir com IA generativa. É poderosa, gratuita e dá-lhe a capacidade de verificar texto e imagens contra um conjunto sólido de regras de segurança, com pontuações detalhadas que lhe permitem criar fluxos de trabalho diferenciados e personalizados.
Mas ter apenas acesso a uma API não é tudo. Construir um sistema de moderação verdadeiramente fiável significa criar um fluxo de trabalho ponderado que abrange tudo, desde a primeira mensagem do utilizador até à resposta final da IA. Embora possa definitivamente construir isto por si mesmo, o tempo e o esforço de engenharia podem ser bastante significativos.
Entre em produção com segurança em minutos com a eesel AI
Se quer a tranquilidade que vem com um sistema de moderação robusto, mas não quer a dor de cabeça de o construir do zero, a eesel AI é a forma mais rápida de o conseguir. A nossa plataforma trata de tudo, desde a integração com as suas fontes de conhecimento e helpdesk até à automação da triagem de tickets e respostas, tudo com salvaguardas de segurança de nível empresarial incorporadas desde o primeiro dia. Pode focar-se em proporcionar uma ótima experiência aos seus clientes, sabendo que a sua marca e os seus utilizadores estão protegidos.
Pronto para automatizar o seu suporte de forma segura e sem esforço? Inscreva-se gratuitamente e pode lançar o seu primeiro agente de IA em apenas alguns minutos.
Perguntas frequentes
A API de Moderação da OpenAI funciona como um ponto de verificação crítico, analisando texto e imagens em busca de conteúdo prejudicial com base nas políticas de uso da OpenAI. A sua função principal é sinalizar conteúdo como discurso de ódio, assédio ou violência, atuando como uma primeira linha de defesa crucial para aplicações de IA.
A API de Moderação da OpenAI classifica conteúdo prejudicial em categorias específicas como "assédio", "ódio", "automutilação", "sexual" e "violência". Fornece uma análise detalhada, permitindo que os programadores entendam exatamente quais regras podem ter sido violadas e ajustem as suas respostas.
Não, o endpoint de Moderação da OpenAI é totalmente gratuito. Isto torna-o uma solução acessível e económica para programadores que procuram integrar funcionalidades de segurança essenciais nas suas aplicações de IA sem incorrer em despesas adicionais.
Um fluxo de trabalho padrão envolve a moderação tanto do input do utilizador como das respostas geradas pela IA. O input do utilizador é primeiro enviado para a API de Moderação; se estiver limpo, prossegue para o modelo de linguagem, e depois a resposta da IA também é moderada antes de ser mostrada ao utilizador. Esta verificação dupla garante a segurança ao longo de toda a interação.
Para o suporte ao cliente, ajuda a proteger os agentes de consultas abusivas e garante que os rascunhos ou respostas gerados pela IA são sempre apropriados e alinhados com a marca. Implementar a Moderação da OpenAI protege a reputação da sua empresa e promove um ambiente mais seguro tanto para clientes como para a equipa de suporte.
A API devolve um objeto JSON com um booleano "flagged", "categories" específicas (sinalizadores verdadeiro/falso) e "category_scores" (níveis de confiança de 0 a 1). O campo "category_applied_input_types" (para modelos Omni) indica ainda se o texto ou a imagem acionaram um sinalizador, oferecendo uma visão abrangente do resultado da moderação.
É melhor ir além do campo "flagged" e usar os "category_scores" para regras personalizadas, registar conteúdo sinalizado para revisão humana e ser transparente com os utilizadores quando o seu conteúdo é bloqueado. Começar com regras mais rigorosas e relaxá-las gradualmente também pode ser uma abordagem de baixo risco para ajustar o seu sistema.