Um guia prático para OpenAI Agent Evals: O que são e como funcionam

Kenneth Pangan
Written by

Kenneth Pangan

Katelin Teen
Reviewed by

Katelin Teen

Last edited 13 outubro 2025

Expert Verified

Portanto, os agentes de IA estão por todo o lado hoje em dia. E se está a pensar usar um (ou já usa), provavelmente já se deparou com a grande e iminente questão: "Como é que sabemos se isto está realmente a funcionar?" É bastante fácil pôr um bot a funcionar, mas confiar que ele vai resolver os problemas dos clientes corretamente, manter a voz da sua marca e não causar estragos discretamente já é outra história.

Este é exatamente o problema que a OpenAI está a tentar resolver com um conjunto de ferramentas chamado OpenAI Agent Evals. Foi concebido para ajudar os programadores a testar e a ajustar os seus agentes. Mas o que é que isso realmente significa para si?

Vamos diretos ao assunto, sem jargão. Este guia vai dar-lhe uma visão prática e direta sobre o OpenAI Agent Evals: o que é, o que contém, a quem se destina e onde fica aquém. Isto é especialmente para as equipas de apoio ao cliente e de TI que estão sempre ocupadas e que apenas precisam de algo que funcione sem um projeto de engenharia de seis meses.

O que são as OpenAI Agent Evals?

Simplificando, as OpenAI Agent Evals são um conjunto de ferramentas especializadas para programadores. Fazem parte da plataforma de desenvolvimento mais ampla da OpenAI, o AgentKit, e o seu único propósito é ajudá-lo a testar e verificar o comportamento de um agente de IA que tenha construído de raiz.

Pense nisto menos como um painel de desempenho sofisticado e mais como uma caixa de LEGOs de alta tecnologia para testes de garantia de qualidade. Não lhe dá um agente de IA. Dá-lhe os blocos de construção de baixo nível para criar o seu próprio sistema de testes para um agente que tenha programado do zero usando as APIs da OpenAI.

O principal objetivo aqui é permitir que os programadores escrevam código para verificar se os seus agentes estão a seguir instruções, a usar as ferramentas certas e a atingir determinados padrões de qualidade. É uma configuração poderosa se estiver a construir algo verdadeiramente único, mas é uma festa do tipo "traga o seu próprio agente". Tem de construir o agente e, depois, tem de construir também todo o sistema para o testar.

Os componentes centrais da framework OpenAI Agent Evals

A framework não é uma única coisa em que se pode clicar. É uma coleção de ferramentas para programadores que trabalham em conjunto para criar um ciclo de testes. Assim que se percebe como as peças se encaixam, torna-se bastante claro por que é que esta é uma ferramenta para engenheiros, e não para o gestor de suporte comum.

Construir casos de teste com conjuntos de dados nas OpenAI Agent Evals

Tudo começa com bons dados de teste. No mundo da OpenAI, isto significa criar um "conjunto de dados". Estes são geralmente ficheiros JSONL, que é apenas uma forma elegante de dizer que é um ficheiro de texto onde cada linha é um caso de teste autónomo, escrito num formato de código específico. Cada linha pode ter uma entrada, como um e-mail de um cliente, e uma "verdade fundamental" (ground truth), que é o resultado correto esperado, como a etiqueta de ticket certa ou a resposta perfeita.

Aqui está o senão: criar, formatar e atualizar estes conjuntos de dados é um trabalho completamente manual e técnico. Não pode simplesmente carregar uma folha de cálculo. Um engenheiro tem de se sentar e criar cuidadosamente estes ficheiros, garantindo que cobrem todos os cenários que o seu agente provavelmente enfrentará. Se os seus dados de teste forem maus, os seus testes são inúteis. É preciso muito planeamento e programação só para chegar à linha de partida.

Isto está a anos-luz de uma plataforma como a eesel AI, que se liga ao seu help desk e treina automaticamente com milhares dos seus tickets de suporte anteriores. Aprende o seu tom de voz, compreende problemas comuns e vê como são as resoluções bem-sucedidas, tudo sem que tenha de criar manualmente um único caso de teste.

A plataforma da eesel AI automatiza o treino ao ligar-se a várias aplicações empresariais, eliminando a necessidade de criação manual de conjuntos de dados exigida pelas OpenAI Agent Evals.::
A plataforma da eesel AI automatiza o treino ao ligar-se a várias aplicações empresariais, eliminando a necessidade de criação manual de conjuntos de dados exigida pelas OpenAI Agent Evals.

Executar avaliações programáticas e avaliação de rastreio com as OpenAI Agent Evals

Assim que tiver um conjunto de dados, pode começar a executar testes usando a API de Evals. Uma funcionalidade muito interessante aqui é a "avaliação de rastreio" (trace grading). Não lhe diz apenas se o agente acertou ou errou na resposta final; mostra-lhe o processo de pensamento passo a passo do agente. Pode ver exatamente que ferramentas decidiu usar, em que ordem e que informação passou entre os passos. É como obter um relatório de diagnóstico completo em cada execução de teste.

Mas, mais uma vez, tudo isto acontece em código. Tem de escrever scripts para iniciar os testes, fazer chamadas à API e depois analisar os complexos ficheiros JSON que recebe para descobrir o que correu mal. É uma forma incrivelmente poderosa de depurar, mas é um fluxo de trabalho concebido para alguém que vive num editor de código, não para um líder de equipa que só precisa de saber se o seu bot está pronto para o horário nobre.

Compare isso com o modo de simulação da eesel AI. Em vez de escrever código, pode testar o seu agente de IA com milhares dos seus tickets históricos reais num ambiente seguro (sandbox). Com alguns cliques, pode ver exatamente como teria respondido, rever a sua lógica em linguagem simples e obter uma previsão clara do seu desempenho. Não é necessário um diploma em programação.

O modo de simulação na eesel AI fornece uma previsão clara e fácil de usar do desempenho do agente, em contraste com a avaliação de rastreio baseada em código das OpenAI Agent Evals.::
O modo de simulação na eesel AI fornece uma previsão clara e fácil de usar do desempenho do agente, em contraste com a avaliação de rastreio baseada em código das OpenAI Agent Evals.

Usar a otimização automática de prompts nas OpenAI Agent Evals

O conjunto de ferramentas Evals também inclui uma funcionalidade para otimização automática de prompts. Após uma execução de teste, o sistema pode analisar as falhas e sugerir alterações aos seus prompts (as instruções principais que dá ao agente) para melhorar o seu desempenho. É uma forma inteligente de o ajudar a afinar a lógica interna do agente, experimentando diferentes formas de formular as suas instruções.

Embora isso pareça útil, é apenas uma peça de um ciclo de desenvolvimento muito técnico e repetitivo. O seu engenheiro executa a avaliação, analisa os resultados, recebe uma sugestão de prompt, escreve novo código para a implementar e, depois, executa tudo de novo. É um ciclo contínuo que requer atenção constante da sua equipa de desenvolvimento.

Com a eesel AI, ajustar o comportamento da sua IA é tão simples como escrever numa caixa de texto. Pode ajustar a sua personalidade, definir quando deve escalar um ticket ou dizer-lhe como lidar com situações específicas, tudo em linguagem simples. Pode então executar instantaneamente uma nova simulação para ver o impacto das suas alterações. Torna o ajuste do seu agente rápido, fácil e acessível a qualquer pessoa na equipa.

A eesel AI permite uma personalização fácil do comportamento de um agente através de uma interface simples, ao contrário do ciclo técnico e pesado em código de otimização de prompts das OpenAI Agent Evals.::
A eesel AI permite uma personalização fácil do comportamento de um agente através de uma interface simples, ao contrário do ciclo técnico e pesado em código de otimização de prompts das OpenAI Agent Evals.

Quem deve (e não deve) usar as OpenAI Agent Evals?

Este conjunto de ferramentas é extremamente poderoso, mas foi construído para um público muito específico. Para a maioria das equipas de suporte e TI, usar as OpenAI Agent Evals é como receber um motor de carro e uma caixa de ferramentas quando tudo o que queria era ir de carro até à loja.

O utilizador ideal das OpenAI Agent Evals: Programadores de IA a construir do zero

As pessoas que vão adorar as OpenAI Agent Evals são equipas de engenheiros e programadores de IA que constroem sistemas de agentes complexos e únicos de raiz.

Estamos a falar de equipas que tentam replicar comportamentos de IA complexos de artigos de investigação académica, ou aquelas que criam fluxos de trabalho completamente novos que não se encaixam em nenhum produto existente. Estes utilizadores precisam de controlo absoluto e granular sobre cada pequeno detalhe da lógica do seu agente, e estão perfeitamente satisfeitos em passar os seus dias a escrever e a depurar código.

O desafio das OpenAI Agent Evals para equipas de apoio ao cliente e ITSM

A realidade do dia-a-dia de um gestor de suporte ou de TI não poderia ser mais diferente. Os seus objetivos são práticos e imediatos: reduzir tickets repetitivos, ajudar a sua equipa a trabalhar mais depressa e manter os clientes satisfeitos. Provavelmente não tem o tempo, o orçamento ou uma equipa dedicada de engenheiros de IA para passar meses a construir uma solução personalizada.

As OpenAI Agent Evals dão-lhe as peças do motor, mas continua a ser responsável por construir o carro, o painel de instrumentos, os bancos e o volante. Tem de criar o agente, construir as integrações com o seu help desk, projetar uma interface de relatórios fácil de usar e depois usar a framework Evals para testar tudo.

Este é exatamente o problema que plataformas como a eesel AI foram criadas para resolver. É uma solução completa que o põe a funcionar em minutos. Obtém um agente de IA poderoso logo à partida, integrações perfeitas com um clique com ferramentas como Zendesk, Freshdesk e Slack, e ferramentas de avaliação que são realmente concebidas para gestores de suporte, não para programadores.

FuncionalidadeDIY com OpenAI Agent EvalsPronto a usar com eesel AI
Tempo de ConfiguraçãoSemanas, mais provavelmente mesesMenos de 5 minutos
Competência TécnicaPrecisará de uma equipa de programadoresQualquer pessoa pode fazê-lo, sem necessidade de código
Tarefa PrincipalConstruir um agente de IA de raizConfigurar um agente poderoso e pré-construído
AvaliaçãoEscrever código para executar testes programáticosSimulações com um clique e painéis de controlo claros
IntegraçõesTêm de ser construídas e mantidas de forma personalizadaMais de 100 integrações com um clique prontas a usar

Compreender os preços das OpenAI Agent Evals

Uma das partes mais complicadas da abordagem "faça você mesmo" são os preços imprevisíveis. Embora a funcionalidade "Evals" em si não tenha um item separado na sua fatura, paga por todo o uso de API subjacente necessário para executar os seus testes. E esses custos podem aumentar rapidamente.

De acordo com os preços da API da OpenAI, a sua fatura é dividida em algumas partes móveis:

  • Uso de Tokens do Modelo: Este é o principal. Paga por cada "token" (pense neles como pedaços de palavras) que entra e sai do modelo durante uma execução de teste. Se estiver a executar milhares de testes num grande conjunto de dados com um modelo poderoso como o GPT-4o, isto torna-se caro. Para contextualizar, o modelo padrão GPT-4o custa 5,00 $ por milhão de tokens de entrada e uns impressionantes 15,00 $ por milhão de tokens de saída.

  • Custos de Uso de Ferramentas: Se construiu o seu agente para usar as ferramentas integradas da OpenAI como "Pesquisa de Ficheiros" ou "Pesquisa na Web", essas têm as suas próprias taxas separadas. Uma pesquisa na web, por exemplo, pode adicionar mais 10,00 $ por cada 1.000 vezes que o seu agente a usa durante os testes.

  • Próximas Taxas do AgentKit: A OpenAI mencionou que começará a cobrar por outros componentes do AgentKit, como armazenamento de ficheiros, no final de 2025. Isto apenas adiciona outra camada de complexidade de custos ao orçamento.

Este modelo baseado no uso torna o planeamento financeiro um pesadelo. Um único mês de testes e refinamentos intensivos pode resultar numa fatura surpreendentemente grande. Essencialmente, é penalizado por ser minucioso.

Esta é uma grande razão pela qual tantas equipas preferem os custos claros e previsíveis dos preços da eesel AI. Os nossos planos são baseados num número fixo de interações de IA por mês. Obtém tudo, simulações ilimitadas, relatórios, todas as integrações, incluído numa única taxa fixa. Não há cobranças ocultas por resolução ou custos assustadores com tokens. O que vê é o que paga.

A eesel AI oferece planos de preços claros e previsíveis, evitando os custos complexos e baseados no uso associados ao conjunto de ferramentas OpenAI Agent Evals.::
A eesel AI oferece planos de preços claros e previsíveis, evitando os custos complexos e baseados no uso associados ao conjunto de ferramentas OpenAI Agent Evals.

As OpenAI Agent Evals são a ferramenta certa para o trabalho certo?

As OpenAI Agent Evals são um conjunto de ferramentas fantástico e flexível para equipas altamente técnicas que estão a construir a próxima grande novidade em IA. Oferecem o tipo de controlo profundo ao nível do código de que precisa quando está a explorar os limites absolutos do que a inteligência artificial pode fazer.

Mas esse controlo tem um preço elevado em termos de complexidade, tempo e muitas horas de engenharia. Para a maioria das empresas, especialmente as de apoio ao cliente e TI, a missão não é conduzir uma experiência científica. É resolver problemas de negócio reais, de forma rápida e fiável.

É aqui que uma solução prática e completa é simplesmente o caminho mais inteligente. A eesel AI trata de toda a complexidade de baixo nível de construir, ligar e testar um agente de IA por si. Dá-lhe uma plataforma focada no negócio com ferramentas simples como o modo de simulação e relatórios claros, para que possa implementar um agente de IA fiável em minutos, não em meses.

Pronto para ver como pode ser fácil e seguro lançar um agente de suporte de IA? Inscreva-se gratuitamente na eesel AI e execute uma simulação nos seus tickets passados. Pode ver a sua potencial taxa de resolução e poupança de custos hoje mesmo.

Perguntas frequentes

As OpenAI Agent Evals são um conjunto de ferramentas especializado, criado para programadores para testar e verificar o comportamento de agentes de IA personalizados. O seu objetivo é fornecer as ferramentas fundamentais necessárias para criar um sistema de testes que garanta que um agente segue consistentemente as instruções e cumpre padrões de qualidade específicos.

Os utilizadores ideais para as OpenAI Agent Evals são engenheiros de IA e equipas de desenvolvimento que estão a construir sistemas de agentes complexos e únicos de raiz. Estes utilizadores normalmente requerem um controlo profundo e granular sobre a lógica do seu agente e são proficientes em programação e depuração.

A criação de casos de teste com as OpenAI Agent Evals é um processo altamente técnico e manual. Requer que os engenheiros criem cuidadosamente "conjuntos de dados" usando ficheiros JSONL, criando cada caso de teste com uma entrada e o resultado esperado da "verdade fundamental" (ground truth).

Geralmente, não. Para a maioria das equipas de apoio ao cliente e de ITSM, a utilização das OpenAI Agent Evals apresenta desafios significativos porque foram concebidas para engenheiros. É necessária uma equipa de desenvolvimento dedicada para construir o agente, as integrações e toda a infraestrutura de testes.

Ao usar as OpenAI Agent Evals, os principais fatores de custo são a utilização da API subjacente, especificamente o uso de tokens do modelo (tanto para entrada como para saída), e os custos de utilização de ferramentas. Testes intensivos com modelos avançados podem acumular rapidamente despesas imprevisíveis devido a este modelo de preços baseado no uso.

As OpenAI Agent Evals oferecem a "avaliação de rastreio" (trace grading), uma poderosa funcionalidade de depuração que vai além de simples resultados de sucesso/falha. Fornece um relatório de diagnóstico passo a passo do processo de pensamento do agente, mostrando que ferramentas foram usadas, em que ordem e que informação foi trocada.

As OpenAI Agent Evals incluem a otimização automática de prompts, que analisa as falhas nos testes e sugere alterações às instruções principais do agente ou "prompts". Esta funcionalidade ajuda os programadores a afinar a lógica interna do agente para um melhor desempenho em execuções subsequentes.

Compartilhe esta postagem

Kenneth undefined

Article by

Kenneth Pangan

Writer and marketer for over ten years, Kenneth Pangan splits his time between history, politics, and art with plenty of interruptions from his dogs demanding attention.