
Perguntas frequentes
A OpenAI Evaluation, muitas vezes chamada de Evals, é um conjunto de ferramentas concebido para programadores criarem e executarem testes em modelos de linguagem. O seu principal objetivo é realizar o controlo de qualidade de modelos de IA, garantindo que estes funcionam como esperado e identificando quaisquer regressões durante as atualizações.
Todo o processo da OpenAI Evaluation, desde a criação de ficheiros específicos "JSONL" até à interpretação de dados de log complexos, exige conhecimentos de programação e competências técnicas. Isto torna a sua configuração, execução e gestão um desafio para equipas de negócio não técnicas, como os gestores de suporte.
Primeiro, um programador prepara um conjunto de dados de "ground truth" com perguntas e respostas corretas em formato "JSONL". De seguida, cria um ficheiro de configuração que define o prompt da IA e as regras de avaliação. Por fim, a avaliação é executada a partir da linha de comandos, gerando ficheiros de log com métricas de desempenho, como a precisão.
Uma limitação significativa é a necessidade de criar e atualizar manualmente conjuntos de dados de teste, que rapidamente se tornam desatualizados à medida que as necessidades do negócio mudam. Isto torna a manutenção de testes relevantes e abrangentes uma tarefa contínua e que consome muitos recursos para as empresas.
Sim, a execução de testes com a OpenAI Evaluation acarreta custos, porque utiliza tokens de API para cada prompt enviado e resposta gerada pelos modelos. Os preços são tipicamente pay-as-you-go, com base no número de tokens de input e output, o que pode levar a faturas mensais imprevisíveis.
A OpenAI Evaluation padrão é excelente para verificar respostas de texto, mas não testa inerentemente um fluxo de trabalho completo ou ações que uma IA possa executar, como etiquetar tickets ou consultar o estado de encomendas. Ela foca-se principalmente na correção das respostas verbais ou textuais.