¿Qué es AA-Briefcase? El benchmark de IA para el trabajo del conocimiento real, explicado

Alicia Kirana Utomo
Escrito por

Alicia Kirana Utomo

Katelin Teen
Revisado por

Katelin Teen

Última edición June 23, 2026

Verificado por expertos
Un maletín abierto del que se derraman documentos, hojas de cálculo, correos electrónicos y mensajes de chat mientras una figura de IA los califica en una tarjeta de puntuación

Resumen

AA-Briefcase es un nuevo benchmark de Artificial Analysis que califica modelos de IA en trabajo del conocimiento real de varias semanas (modelos financieros, presentaciones para la junta, especificaciones de producto) en lugar de preguntas aisladas. Cada modelo recibe miles de archivos desordenados (correos electrónicos, hilos de Slack, hojas de cálculo) y debe producir entregables reales, que se puntúan por corrección, calidad analítica y presentación.

El hallazgo principal es revelador: incluso el mejor modelo supera todos los criterios de la rúbrica en solo el 3 % de las tareas, y en 31 de 91 tareas ningún modelo supera el 50 %. Claude Fable 5 encabeza el leaderboard, con el open-weight GLM-5.2 rindiendo muy por encima de su precio.

Aquí está la parte que la mayoría de las coberturas omite: una alta puntuación en el benchmark indica que un modelo es capaz en general, no que sea seguro con tus datos. Esa brecha es la razón exacta por la que creo que cualquiera que busque servicio al cliente con IA debería probar con su propio trabajo histórico antes de salir en vivo, en lugar de confiar simplemente en un leaderboard.

Yo construyo agentes de IA a diario en eesel, así que un benchmark que finalmente mide el trabajo real desordenado en lugar de trivialidades es algo que me hace dejar todo lo que estoy haciendo para leerlo. A continuación, explico qué mide realmente AA-Briefcase, cómo califica, quién está ganando y la única lección que extraería de él para cualquier despliegue de agentes de IA.

Leaderboard de AA-Briefcase
Valores aproximados del lanzamiento, 18 de junio de 2026. Cambia la vista para ver por qué el modelo más barato nunca es el mejor.
Claude Fable 51587
Claude Opus 4.81356
GLM-5.2 (open)1266
GPT-5.51159
MiniMax-M3 (open)1116
Claude Sonnet 4.61081
Gemini 3.5 Flash870

Qué mide realmente AA-Briefcase

La mayoría de los benchmarks de IA hacen preguntas cortas y autocontenidas: un problema de matemáticas, un rompecabezas de programación, un cuestionario de opción múltiple. Eso está bien para medir el razonamiento en bruto, pero no se parece en nada a cómo la gente usa realmente estos modelos en el trabajo. El trabajo del conocimiento real es largo, ambiguo y está enterrado en el desorden.

AA-Briefcase fue construido para cerrar esa brecha. En lugar de un prompt, cada modelo es lanzado a un proyecto empresarial de varias semanas con muchas tareas vinculadas y miles de archivos fuente, y se le pide que produzca el tipo de entregables que haría un analista o un PM real: modelos financieros, presentaciones para la junta, maquetas de diseño, memorandos de estrategia. Los escenarios fueron desarrollados durante meses por expertos de la industria de empresas como Google, McKinsey y Boston Consulting Group, por lo que el trabajo se parece a lo que esas empresas hacen realmente.

Los números dan una idea de la escala. Hay cuatro escenarios de proyectos reservados y 91 tareas en total, extraídas de ciencia de datos, gestión de productos y estrategia corporativa. A través de ellos hay casi 2.000 archivos fuente, incluyendo más de 3.500 correos electrónicos y 25.000 mensajes de Slack, deliberadamente fragmentados y llenos de contradicciones realistas. Los cuatro escenarios de puntuación son un proyecto de Ciencia de Datos, un proyecto de Gestión de Productos, una transformación de Operaciones Bancarias y un proyecto de Estrategia de Industria Pesada; un quinto escenario de Due Diligence es público y no cuenta para las puntuaciones.

Ese marco importa porque refleja el modo de fallo de cada agente de IA que he lanzado: el modelo raramente lucha con la idea, lucha con encontrar el requisito oculto en el archivo 1.400 sin contradecir el correo que silenciosamente lo anuló.

Cómo califica AA-Briefcase a un modelo

Aquí es donde AA-Briefcase se vuelve inteligente. Una puntuación única ocultaría lo más interesante sobre la producción de IA, que es que parecer profesional y ser correcto son dos habilidades completamente diferentes. Por eso cada tarea se califica en tres dimensiones separadas.

Cómo califica AA-Briefcase a un modelo: archivos desordenados alimentan a un agente de IA en un sandbox, que produce entregables que se puntúan en rúbrica, calidad analítica y presentación, luego se combinan en un Elo
Cómo califica AA-Briefcase a un modelo: archivos desordenados alimentan a un agente de IA en un sandbox, que produce entregables que se puntúan en rúbrica, calidad analítica y presentación, luego se combinan en un Elo

La primera es una rúbrica binaria: aprobado o reprobado en cada verificación, sin crédito parcial. ¿Siguió el modelo las instrucciones, encontró los requisitos dispersos entre archivos, usó la evidencia correcta y llegó a la conclusión correcta? La segunda es calidad analítica, juzgada por comparación por pares con la entrega de otro modelo: ¿qué entregable es más completo y mejor respaldado? La tercera es presentación, también por pares: ¿qué resultado está mejor estructurado de manera profesional?

Esas tres se combinan en un número titular único, el Elo de AA-Briefcase, que mezcla Elo de calidad analítica, Elo de presentación y tasa de aprobación de rúbrica usando agregación Elo de máxima verosimilitud. Para evitar que alguna familia de modelos se califique favorablemente, cada comparación es decidida por un panel de tres jueces: Claude Opus 4.8, GPT-5.5 y Gemini 3.1 Pro Preview.

La infraestructura también es abierta. Los modelos se ejecutan en Stirrup, el harness de agente de código abierto de Artificial Analysis, dentro de un sandbox sin conexión sin internet, por hasta 500 turnos por tarea. Es una configuración genuinamente exigente y está bastante más cerca de un flujo de trabajo agéntico real que una ventana de chat.

Qué dicen realmente los resultados

El leaderboard de arriba cuenta la historia feliz (Claude Fable 5 al frente, niveles de capacidad ordenadamente apilados). La historia más difícil está en las tasas de aprobación.

Gráfico de barras: la tasa de aprobación cae del 55 % en verificaciones solo de prompt al 40 % en verificaciones que necesitan cinco o más archivos, con un indicador de que el mejor modelo supera todas las verificaciones en solo el 3 % de las tareas
Gráfico de barras: la tasa de aprobación cae del 55 % en verificaciones solo de prompt al 40 % en verificaciones que necesitan cinco o más archivos, con un indicador de que el mejor modelo supera todas las verificaciones en solo el 3 % de las tareas

Incluso el modelo líder satisface todos los criterios de la rúbrica en solo el 3 % de las tareas, y en 31 de las 91 tareas ningún modelo supera el 50 %. La dificultad también escala con el número de archivos requeridos: los modelos de alta inteligencia caen de alrededor del 55 % en verificaciones solo de prompt a aproximadamente el 40 % una vez que una tarea necesita cinco o más. Cuanto más se parece una tarea al trabajo real, peor lo hace todo el mundo.

El leaderboard tiene algunos puntos clave que vale la pena destacar. GLM-5.2 es el claro líder de peso abierto y el destacado en precio/rendimiento, situándose aproximadamente 90 Elo por debajo de Claude Opus 4.8 a menos de un cuarto del costo. MiniMax-M3 y GLM-5.2 ambos superan sus puntuaciones de inteligencia general, mientras que los modelos Gemini de Google en realidad rinden menos en AA-Briefcase en comparación con donde se sitúan en los rankings de inteligencia amplia. Y como muestra la vista de costo en el widget, la diferencia entre el modelo más caro y el más barato supera 800×, lo cual es un recordatorio útil cuando se sopesa el costo real de un agente de IA contra las métricas que realmente importan.

El problema de "parece correcto pero está mal"

Mi hallazgo favorito de toda la publicación es uno de comportamiento, y explica mucho sobre por qué el trabajo de IA puede sentirse poco confiable.

Gráfico de barras de llamadas view-image por tarea: Claude Fable 5 con 21, Claude Opus 4.8 con 12, GPT-5.4 Mini con 2 y Gemini 3.1 Pro con 0.1, que envía archivos que nunca miró
Gráfico de barras de llamadas view-image por tarea: Claude Fable 5 con 21, Claude Opus 4.8 con 12, GPT-5.4 Mini con 2 y Gemini 3.1 Pro con 0.1, que envía archivos que nunca miró

Los modelos que mejor puntúan en presentación son los que realmente revisan su propio resultado renderizado. Claude Fable 5 hizo alrededor de 21 llamadas view-image por tarea y Opus 4.8 unas 12, mientras que algunos modelos enviaron archivos que apenas habían examinado (Gemini 3.1 Pro Preview promedió aproximadamente 0,1 llamadas view-image). Resulta que "revisar tu trabajo antes de entregarlo" es tan buen consejo para una IA como para una persona.

Hay un punto más profundo debajo. AA-Briefcase separa el pulido de la corrección precisamente porque una respuesta confiada y bien formateada que está silenciosamente equivocada es más peligrosa que una que es obviamente incompleta. Ese es el riesgo exacto que aparece cuando un chatbot de IA responde a un cliente, y es por eso que prevenir alucinaciones es lo fundamental en el soporte, no un extra agradable.

Por qué una puntuación en el leaderboard no es un plan de despliegue

Entonces, un modelo de frontera puede hacer trabajo del conocimiento real, a veces de manera brillante, y aun así fallar la mayoría del tiempo en las tareas más difíciles y con más archivos. Si te llevas una cosa de AA-Briefcase, llévate esto: un puesto en un benchmark es una señal de capacidad general, no una promesa sobre cómo se comporta un modelo en tus datos desordenados específicos.

He visto esto suceder en primera persona. Hemos pasado años poniendo agentes de IA en colas de soporte en vivo, y lo que afecta a los equipos no es si el modelo subyacente es lo suficientemente inteligente en abstracto, sino si se mantiene preciso en sus tickets específicos, las peculiaridades de su producto y sus casos extremos. Un modelo que lidera cada leaderboard público aún puede citar confiadamente tu política de reembolso de forma incorrecta el primer día, mucho antes de llegar a la resolución automatizada de tickets. Eso no es una crítica al modelo; es la diferencia entre un benchmark y la producción.

La solución es el mismo instinto sobre el que está construido AA-Briefcase: califica el trabajo contra la verdad antes de confiar en él. Para un helpdesk, eso significa ejecutar la IA contra tus propios tickets históricos y ver exactamente lo que habría respondido, en lugar de leer una ficha técnica y esperar lo mejor. Piénsalo como ejecutar tu propio AA-Briefcase privado, donde el conjunto de prueba es tu historial de soporte real.

Prueba eesel para soporte de IA en el que realmente puedas confiar

Si AA-Briefcase te convenció de que capacidad y fiabilidad no son lo mismo, ese es exactamente el problema alrededor del cual está construido eesel AI. eesel funciona como un nuevo compañero de soporte que se conecta a tu helpdesk y base de conocimiento existentes en minutos, y luego te permite simularlo en miles de tus tickets pasados antes de que hable con un cliente, para que veas su tasa de resolución real y las respuestas exactas de antemano en lugar de adivinarlas en un leaderboard.

Panel de informes de eesel AI, donde los equipos predicen tasas de resolución y revisan cómo la IA habría manejado los tickets pasados antes de salir en vivo
Panel de informes de eesel AI, donde los equipos predicen tasas de resolución y revisan cómo la IA habría manejado los tickets pasados antes de salir en vivo

Mantienes el control de lo que se le permite responder y cuándo escala, y es gratis de probar con tus propios datos. Si estás evaluando IA para el servicio al cliente, ese enfoque de simular primero es lo más cercano a llevar el rigor de "demuéstralo en trabajo real" de AA-Briefcase a tu propia cola.

Preguntas frecuentes

¿Qué es el benchmark AA-Briefcase?
AA-Briefcase es un benchmark de Artificial Analysis que evalúa modelos de IA en proyectos de trabajo del conocimiento realistas y de varias semanas, en lugar de preguntas aisladas. Cada proyecto entrega al modelo miles de archivos fuente desordenados y pide entregables reales como modelos financieros y presentaciones para la junta, y luego califica si el trabajo es realmente correcto. Es uno de los mejores indicadores públicos de cómo se desempeña un agente de IA en el trabajo de oficina genuino.
¿Qué modelo de IA es mejor en AA-Briefcase?
En el lanzamiento el 18 de junio de 2026, Claude Fable 5 lidera el Elo de AA-Briefcase con aproximadamente 1587, por delante de Claude Opus 4.8 y el líder de peso abierto GLM-5.2. El ranking completo está en el leaderboard interactivo cerca de la parte superior de esta publicación, y puede consultar los números en vivo en la página de evaluación de Artificial Analysis.
¿Cómo se puntúa AA-Briefcase?
Cada tarea se califica en tres dimensiones: una rúbrica binaria para la corrección verificable, un Elo por pares para la calidad analítica y un Elo por pares para la presentación. Estos se combinan en un único Elo de AA-Briefcase, con un panel de tres jueces-modelos decidiendo cada comparación para limitar el sesgo dentro de la misma familia.
¿Por qué los modelos de IA puntúan tan bajo en AA-Briefcase?
El trabajo es genuinamente difícil: el mejor modelo supera todos los criterios de la rúbrica en solo el 3 % de las tareas, y en 31 de 91 tareas ningún modelo supera el 50 %. La dificultad también aumenta con el número de archivos que requiere una tarea, que es exactamente el tipo de contexto fragmentado que hace tropezar a la IA en producción.
¿Un alto puntaje en AA-Briefcase significa que el modelo es seguro para desplegar?
No. Un puesto en el leaderboard indica que un modelo es capaz en general, no que sea fiable con tus datos y flujos de trabajo. El camino más seguro es probar primero con tu propio trabajo histórico, del mismo modo que eesel permite a los equipos de soporte simular un agente de IA en tickets pasados antes de que responda a un cliente.
¿En qué se diferencia AA-Briefcase de otros benchmarks de IA?
La mayoría de los benchmarks puntúan preguntas cortas y autocontenidas. AA-Briefcase puntúa proyectos de largo plazo con tareas vinculadas y archivos fuente contradictorios, y separa los resultados que parecen pulidos de los que son realmente correctos. Eso lo hace más relevante para cualquiera que evalúe IA frente a trabajo humano en tareas empresariales reales.
¿Puedo usar AA-Briefcase para elegir una herramienta de IA para el soporte al cliente?
Es una señal de capacidad útil, pero las herramientas de soporte son más que un modelo en bruto. Lo que importa para el servicio al cliente con IA es cómo el sistema recupera tu conocimiento, escala y evita respuestas incorrectas con confianza. Complementa el benchmark con una prueba real en tus propios tickets, como la simulación en eesel AI, antes de comprometerte.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Ilustración que contrasta un chatbot de IA respondiendo una pregunta con un agente de IA conectado a Slack, correo electrónico y herramientas de tickets
AI

Agentes de IA vs. chatbots de IA: la diferencia real y cuándo usar cada uno

Agentes de IA vs. chatbots de IA: los chatbots responden preguntas, los agentes realizan acciones y cierran tickets. Aquí está la diferencia real y cuándo recurrir a cada uno.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración de una persona dirigiendo bloques de código que se ensamblan solos, representando el vibe coding
AI

¿Qué es el vibe coding? Una guía clara para 2026

El vibe coding consiste en describirle a una IA lo que quieres y dejar que escriba el código. Aquí tienes qué es, de dónde viene, los riesgos y cuándo usarlo de verdad.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Una persona sin perfil técnico describiendo la idea de una app mientras la IA ensambla bloques de software
AI

Vibe coding para no programadores: qué es realmente y cómo usarlo de forma segura

Una guía clara sobre el vibe coding para no programadores: qué significa, qué herramientas usar, dónde falla y qué puedes construir tú mismo de forma segura.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración de tokens de texto desordenados que se resuelven en texto limpio y legible, representando el eliminado de ruido en paralelo de DiffusionGemma
AI

¿Qué es DiffusionGemma? El LLM de difusión de pesos abiertos de Google, explicado

DiffusionGemma es el modelo de difusión de texto de pesos abiertos de Google: un Mixture-of-Experts de 26B que escribe bloques enteros de texto en paralelo para una generación hasta 4 veces más rápida.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración que muestra una capa de IA conectándose a plataformas de mesa de ayuda existentes
AI

Cómo añadir IA a tu service desk sin reemplazarlo

No necesitas reemplazar Zendesk, Freshdesk o Gorgias para llevar la IA a tu equipo de soporte. Esta guía explica cómo se conecta una capa de IA a tu mesa de ayuda existente y qué puede hacer realmente una vez allí.

Riellvriany IndriawanRiellvriany IndriawanJun 10, 2026
Ilustración de un teléfono ejecutando el nuevo Siri AI conversacional en Apple Intelligence en iOS 27
AI

¿Qué es Apple Intelligence en iOS 27? Una guía directa

Una guía directa sobre Apple Intelligence en iOS 27: el Siri AI reconstruido, la conexión con Google, qué hay realmente de nuevo y qué significa para los equipos de soporte.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración editorial de Claude Opus 4.8 para uso empresarial
AI

Claude Opus 4.8 para empresas: qué cambia y qué no

Claude Opus 4.8 es el modelo insignia de Anthropic. Una lectura práctica desde la perspectiva del operador: qué significa para su empresa, qué cuesta y dónde se queda corto.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración editorial de Claude Opus 4.8, el modelo de IA estrella de Anthropic
AI

¿Qué es Claude Opus 4.8? Una mirada objetiva al modelo estrella de Anthropic

Claude Opus 4.8 es el último modelo estrella de Anthropic. Aquí encontrarás qué cambió, cuánto cuesta y qué significa un modelo más inteligente para el soporte al cliente con IA.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Ilustración de Claude Fable 5 trabajando como un compañero de equipo autónomo de larga duración para un equipo empresarial
AI

Claude Fable 5 para empresas: qué significa realmente para tu equipo el modelo más potente de Anthropic

Una mirada lúcida a Claude Fable 5 para empresas: cuánto cuesta, dónde brilla, dónde falla y cómo ponerlo a trabajar de verdad en la atención al cliente.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

Listo para contratar tu companero de IA?

Configuracion en minutos. Sin tarjeta de credito requerida.

Comienza gratis