Judge Agent

El Judge Agent es una herramienta que revisa las respuestas generadas por otros agentes de IA.
Con él, puedes comprobar si una respuesta es precisa, completa, clara, útil y segura antes de entregarla al usuario final.

¿Cómo funciona?

El componente envía la respuesta del asistente a un modelo de lenguaje (OpenAI, Anthropic, etc.) junto con un prompt de evaluación.
El modelo devuelve un análisis que indica si la respuesta cumple con los criterios establecidos y, opcionalmente, comentarios de mejora.
El resultado se devuelve como un objeto que puede ser usado por otros componentes para decidir si la respuesta se publica o necesita revisión.

Entradas

Campo	Descripción
Model	El modelo de lenguaje que se usará para la evaluación.
Custom Judge Prompt	Prompt personalizado que guía al modelo en la evaluación. Por defecto, incluye criterios de exactitud, completitud, claridad, utilidad y seguridad.
Agent Description	Descripción breve del agente que se está evaluando; útil cuando el juez se usa como herramienta o hijo de un supervisor.
Agent Name	Nombre del ejecutor que se evaluará.
Evaluation Prompt Template	Plantilla predefinida que se usará para la evaluación.
Show Feedback in Response	Si se activa, el feedback del juez se incluirá en la respuesta final.
Tool Schema	Esquema de metadatos que describe la entrada y salida del agente cuando se usa como herramienta.
Verbose	Muestra información detallada del proceso de evaluación (útil para depuración).

Salidas

Campo	Tipo	Descripción
Agent	`CompiledGraph` (método: `build_agent`)	El agente compilado listo para ser ejecutado.
Tool	`BaseTool` (método: `build_tool`)	La versión de herramienta del agente, útil para integrarlo en flujos de trabajo más amplios.

Ejemplo de Uso

Añade el componente “Judge Agent” al flujo de tu dashboard.
Configura el modelo (por ejemplo, gpt-4o-mini).
Deja el prompt de evaluación por defecto o ajusta el campo Custom Judge Prompt si necesitas criterios específicos.
Activa “Show Feedback in Response” si quieres que el usuario vea la crítica del juez.
Conecta la salida “Agent” a la siguiente etapa de tu flujo (por ejemplo, un componente que envía la respuesta al usuario).

Con estos pasos, cada respuesta generada será revisada automáticamente y solo se enviará al usuario si pasa todas las pruebas de calidad.

Componentes Relacionados

LanggraphJudgeAgent – Versión base del juez que se extiende en este componente.
OpenEvals – Biblioteca que proporciona los criterios de evaluación usados por el prompt.
BaseTool – Clase base para convertir agentes en herramientas reutilizables.

Consejos y Mejores Prácticas

Usa prompts claros: Un prompt de evaluación bien estructurado reduce la ambigüedad en los resultados.
Revisa el feedback: Si el juez devuelve pass: False, revisa los comentarios para mejorar la respuesta.
Activa Verbose solo cuando sea necesario: El modo detallado ayuda en depuración, pero puede generar salidas largas.
Combina con supervisores: Usa el juez como parte de un esquema de supervisión para garantizar respuestas consistentes en todo el flujo.

Consideraciones de Seguridad

El juez evalúa la seguridad de la respuesta, evitando contenido inapropiado o dañino.
Si la respuesta falla en el criterio de seguridad, el componente puede bloquearla o marcarla para revisión manual.
Asegúrate de que el modelo de lenguaje seleccionado cumpla con las políticas de tu organización antes de usarlo en producción.