Saltearse al contenido

Categorizer

El Categorizer es un componente sencillo que analiza una lista de ítems y devuelve las categorías más relevantes. Se usa para organizar información, agrupar productos, clasificar textos o preparar datos para otros procesos de automatización.

¿Cómo funciona?

El componente recibe tres entradas:

  1. Items – Una colección de textos o registros que quieres clasificar.
  2. Model – El modelo de IA que se empleará para extraer las categorías.
  3. Max Chunks – El número máximo de tokens que el modelo procesará por cada ítem.

Internamente, el Categorizer pasa cada ítem al modelo seleccionado, limita el número de tokens según Max Chunks y extrae las categorías más relevantes. No hace llamadas a servicios externos; todo el procesamiento ocurre dentro del entorno de Nappai.

Entradas

  • Items: Lista de datos que serán analizados.
  • Model: Referencia al modelo de IA que realizará la clasificación.
  • Max Chunks: Número máximo de tokens que el modelo procesará por ítem.

Salidas

  • Categories: Resultado del método categorize_content. Contiene las categorías identificadas para cada ítem.
  • Tool: Resultado del método build_tool. Proporciona una herramienta que puede ser reutilizada en otros flujos de trabajo.

Ejemplo de Uso

Supongamos que tienes una tabla con descripciones de productos y quieres agruparlos por categoría:

  1. Conecta la salida de tu componente de Data Import al campo Items del Categorizer.
  2. Selecciona el modelo de clasificación que prefieras en el campo Model.
  3. Ajusta Max Chunks a 200 para limitar el procesamiento.
  4. Ejecuta el flujo.
  5. Usa la salida Categories para alimentar un componente de Data Aggregation que genere un informe por categoría.

Componentes Relacionados

  • Text Analyzer – Analiza textos y extrae métricas adicionales.
  • Data Cleaner – Elimina duplicados y normaliza datos antes de la clasificación.
  • Report Generator – Crea visualizaciones basadas en las categorías obtenidas.

Consejos y Mejores Prácticas

  • Elige un modelo adecuado: Si trabajas con textos muy largos, selecciona un modelo que soporte más tokens.
  • Ajusta Max Chunks: Un valor demasiado bajo puede perder información; demasiado alto puede ralentizar el proceso.
  • Revisa las categorías: Después de la primera ejecución, verifica que las categorías tengan sentido y ajusta el modelo si es necesario.
  • Combina con Data Cleaner: Limpiar los datos antes de clasificarlos mejora la precisión.

Consideraciones de Seguridad

  • Los datos se procesan localmente dentro del entorno de Nappai, sin enviarlos a servicios externos.
  • Asegúrate de que el modelo seleccionado no contenga datos sensibles o confidenciales.
  • Si trabajas con información regulada, revisa que el modelo cumpla con las políticas de privacidad de tu organización.