Categorizer
El Categorizer es un componente sencillo que analiza una lista de ítems y devuelve las categorías más relevantes. Se usa para organizar información, agrupar productos, clasificar textos o preparar datos para otros procesos de automatización.
¿Cómo funciona?
El componente recibe tres entradas:
- Items – Una colección de textos o registros que quieres clasificar.
- Model – El modelo de IA que se empleará para extraer las categorías.
- Max Chunks – El número máximo de tokens que el modelo procesará por cada ítem.
Internamente, el Categorizer pasa cada ítem al modelo seleccionado, limita el número de tokens según Max Chunks
y extrae las categorías más relevantes. No hace llamadas a servicios externos; todo el procesamiento ocurre dentro del entorno de Nappai.
Entradas
- Items: Lista de datos que serán analizados.
- Model: Referencia al modelo de IA que realizará la clasificación.
- Max Chunks: Número máximo de tokens que el modelo procesará por ítem.
Salidas
- Categories: Resultado del método
categorize_content
. Contiene las categorías identificadas para cada ítem. - Tool: Resultado del método
build_tool
. Proporciona una herramienta que puede ser reutilizada en otros flujos de trabajo.
Ejemplo de Uso
Supongamos que tienes una tabla con descripciones de productos y quieres agruparlos por categoría:
- Conecta la salida de tu componente de Data Import al campo Items del Categorizer.
- Selecciona el modelo de clasificación que prefieras en el campo Model.
- Ajusta Max Chunks a 200 para limitar el procesamiento.
- Ejecuta el flujo.
- Usa la salida Categories para alimentar un componente de Data Aggregation que genere un informe por categoría.
Componentes Relacionados
- Text Analyzer – Analiza textos y extrae métricas adicionales.
- Data Cleaner – Elimina duplicados y normaliza datos antes de la clasificación.
- Report Generator – Crea visualizaciones basadas en las categorías obtenidas.
Consejos y Mejores Prácticas
- Elige un modelo adecuado: Si trabajas con textos muy largos, selecciona un modelo que soporte más tokens.
- Ajusta Max Chunks: Un valor demasiado bajo puede perder información; demasiado alto puede ralentizar el proceso.
- Revisa las categorías: Después de la primera ejecución, verifica que las categorías tengan sentido y ajusta el modelo si es necesario.
- Combina con Data Cleaner: Limpiar los datos antes de clasificarlos mejora la precisión.
Consideraciones de Seguridad
- Los datos se procesan localmente dentro del entorno de Nappai, sin enviarlos a servicios externos.
- Asegúrate de que el modelo seleccionado no contenga datos sensibles o confidenciales.
- Si trabajas con información regulada, revisa que el modelo cumpla con las políticas de privacidad de tu organización.