Saltearse al contenido

Language Detector

El Language Detector es un componente sencillo que permite identificar el idioma de cualquier fragmento de texto que le proporciones. Puedes usarlo con textos simples, con objetos de datos estructurados o con mensajes de chat. El resultado se guarda directamente en el objeto de datos, lo que facilita su uso en flujos de trabajo posteriores.

¿Cómo funciona?

El componente recibe el texto que quieres analizar y lo envía a la clase PresidioLanguageDetector, que forma parte de la librería interna de Nappai. Este detector revisa el contenido y devuelve el código ISO del idioma (por ejemplo, en para inglés, es para español). Si el input es un objeto Data, el componente extrae el texto de la columna especificada por Input Key with the text to detect. Si es un mensaje o una cadena, lo usa tal cual. El idioma detectado se añade a cada registro bajo la clave indicada por Output Key to store the detected language.

Entradas

Campos de Entrada

  • Data or Text: El texto o los datos que quieres analizar. Puedes pasar una cadena, un objeto Data, o un mensaje de chat.
  • Input Key with the text to detect: Cuando el input es un objeto Data, indica la columna que contiene el texto a analizar. El valor por defecto es text.
  • Output Key to store the detected language: La clave donde se guardará el idioma detectado dentro del objeto Data. El valor por defecto es language.

Salidas

  • Language: El idioma detectado como texto (por ejemplo, en, es, fr).
  • Data: Una lista de objetos Data que incluyen el idioma detectado en la columna especificada por Output Key to store the detected language. Esta salida se puede usar directamente en componentes posteriores que requieran saber el idioma.

Ejemplo de Uso

Supongamos que tienes una tabla con una columna text que contiene frases en varios idiomas y quieres añadir una columna language con el código del idioma detectado.

  1. Conecta la salida de tu componente de carga de datos (por ejemplo, un CSV Reader) a la entrada Data or Text del Language Detector.
  2. Deja los valores por defecto en Input Key with the text to detect (text) y Output Key to store the detected language (language).
  3. Conecta la salida Data a un componente de guardado (por ejemplo, un CSV Writer).
  4. Cuando ejecutes el flujo, cada fila tendrá una nueva columna language con el código ISO del idioma detectado.

Componentes Relacionados

  • Text Cleaner – Limpia el texto antes de la detección.
  • Data Splitter – Divide grandes conjuntos de datos para procesarlos en lotes.
  • Language Translator – Traduce el texto a otro idioma una vez detectado.

Consejos y Mejores Prácticas

  • Usa columnas bien definidas: Asegúrate de que la columna que contiene el texto esté limpia y sin caracteres extraños para mejorar la precisión del detector.
  • Procesa en lotes: Si trabajas con grandes volúmenes de datos, considera dividirlos en lotes para evitar sobrecargar la memoria.
  • Verifica los resultados: En caso de que el detector no reconozca un idioma, revisa el texto por posibles errores de codificación o caracteres especiales.

Consideraciones de Seguridad

El componente procesa los datos localmente y no envía información a servicios externos. Asegúrate de que los datos sensibles estén protegidos según las políticas de tu organización antes de pasarlos al detector.