Data Anonymizer
El Data Anonymizer es una herramienta sencilla que permite ocultar información sensible dentro de textos.
Solo necesitas cargar los datos que quieres proteger y elegir qué tipos de datos personales quieres que se sustituyan por valores ficticios. El componente se encarga de detectar y reemplazar nombres, direcciones, correos, números de teléfono, etc., y devuelve el texto anonimizado junto con un mapa de los cambios realizados.
¿Cómo funciona?
- Detección de idioma – El componente analiza el texto para identificar el idioma de cada fragmento.
- División en bloques – El texto se corta en trozos de aproximadamente 3 000 caracteres para que el motor de reconocimiento pueda procesarlo sin problemas.
- Análisis de entidades –
- Si seleccionas spacy, se usa el modelo de reconocimiento de entidades de spaCy, con la posibilidad de ignorar ciertas entidades (por ejemplo, productos o obras de arte).
- Si eliges otro modelo (por ejemplo, gemma3:12b), se llama a un servicio de IA que analiza el texto y devuelve las entidades detectadas.
- Anonimización – Cada entidad detectada se reemplaza por un valor ficticio (por ejemplo, “PERSON_1”, “EMAIL_1”).
- Resultado – El componente devuelve el texto anonimizado y un diccionario que indica qué entidad fue sustituida por qué valor, para que puedas revisar los cambios.
El proceso se realiza localmente dentro del dashboard, sin enviar tus datos a servicios externos, salvo que elijas un modelo de IA que lo requiera.
Entradas
- Data: Los datos que quieres anonimizar.
- Analyze Fields: Selecciona los tipos de información que deseas que el componente busque y reemplace (por ejemplo, PERSON, ORGANIZATION, EMAIL_ADDRESS, PHONE_NUMBER).
- Custom Recognizers: Añade patrones personalizados para que el componente reconozca datos específicos que no están cubiertos por los modelos predefinidos.
- Source data input key: La clave dentro de cada objeto de datos que contiene el texto a procesar (por defecto “text”).
- Spacy Ignore Entities: Lista de entidades que spaCy debe ignorar durante el reconocimiento (por ejemplo, PRODUCT, WORK_OF_ART).
- Model Size: Tamaño del modelo spaCy a usar (small, medium, large).
- NER Model Name: Nombre del modelo de reconocimiento de entidades (spacy o gemma3:12b).
- Remark Anonymization: Si se activa, el componente añade comentarios en el texto indicando que se ha anonimizado una entidad.
Salidas
- Data: Cada objeto de datos original se extiende con dos nuevos campos:
- text_anonymized – El texto con las entidades reemplazadas.
- anonymizer_mapping – Un mapa que muestra qué entidad fue sustituida por qué valor.
Ejemplo de Uso
Supongamos que tienes un conjunto de correos electrónicos de clientes y quieres compartirlos con tu equipo de marketing sin revelar datos personales.
- Arrastra el componente Data Anonymizer al flujo.
- Conecta la salida de tu base de datos de correos al campo Data.
- En Analyze Fields, marca PERSON, EMAIL_ADDRESS y PHONE_NUMBER.
- Deja el resto de configuraciones con sus valores por defecto.
- Ejecuta el flujo.
- El componente devolverá los correos con nombres, correos y teléfonos reemplazados por valores ficticios, listos para ser usados sin riesgo de exposición de datos sensibles.
Componentes Relacionados
- Presidio Reversible Anonymizer – Motor de anonimización que permite revertir los cambios si es necesario.
- LLM Analyzer and Anonymizer – Servicio de IA que analiza y anonimiza textos cuando se selecciona un modelo distinto a spaCy.
- Presidio Language Detector – Detecta el idioma de cada fragmento de texto para usar el modelo adecuado.
Consejos y Mejores Prácticas
- Revisa el mapa de anonimización antes de compartir los datos para asegurarte de que todas las entidades sensibles han sido cubiertas.
- Usa patrones personalizados si tu organización maneja formatos especiales (por ejemplo, códigos internos o identificadores únicos).
- Prueba con un subconjunto de datos antes de procesar grandes volúmenes para verificar que la configuración funciona como esperas.
- Mantén la configuración de “Spacy Ignore Entities” actualizada si tu flujo incluye textos con muchas entidades que no quieres anonimizar (por ejemplo, nombres de productos).
Consideraciones de Seguridad
El componente procesa los datos localmente dentro del entorno de Nappai, lo que significa que la información no se envía a servidores externos a menos que utilices un modelo de IA que lo requiera. Asegúrate de que los modelos externos estén configurados con las políticas de privacidad adecuadas y que los datos sensibles se eliminen después de su uso.