Merge Data
El componente Merge Data te permite unir diferentes conjuntos de datos en un solo flujo de información. Puedes apilar los datos, unirlos por campos comunes (con opciones de unión interna o externa) o combinarlos en un único objeto. Es útil cuando necesitas consolidar información proveniente de distintas fuentes antes de continuar con análisis o visualizaciones.
¿Cómo funciona?
El componente trabaja localmente dentro del dashboard. Cuando seleccionas un tipo de fusión, el sistema recorre cada objeto de datos que le has conectado y los combina según la lógica elegida:
- Append: Todos los registros se añaden a una sola lista. Si algún registro falta un campo, se rellena con una cadena vacía para mantener la consistencia.
- Combine by Key: Los registros se agrupan por los campos indicados como clave.
- INNER JOIN: Solo se incluyen registros que tengan coincidencias en todas las fuentes.
- OUTER JOIN: Se incluyen todos los registros, rellenando con cadenas vacías los valores que falten en alguna fuente.
- Combine by Index: Se fusionan los objetos en un único registro, combinando los valores de cada posición.
El resultado es un objeto de datos que puede ser usado inmediatamente por otros componentes del flujo.
Entradas
Campos de Entrada
- Data Inputs: Lista de objetos de datos que quieres combinar. Puedes conectar varios flujos de datos que provengan de diferentes fuentes o procesos.
- Join Type: Tipo de unión que se aplicará cuando uses la opción “Combine by Key”. Puedes elegir entre INNER JOIN (solo coincidencias) o OUTER JOIN (incluye todos los registros).
- Key Field: Nombre(s) de los campos que se usarán como clave para agrupar los objetos cuando se haga la unión por clave. Puedes indicar un solo campo o varios separados por comas.
- Merge Type: Selecciona la forma en que quieres combinar los datos: Append, Combine by Key o Combine by Index.
Salidas
- Merged Data: Un objeto de datos que contiene la lista combinada. Si se usó una unión, los campos que faltan se rellenan con cadenas vacías para mantener la consistencia.
Ejemplo de Uso
Supongamos que tienes dos listas de clientes: una con información de contacto y otra con historial de compras. Quieres crear un único conjunto de datos que contenga ambos tipos de información.
- Merge Type: Combine by Key
- Join Type: INNER JOIN
- Key Field:
customer_id
- Data Inputs: Conecta la salida del componente “Load Customer Contact” y la salida del componente “Load Purchase History”.
El resultado será un objeto de datos donde cada registro contiene los campos de contacto y los de historial de compras para cada cliente que aparece en ambas listas. Si un cliente solo aparece en una de las listas, no aparecerá en el resultado porque se usó INNER JOIN.
Componentes Relacionados
- Filter Data – Permite seleccionar solo los registros que cumplan ciertas condiciones antes de combinarlos.
- Split Data – Divide un conjunto de datos en varios subconjuntos basados en criterios definidos.
- Transform Data – Aplica transformaciones a los campos (por ejemplo, cambiar formato de fechas) antes de la fusión.
Consejos y Mejores Prácticas
- Verifica los nombres de los campos: Asegúrate de que los nombres de los campos que usas como clave coincidan exactamente en todas las fuentes de datos.
- Usa OUTER JOIN con precaución: Cuando incluyes todos los registros, los campos que no existen en una fuente se rellenarán con cadenas vacías, lo que puede afectar cálculos posteriores.
- Revisa la longitud de los datos: Si los objetos de datos son muy grandes, la operación de merge puede consumir memoria; considera dividir el proceso en pasos más pequeños.
- Documenta la lógica de merge: Anota en tu flujo de trabajo qué tipo de merge se está usando y por qué, para facilitar el mantenimiento futuro.
Consideraciones de Seguridad
- Protege datos sensibles: Si los objetos de datos contienen información confidencial (por ejemplo, datos personales), asegúrate de que el flujo de trabajo cumpla con las políticas de privacidad y que los datos se manejen de forma segura.
- Control de acceso: Limita quién puede configurar y ejecutar este componente, especialmente cuando se trabaja con datos críticos.