Trabaja en un grupo de TI de un banco comercial. Su equipo está a cargo de un nuevo proyecto para personalizar el programa de premios que se ofrece a los clientes que abren cuentas corrientes y de ahorro en el banco.
Su idea es recopilar y analizar datos sobre sus clientes para saber en qué tipos de premios están interesados. Por ejemplo, un cliente puede estar interesado en ahorrar dinero en productos de alimentación, mientras que otro puede estarlo en paquetes de viajes.
Así pues, recopila datos de los clientes como datos demográficos, indicadores de estilo de vida, ingresos, historial de transacciones, hábitos de consumo, presencia en línea, intereses, opiniones y conocimiento de marca. Los datos se obtienen a través de distintos medios: registros de clientes en los archivos del banco, sistemas de puntos de venta en compañías asociadas con el banco, interacciones en las redes sociales y blogs de clientes en Internet.
En la siguiente imagen se muestran los tipos de datos que recopila y el medio que usa para recopilarlos:
Cuando los datos se recopilan, se almacenan en el centro de datos corporativo del banco, compuesto por varias bases de datos relacionales.
En la siguiente imagen se muestra la forma en que los datos se pueden almacenar:
Antes de que su analista de datos pueda comenzar a trabajar con los datos, es necesario ingerirlos desde las bases de datos relacionales a cubos de Amazon S3, pero no dispone ni del tiempo ni de los recursos necesarios para ingerir cantidades de datos tan grandes. Tendrá que desarrollar varias asignaciones y conjuntos de parámetros para ingerir los datos y asegurarse de que se ingieren correctamente. Además, tiene que procurar no ingerir información confidencial del cliente, como los números de tarjetas de crédito. Aparte de todo esto, tiene que mantener las asignaciones cuando los esquemas relacionales cambien.
En lugar de crear y ejecutar asignaciones de forma manual, puede utilizar la herramienta de ingesta masiva para crear una especificación de ingesta masiva que ingiera todos los datos de una sola vez. Solamente tiene que especificar el origen, el destino y cualquier parámetro que quiera aplicar a las tablas de origen. Cuando implemente y ejecute la especificación, el motor de Spark ingiere todos los datos en Amazon S3.
En la siguiente imagen se muestra la forma en que la ingesta masiva puede enlazar los datos que el banco almacena en sus bases de datos relacionales con los cubos de Amazon S3:
La ingesta masiva supone un ahorro de tiempo y de recursos sustancial, y su analista de datos tendrá más tiempo para analizar datos y desarrollar un nuevo sistema para el programa de premios del banco.