En el Grupo CaixaBank, diariamente, se ejecutan cientos de modelos de scoring, prevención de fraude, clasificación y segmentación de usuarios, análisis o clasificación de texto…, algunos de ellos en real time. En total, se da servicio y soporte a la operación financiera y comercial a los más de 20 millones de clientes del banco.
Como la mayoría de vosotros sabréis, Spark es un marco que se creó para procesar una gran cantidad de datos de forma distribuida. También se puede escribir en tres lenguajes diferentes (Scala, Java y Python). Para lograrlo, necesitamos un clúster, y ¿a qué herramientas podemos recurrir?