Com ha millorat HIVE el processament de Big Data
Blog Detail Page
Blog Detail Page
Blog Detail Page

Com ha millorat HIVE el processament de Big Data

Blog Detail Page
Blog Detail Page
Blog Detail Page

Així ha reduït Hadoop el temps respecte del mainframe

T’has demanat mai com pots fer tractaments complexos amb un gran volum de dades i de manera eficient? A CaixaBank Tech, pel fet de donar servei a un gran grup financer, ens hem trobat amb problemes d’aquesta mena i et volem explicar com hem resolt el processament de dades massives.

Per què utilitzar Big Data en un sistema de Reporting MIS?

Agafarem com a exemple una de les aplicacions més utilitzades per la nostra xarxa d’oficines i els serveis centrals: Reporting MIS, l’aplicació que proporciona informació de comptabilitat analítica a tots els empleats. Aquest sistema genera informació financera consolidada, amb freqüència diària i mensual. Es fa servir per fer el seguiment de multitud d’indicadors financers que s’han seleccionat (alguns d’aquests indicadors poden ser el saldo mitjà, el marge o les ràtios).

Aquesta aplicació requereix processar un gran volum de dades, atès que acaba oferint diversos milers d’indicadors, vistos des de diversos eixos o dimensions d’anàlisi (jerarquia organitzativa, jerarquia de productes, períodes de temps…).

La importància de precalcular aquest Big Data

La complexitat es presenta quan tota aquesta volumetria d’indicadors s’ha de precalcular per les diferents dimensions d’anàlisi que ja hem comentat. L’objectiu que tot estigui precalculat és la necessitat de donar una resposta molt àgil quan els empleats consulten i analitzen la informació a través d’una aplicació que els ofereix multitud d’opcions de filtrat. Per acabar de complicar l’escenari, l’anàlisi de l’activitat sovint requereix nous indicadors o noves dimensions d’anàlisi que s’han d’incorporar en poc temps.

Si parlem de volumetries, estem processant un input de 8.000 M de registres a partir dels quals es calculen uns 4.600 indicadors complexos (indicadors calculats a partir d’altres de forma més o menys complexa com pot ser el marge financer agregat per diferents eixos/dimensions de 15 eixos, aprox., actualment) i el resultat obtingut genera una sortida aproximada de 12.000 M de registres.

Els inicis en el mainframe

Aquest procés inicialment es va desenvolupar sobre la tecnologia més comuna en l’entorn financer, que és el mainframe. Perquè fos eficient, es trossejava la informació i s’executava en processos Batch en paral·lel. Això va reduir el temps d’execució, però generava puntes de consum de més del 20 % en el mainframe, cosa que comportava un cost molt alt i a causa d’aquest consum de procés de dades massives no es podia executar en horari d’oficines.

Hadoop, una alternativa a mainframe

Veient que aquesta solució no era escalable i no podia donar suport a les noves evolucions que anava sol·licitant Negoci, es va obrir un procés de discovery tecnològic per veure quina podia ser la millor alternativa per migrar aquests processos del mainframe i, finalment, es va optar per un entorn de processament paral·lel basat en tecnologia Hadoop, concretament HIVE.

HIVE és una de les peces que formen part de la solució de dades massives del banc. És el que s’anomena entorn informacional i analític i està format per un ecosistema de tecnologies. En aquest cas, en fer servir un entorn Hadoop, l’enfocament de la solució es basa en el concepte de MAP and REDUCE, que consisteix en el clàssic “divideix i venceràs”.

Com processem Big Data amb HIVE?

El que es va fer va ser desenvolupar processos amb l’eina ODI, una solució de mercat per fer l’ETL/ELT, que ofereix un entorn de desenvolupament gràfic i que posteriorment genera el codi HIVE. L’entorn gràfic va permetre facilitar la tasca dels desenvolupadors, ja que la corba d’aprenentatge va ser menor que si haguessin hagut de codificar directament amb MapReduce, HIVE i aquesta mena de tecnologies. El nou procés s’orquestra amb YARN, que el que fa és balancejar tots aquests processos entre les diverses CPU. Aquest procés és el que s’anomena MAP, i després s’ajunta el resultat de tots aquests processos en un únic resultat, que correspon al REDUCE.

Com ha millorat HIVE el processament de Big Data

Millores de Hadoop respecte del mainframe

Amb Hadoop, s’ha aconseguit migrar la major part de les agregacions que es feien en el mainframe i s’ha millorat significativament el temps de procés de dades massives. Sense anar més lluny, l’agregació de negocis va passar de 30 hores en el mainframe a 10 en el nou entorn. A més, com l’entorn informacional de HIVE no proporciona un servei directe a les oficines, Hadoop també es pot executar en horari d’obertura d’oficina, amb la qual cosa ens permet millorar molt el temps de generació d’informació i donar servei a les noves peticions de Negoci de manera molt més eficient.


tags:

Comparteix:

Segueix llegint...