15/01/2025
Descobreix les principals tipologies de grafs i la seva importància en la intel·ligència artificial. Aprèn com aquestes estructures clau optimitzen les connexions i l'anàlisi de dades.
En l’era digital actual, en què les dades flueixen i es generen en quantitats inimaginables i a velocitats vertiginoses, la capacitat d’entendre i analitzar les connexions entre diferents elements s’ha tornat crucial. Com podem donar sentit a tot aquest embolic de dades?
Imagina’t que poguessis visualitzar la xarxa d’interaccions en una plataforma social o desentranyar les complexes relacions financeres d’una institució bancària. Aquí és on entren en joc els grafs, una eina matemàtica que s’ha convertit en la columna vertebral d’innovacions tecnològiques com les xarxes neuronals de grafs (GNN, per les seves sigles en anglès).
Aquests models no només estan revolucionant la intel·ligència artificial, sinó que també estan obrint noves fronteres en sectors com el financer i permeten una anàlisi de dades més profunda i significativa. En aquest article t’expliquem què són les GNN, l’aplicació que tenen en el sector financer i com utilitzem aquesta innovadora tecnologia a CaixaBank Tech.
Què és un graf?
Un graf és una estructura matemàtica que s’utilitza per modelar relacions entre diferents elements. Per visualitzar-ho, imagina’t que tens un grup d’amics i que vols representar qui és amic de qui. Cada amic es converteix en un node i cada relació d’amistat és una aresta o enllaç que connecta dos nodes. Aquesta representació et permet visualitzar i analitzar com s’interconnecten els amics dins el grup.
Un exemple quotidià el trobem a les xarxes socials. En plataformes com Facebook o Instagram, els usuaris interactuen de diverses maneres: enviant missatges, amb “M’agrada” a publicacions o assistint a esdeveniments. Aquí, cada usuari és un node i cada tipus d’interacció és una aresta. Per exemple, si l’usuari A és amic de l’usuari B i, al seu torn, B és amic de C, podem representar-ho en un graf en què A està connectat a B, i B està connectat a C, a través d’arestes que representen l’“amistat”.
Tipus de grafs: estructures essencials en IA
Ara bé, no tots els grafs són iguals, ja que poden ser homogenis o heterogenis. En els homogenis, tots els nodes i arestes són del mateix tipus, com en una xarxa social simple on només representem amistats entre persones. En canvi, en els heterogenis, els nodes i les arestes poden representar diferents tipus d’entitats i relacions. Per exemple, en una xarxa social, els nodes poden representar usuaris, publicacions i esdeveniments, mentre que les arestes poden representar amistats, seguidors, “m’agrades” i participacions en esdeveniments, que creen una xarxa d’interrelacions rica i complexa.
A més, és important distingir entre grafs dirigits i no dirigits. En un graf dirigit, les arestes tenen una direcció, com un “m’agrada” o un missatge enviat d’un usuari a un altre, mentre que, en un graf no dirigit, les arestes no tenen direcció, com una amistat mútua entre dos usuaris (la relació és bidireccional i simètrica).
Tot seguit veurem un exemple de graf de xarxa social que té nodes i relacions heterogènies (usuaris, publicacions i esdeveniments) i arestes amb direccionalitat.
Exemple de graf (heterogeni i dirigit) que representa les interaccions entre usuaris en una xarxa social.
Tal com podem veure, els grafs ens permeten representar les dades i les seves interconnexions de manera molt més rica i amb molts matisos. Aquestes representacions permeten entendre com interactuen diferents elements dins d’una xarxa, ja sigui una xarxa social o una xarxa financera, i proporcionen una visió més clara de les dinàmiques i relacions entre aquests.
Tanmateix, per poder entrenar models sobre aquests grafs, cal adaptar els algoritmes de machine learning tradicionals per poder treballar amb nodes i arestes, i aquí és on entren en joc les Graph Neural Networks.
Què són les xarxes neuronals de grafs (GNN)?
Les xarxes neuronals de grafs (GNN) són algoritmes de machine learning dissenyats per treballar directament amb dades en format de grafs en comptes dels tradicionals formats tabulars, com les files i columnes d’un full de càlcul.
A diferència dels models tradicionals que analitzen cada dada de forma aïllada, les GNN capturen la informació a través de les connexions entre les dades. Això és possible gràcies al fet que combinen tècniques d’aprenentatge profund amb la teoria de grafs, cosa que permet entendre tant les estructures locals (p. ex., la relació entre un usuari i els seus amics pròxims) com les globals (comunitats o grups en una xarxa social).
Com funcionen les GNN?
El principi fonamental darrere de les GNN és el “pas de missatges” (message passing), que es pot imaginar com una conversa constant entre els elements d’un graf. Així és com funciona:
- Agregació d’informació: cada node (com ara un usuari en una xarxa social) recopila informació dels seus nodes veïns immediats (els seus amics).
- Actualització de coneixement: el node utilitza aquesta informació per actualitzar el seu propi estat o representació interna. És com si, quan coneixes les opinions dels teus amics, ajustessis la teva pròpia perspectiva.
- Repetició del procés: aquest intercanvi i actualització es repeteix diverses vegades, fet que permet que la informació flueixi a través de tota la xarxa. Així, doncs, encara que no estiguis directament connectat amb algú, la informació pot arribar a tu a través d’intermediaris.
Exemple visual de com un node millora la seva predicció agregant la informació dels seus veïns que flueix pel graf.
Aquest procés permet que les GNN capturin relacions complexes i dependències d’alt nivell entre els nodes, cosa que és especialment útil en xarxes grans i densament connectades. De totes maneres, amb aquests models sorgeixen reptes d’escalabilitat, sobretot en grafs amb milions i milions d’usuaris, i per aquest motiu han aparegut propostes i modificacions de les GNN per tal de fer-les més eficients en aplicacions reals a gran escala.
GraphSAGE: ampliant l'abast de les GNN
Un cop entenem la manera en què les xarxes neuronals de grafs (GNN) capturen i processen les relacions entre dades interconnectades, sorgeix la pregunta següent: com apliquem aquestes tècniques a grafs de gran escala, com les xarxes socials amb milions d’usuaris?
Aquí és on entra en acció GraphSAGE (Graph Sample and Aggregate), una de les variants més populars de les GNN. GraphSAGE és un mètode innovador que permet entrenar eficientment GNN en grafs grans mitjançant el mostreig i l’agregació d’informació de nodes veïns.
En termes senzills, GraphSAGE funciona així:
- Mostreig de veïns: en comptes d’analitzar tots els nodes veïns (la qual cosa seria computacionalment costosa), GraphSAGE selecciona una mostra aleatòria de veïns per a cada node. Això simplifica molt els càlculs i permet escalar a grafs més grans.
- Agregació d’informació: combina la informació dels nodes mostrejats per actualitzar la representació del node central. Aquest procés permet capturar les característiques essencials del seu entorn local.
A més, una de les claus de GraphSAGE és la seva capacitat inductiva, que significa que pot generar representacions per a nodes que no s’han vist durant l’entrenament del model. Això és especialment útil en escenaris en què el graf canvia constantment, com quan s’agreguen nous usuaris o es creen noves connexions en una xarxa social.
Aplicacions pràctiques de les GNN: des de Spotify fins a les proteïnes
I on tenen aplicació les GNN? Doncs un exemple clar de com les GNN entren en la nostra vida diària és en els sistemes de recomanació de productes. Plataformes com Spotify, Pinterest i Amazon utilitzen GNN per entendre millor les relacions entre usuaris i continguts. Alguna vegada t’has preguntat com saben aquestes plataformes exactament què recomanar-te? Analitzant la interacció dels usuaris amb diferents cançons, imatges o productes, les GNN poden recomanar-te de manera més precisa allò que et podria interessar, basant-se no només en les teves preferències, sinó també en les d’usuaris similars connectats a tu.
Un altre exemple interessant es troba en l’anàlisi de proteïnes. Les GNN s’utilitzen per modelar i predir les interaccions entre proteïnes, la qual cosa és crucial per entendre processos biològics complexos i desenvolupar nous fàrmacs. Tractant els àtoms i les molècules com a nodes i els vincles entre aquestes com a arestes, les GNN permeten identificar patrons i relacions de les estructures que ajuden a descobrir com es comporten certes molècules o com es podrien inhibir interaccions perjudicials per a la salut.
Impulsant la innovació a CaixaBank Tech
A CaixaBank Tech, com a impulsors de la innovació financera, treballem per integrar les GNN en diverses àrees per millorar-ne els serveis i les operacions, cosa que ens permet optimitzar processos, prendre decisions més informades i, en última instància, crear productes i serveis que marquin la diferència.
Per exemple, estem investigant com aplicar les GNN en el camp de la ciberseguretat, per exemple, per a la detecció d’anomalies en el trànsit de xarxa. Modelant les connexions entre diferents dispositius i usuaris a la nostra xarxa com un graf, les GNN poden identificar patrons inusuals o sospitosos que podrien indicar una amenaça. Això ens permet detectar possibles ciberatacs abans que causin danys significatius i, així, protegir tant els nostres sistemes com la informació dels nostres clients.
En resum, els grafs i les GNN són eines poderoses que ens permeten explorar i entendre les connexions entre dades. Amb aplicacions que van des de sistemes de recomanació fins a ciberseguretat, la capacitat que tenen per analitzar relacions complexes està revolucionant múltiples sectors, i el sector financer no és una excepció. El potencial de les GNN és immens i està en desenvolupament continu, i a mesura que els grafs i les dades vagin creixent en complexitat, les GNN seran cada vegada més essencials per extreure’n valor.
El futur de les dades interconnectades és prometedor i les GNN són la clau per desbloquejar-ne tot el potencial!
tags:
Comparteix: