Per fi comencem a conèixer l’algorisme de Twitter

10 maig, 2023 - Aniol Maria Vallès, arxiver i membre del Grup de Treball sobre Transparència i Dades Obertes de l’AAC

Fins ara pensàvem que veure un algorisme seria conèixer una fórmula matemàtica, segurament més complexa que la del PageRank de Google. Però no ha estat ben bé així.

Fa unes setmanes Elon Musk va complir el seu anunci i per fi vam començar a conèixer l’algorisme de Twitter. Una reclamació de fa molts anys que ni Jack Dorsey ni Parag Agrawal havien complert per molt que parlessin de més obertura de la xarxa social i sobre que els usuaris havien de conèixer millor com se’ls ofereix el servei d’una xarxa social.

Publicar algorismes no és res nou, de fet com a exemple rellevant Google ja ho va fer fa anys quan va publicar el funcionament de PageRank, el seu senzill algorisme per determinar quines pàgines web s’havien de destacar als resultats del famós cercador. La fórmula de Google era relativament senzilla, basant-se en un càlcul entre quants enllaços es dirigien a una pàgina web i quants enllaços d’una pàgina web anaven a parar a altres pàgines web. Aquest algorisme va arribar a ser tan rellevant que encara avui podem veure mitjans de comunicació evitant enllaçar a pàgines web externes per no perdre posicionament en els cercadors. Però millor posem-nos a explicar per què és rellevant pel món de l’arxivística conèixer l’algorisme de Twitter.

Doncs bé, per fer-ho ens n’hem d’anar al món de la criptografia i la seguretat. D’aquest sector en rebem les signatures digitals, les funcions resum (els hashs) i les connexions xifrades segures. I és en aquesta seguretat que trobem dos pols o vessants que van fluctuant segons la situació: la transparència i l’ofuscació. Els qui aposten per la transparència creuen que la seguretat ve de conèixer les entranyes del sistema per tal de confiar-hi plenament i poder-lo millorar de forma oberta. En canvi, els qui aposten per l’ofuscació creuen que la seguretat ve de dificultar el coneixement de les entranyes del sistema per tal de no facilitar-hi l’accés crític que pugui perjudicar-lo.

També hi ha un posicionament mixt que és el que practiquen grans companyies com Google, Apple, o en els últims anys Microsoft, que és publicar en obert bona part de les peces més crítiques i nuclears del sistema per tal d’assegurar-se una gran supervisió pública que els aporti millores. Però per l’altra mantenir ofuscades altres parts del sistema més auxiliars que no arriben a ser tan estables ni perdurables i que, per tant, no necessiten una supervisió profunda per tal de mantenir-les a llarg termini. És també la gran batalla que durant dècades han mantingut els defensors del codi lliure i els del codi privatiu, però ja ens hi esplaiarem en una altra ocasió.

En el nostre àmbit, el dels arxius i gestió documental, els algorismes ens afecten sobretot quan automatitzen sistemes de disposició de dades i d’informació que tenim recollida als dipòsits. És per això que la Unió Europea fa anys que treballa en l’elaboració d’un seguit d’exigències, perquè aquests algorismes de disposició i discriminació d’accés a la informació es facin públics. En principi no es pretén que siguin lliures i que qualsevol se n’aprofiti gratuïtament, sinó que es pugui conèixer el seu funcionament intern i determinar quins judicis previs, discriminacions i biaixos acaben aplicant. Tal com ja s’ha legislat en matèria d’accés a les dades personals que es recopilen en bases de dades de grans empreses. És per això que es va inaugurar també l’European Centre for Algorithmic Transparency (ECAT), a Sevilla el passat 18 d’abril, el qual hauria d’ajudar a interrogar-nos sobre l’ús que es fa dels algoritmes en els serveis digitals més coneguts, com Facebook, Instagram o TikTok, entre d’altres.

I aquí és on Twitter ha marcat una fita, ja que fins ara pensàvem que veure un algorisme seria conèixer una fórmula matemàtica, segurament més complexa que aquell PageRank de Google. Però no ha estat ben bé així. El que hem rebut per ara d’Elon Musk és tot un seguit de codi informàtic, que ens pretén indicar a través de diverses variables com s’ho fa Twitter per determinar quins tuits acaben apareixent a la nostra línia temporal de la xarxa social.

No tenim encara en obert tots els components que hi interactuen, però sí que tenim la recepta o les instruccions que els van relacionant. És per això, que a l’hora d’exigir transparència i obertura dels algorismes, ara sabem que haurem de fixar-nos bé que a més de fer públiques les instruccions, es facin públics els components. És aquesta la novetat, haver vist amb els nostres ulls que els algorismes ja no són una fórmula matemàtica que s’ha anat recaragolant al llarg d’actualitzacions, sinó que poden ser diversos elements relacionats.

Twitter System Diagram – the-algorithm/system-diagram.png at main · twitter/the-algorithm https://github.com/twitter/the-algorithm/blob/main/docs/system-diagram.png

De l’algoritme de Twitter se n’han escodrinyat molts detalls, però també s’han obert molts debats per arribar a esbrinar cap a quin sentit anaven algunes de les seves funcions. Per exemple en sabem que cada m’agrada a un tuit fa que aquest guanyi 30 vegades la seva visibilització, que cada retuit li fa guanyar 20 vegades la visibilització, i que, en canvi, cada resposta tan sols li fa guanyar 1 vegada de visibilització. Per tant, dóna més impacte aconseguir m’agrades, que no pas retuits o respostes.

També sabem que tant les imatges com els vídeos fan augmentar fins a 2 vegades els tuits, o que afegir enllaços web a un tuit pot perjudicar la seva visibilització en cas de no rebre interaccions, ja que s’interpretarà com a contingut brossa. Que silenciar o deixar de seguir penalitza, com també reportar per contingut brossa i denúncies per abús, tot i que encara no sabem si penalitza només a la persona que ho rep o afecta d’alguna manera positiva o negativa a l’usuari que ho fa arribar a Twitter. Que la desinformació fa baixar molt la visibilitat en cas que es detecti, però alhora que pagar per la subscripció a Twitter augmenta fins al doble la visibilitat.

Com ja sospitàvem després de l’aparició de nombrosos articles científics que ho analitzaven, les xarxes socials ens encasellen en bombolles o cambres d’eco, i l’algorisme de Twitter ho ha acabat de corroborar. Aquest encasellament l’anomenen SimClusters. Però és que ara a més sabem que quan interactuem amb aquesta gent que Twitter considera que són similars a nosaltres se’ns premia, i que, en canvi, se’ns penalitza quan en sortim.

Satuluri, Venu, Yao Wu, Xun Zheng, Yilei Qian, Brian Wichers, Qieyun Dai, Gui Ming Tang, Jerry Jiang, and Jimmy Lin. “Simclusters.” Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020. https://doi.org/10.1145/3394486.3403370

També s’han trobat curiositats com que escriure vocabulari desconegut i que Twitter no sap reconèixer en quin idioma és, també pot penalitzar. O que seguir a qui et segueix importa, però que seguir més gent de la que et segueix et perjudica.

Obrir un tuit i visualitzar-lo més de 2 minuts fa que aquest guanyi 22 vegades més visibilitat que tan sols donant-li a m’agrada. Que visualitzar un perfil afavoreix 24 vegades més que donar-li m’agrada a un tuit. També que la vida d’un tuit fins que s’enfonsa la seva visibilitat si no rep interaccions, és d’unes sis hores després de les quals perdrà la meitat del seu valor.

Acció de l’usuariRespostaValor
Donar a m’agrada a un tuitPositiva0.5
Fer retuit a un tuitPositiva1
Fer clic a un tuit i respondre o dir-li m’agrada a un tuit o romandre-hi més de 2 minutsPositiva11
Fer una ullada a un perfil i donar-li a m’agrada o respondre un tuitPositiva12
Respondre un tuitPositiva27
Respondre un tuit i provocar interacciones amb aquesta respostaPositiva75
Sol·licitar “mostra amb menys freqüència” a un tuit, bloquejar-lo o silenciar-loNegativa-74
Reportar un tuitNegativa-369

Tot plegat ha acabat revelant que aquella famosa valoració que Twitter feia de la nostra rellevància, però que no ens apareixia mai a les cerques a l’API, resulta que es diu TweepCred. I és aquest càlcul el que s’obté de seguir totes les instruccions de l’algorisme. Pel que ha explicat Twitter es van basar en el ja anomenat PageRank, però adaptant-lo a una xarxa social de microblogging. Els usuaris són tractats com a nodes i els vectors que els connecten són les interaccions entre ells (mencions, retuits, etcètera).

L’algorisme consta de dues etapes: preparació i iteració. En la preparació es construeix el gràfic dels usuaris i les seves interaccions, per tal d’iniciar la puntuació de cada usuari a un valor determinat, que s’anomenarà PreparePageRankData. I llavors la iteració implicaria calcular i actualitzar repetidament les puntuacions de cada usuari en el qual s’anomenaria UpdatePageRank, i que s’executa diverses vegades fins que van coincidint els processos amb els diversos usuaris.

Com veiem, un munt de curiositats sobre el tractament de Twitter a les nostres publicacions que fa que entenguem bastant més de com ens han tractat les xarxes socials i com han modelat el nostre comportament a Internet. Saber tot això no ens hauria de fer caure en el desànim sinó el contrari, ja que ara sabem al que ens atenem i no és rumorologia. Si el preu que havíem de pagar són les dades que s’han utilitzat per entrenar les intel·ligències artificials, ara sabem també que el sistema pel qual ens van convèncer per extreure’ns-les és aquest algorisme tan arbitrari.

Estic d’acord amb qui aquests dies argumenta que no ens podem permetre el luxe d’abandonar un espai de conversa i visibilitat simplement perquè hem descobert que les regles per participar-hi no eren del tot justes. No ens podem rendir al fet que decideixin per nosaltres què és el que rebrem i haurem de conèixer. Si l’algorisme falla i sabem com funciona l’algorisme, ara podem millorar-lo, i si no ens en sortim ja inventarem alguna eina nova que sí que sàpiga funcionar com volem. De fet, ja hi ha algunes propostes publicades a partir del que es coneix de l’algorisme com la de promocionar més els tuits que promoguin el programari lliure. També que Twitter sigui reescrit per complir amb l’estàndard ActivityHub i es pugui obrir i descentralitzar.

Però estiguem alerta, perquè també hi ha qui ha publicat com a proposta migrar els servidors de Twitter del sistema GNU/Linux a Windows Server, o pitjor encara Windows NT 3.51. O el que és més greu, dins de les novetats de l’era Musk com a propietari de Twitter, també estem rebent notícies sobre limitacions que s’estan imposant a l’accés de l’API i que dificulten la tasca de diverses eines d’investigació. Però aquest és un altre tema que també n’haurem de parlar en una altra ocasió, quan tinguem més clara la situació en la qual ens deixa Twitter respecte projectes com Twitter Academic.

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *