Arxius i Intel·ligència Artificial: repte, amenaça, o tota una altra cosa? El projecte InterPARES Trust AI

27 abril, 2022 - Lluís-Esteve Casellas i Serra. Ajuntament de Girona

Un nou projecte InterPARES de la University of British Columbia (Vancouver Canadà)

Archivos e Inteligencia Artificial: ¿reto, amenaza, o más que eso? El proyecto InterPARES Trust AI (versió en castellà)

Portem ja uns anys sentint a parlar de tecnologies disruptives i, malgrat tot, és difícil no pensar que és una simple troballa terminològica per no tornar a fer servir mai més l’avorrit “noves tecnologies”, sens dubte tot un èxit comercial si tenim en compte que ha sobreviscut durant pràcticament 30 anys… Ara bé, seria interessant saber què disrompen abans d’anar fent sonar els esquellots amunt i avall amb la cançoneta perquè, sincerament, no teniu la sensació de no haver acabat de digerir tot allò bo que ens havia de portar blockchain? I a on estem? Doncs en la dura realitat, que no vol dir altra cosa que sí, hi ha experiències i iniciatives molt interessants, però ni és aplicable a tot arreu ni en tots els casos és viable encara que sigui aplicable. Podríem trobar altres exemples? I tant, però avui no tocarem allò de les dades i si es gestionen o es governen. No, avui, no.

Doncs comencem bé si ja posem en crisi la disrupció en relació amb la Intel·ligència Artificial (IA), no? Depèn. Potser convé recordar que el concepte IA neix el 1956 de la mà de John McCarthy, a la Dartmouth Workshop. Poca broma que va durar entre 6 i 8 setmanes, això sí que són “congressos”! És a dir, nou, nou… no ho és. Però per què ara som a la cresta de l’onada en això? Senzillament, perquè ara hi ha ginys capaços de generar milions de dades (per exemple, amb la Internet de les Coses, però no només), maquinari prou potent per a gestionar-les i tecnologia suficientment avançada per a poder-les explotar sense gairebé intervenció humana, un cop la cosa rutlla, està clar. Cal afegir, però, que “la cresta de l’onada” ha estat una llicència de qui escriu… perquè ni som a la cresta ni és una simple onada. Estem al principi d’alguna cosa més. Per tenir una referència, avui (25 d’abril de 2022): les cerques a Google de archive / archives retorna poc més de 5.000 milions de resultats cadascuna. Artificial Intelligence, poc més de 3.500 milions, Machine Learning i Deep Learning més de 2.600 milions. Bé, no es tracta d’una competició, però posa de relleu una tendència exponencial i una realitat concreta.

Fa pocs mesos, a Archivamos (ACAL, 122), hi publicava un text que incorporava el següent:

Altres exemples recents d’aplicació de la tecnologia són la reconstrucció de tres quadres de Gustave Klimt destruïts pels nazis (Leopold Museum, Àustria), el Dalí virtual i interactiu del Museu Dalí de Saint Petersburg (Florida, Estats Units), el projecte de lectura i transcripció de més de 3.000 cartes tancades i sense entregar conservades en un bagul del segle XVI, del Museu Postal de la Haia (Països Baixos), o dels més de 1.800 rotlles fossilitzats de la Vil·la dels Papirs, a Herculà (Itàlia). Per no esmentar el presentador virtual a imatge i semblança de Zhang Zhao, de l’agència xinesa Xinhua News, que emet directament notícies elaborades mitjançant Intel·ligència Artificial les 24 hores dels 365 dies de l’any. Però no es tracta només de grans projectes, també hi ha solucions pensades per al simple usuari. Per exemple, en uns segons, @Colorize_bot (Twitter), pinta fotografies i vídeos, i l’aplicació Cleanup.pictures permet eliminar persones d’una fotografia.

El component ètic resulta més que evident, i el posicionament dels arxius requereix l’anticipació necessària per a un plantejament metodològic comú que va més enllà de l’acoloriment semiautomàtic, la identificació i la transcripció de veu o reconeixement facial o d’objectes, entre d’altres. Algunes activitats fins ara específicament arxivístiques ja són una realitat, com ara la transcripció automàtica de documents manuscrits (Projecte Carabela, Universitat Politècnica de València i Centre d’Arqueologia Subaquàtica de l’Institut Andalús del Patrimoni Històric), o la creació automàtica d’instruments de descripció (Illinois Library , The Cybernetics Thought Collective, Digital Surrogates).

Repte, amenaça o oportunitat? Crec que aporta poc discutir sobre això, perquè les posicions solen caure en tòpics i del que es tracta és d’avançar. L’aplicació de la IA és una realitat i, més enllà de temptacions luddites, el repte és entendre realment com funciona i, sobretot, quina pot ser la nostra aportació a unes tecnologies que s’escampen com una taca d’oli. Per això la referència que tot plegat és una altra cosa, perquè aquestes tecnologies s’aplicaran amb nosaltres o sense nosaltres i, posats a triar, sempre és preferible ser part de la solució (que ho som!).

L’aplicació de la Intel·ligència Artificial (IA), del Machine Learning (ML) o el Deep Learing (DL) topen amb dificultats que ens són molt properes, entre elles el context. Si a grans trets la IA és un conjunt de moltes coses, però que podríem definir com l’automatització intel·ligent de tasques, el ML va més enllà i és capaç de “llegir i interpretar” la informació expressada en diferents formes del llenguatge, principalment la imatge, el text i el so i, naturalment, fer-ho de manera combinada, en diversos idiomes i amb mecanismes d’autoaprenentatge a partir de sistemes d’anàlisi que permeten identificar patrons. Per la seva part, el DL és la combinació de totes aquestes tecnologies en sistemes complexos de computació (xarxes neuronals) per a l’elaboració de models de predicció i de presa de decisions automatitzades. Sí, això ho he explicat a molt a la brava, però hi ha prou recursos a la xarxa per a definicions més precises i aprofundir-ne progressivament el coneixement.

És evident que al món dels arxius cadascuna d’aquestes modalitats hi té una aplicació, o és que no hi ha tasques repetitives que es poden automatitzar? Pensem per exemple en el que suposa la transcripció automatitzada de la documentació manuscrita, amb un grau de confiança equivalent als OCR sobre documentació mecanoscrita, o la classificació automatitzada, o l’elaboració de recursos d’informació com catàlegs. Arxivística-ficció? De cap manera, i anirà a molt més en molt pocs anys. Amenaça? En absolut, ganes de participar-hi! Hem de tenir present que la major part de les actuacions arxivístiques tradicionals que hem realitzat en l’entorn paper són inabastables en l’actual món digital. Per exemple, com en revisarem la classificació o en millorarem la descripció i l’accés? Com assegurarem una correcta aplicació de l’avaluació en documentació digital generada en “entorns documentalment hostils”? Com garantirem l’accés en base a documents seleccionats i convenientment anonimitzats o pseudonimitzats? I això no és només sobre la documentació ja generada, sinó que també cal pensar en les solucions d’IA aplicades a la gestió de documents i la producció d’informació en els entorns de gestió.

El projecte InterPARES Trust Artificial Intelligence (2020-2025, I Trust AI, per a fer-ne via), dirigit per Luciana Duranti i Muhammad Abdul-Mageed (University of British Columbia, Vancouver, Canadà), està plantejat a l’avançada, com sempre, i també com sempre, en sentit propositiu i basat en el treball cooperatiu. És a dir, en com l’AI pot millorar la nostra feina en un sentit ampli: la creació, ús i gestió de documents, l’accés i la divulgació, l’avaluació de documents i la preservació a llarg termini. Alhora, però, també en com la metodologia i perspectiva arxivística pot ajudar la IA a ser més precisa, per exemple, en l’anàlisi del context.

Per què insisteixo en el context? Doncs perquè és un repte present en totes les iniciatives que s’estan treballant. Per exemple, podem identificar fàcilment dades personals per complexes que siguin, però com podem identificar informació referida a una persona fàcilment identificable (PII) i que per aquest motiu pot constituir informació sensible? 

Un altre exemple és la classificació automàtica, que es basa en l’anàlisi semàntica de paraules soltes, lligades o combinades. El resultat serà una aproximació temàtica. És evident que es pot refinar amb mecanismes de supervisió humana o semi supervisió, però la clau és identificar la funció, el verb de l’acció. D’aquí que l’avaluació sembli ara mateix una tasca impossible per a una màquina, però no tant si som capaços d’ensenyar-la. Aquesta fou una proposta d’estudi que vàrem plantejar a l’inici del projecte des de l’Ajuntament de Girona a partir de la metodologia desenvolupada en avaluació i que, precisament per ser just al principi, es va deixar per a més endavant. L’objectiu era aplicar la diplomàtica i estratègies d’anàlisi funcional per a identificar tipus de documents, les seves possibles combinacions i, finalment, les agregacions de documents que constitueixen expedients. La qüestió, gens menor, és com traspassar a un sistema intel·ligent el coneixement arxivístic per a identificar fàcilment un document o un expedient i el seu context.

Hi ha multitud d’exemples en què la IA detecta correctament objectes en imatges, per exemple, una ampolla, una ampolla d’aigua i no d’una altra cosa, i fins i tot, una ampolla d’aigua buida. Ara bé, si tenim un gran conjunt d’ampolles diverses, buides, plenes i mig plenes, una persona fàcilment distingirà entre un magatzem i el resultat d’una festa, o inclús el resultat d’una festa en un magatzem. Una màquina ho tindrà força complicat, perquè ha d’aprendre cadascuna de les variables que conformen l’ampolla, les seves característiques, disposició (no em refereixo al contenidor verd…) i contingut. A hores d’ara les màquines tenen problemes per a saber interpretar el context com ho fem els humans, de  la mateixa manera que en Data de Star Trek tenia dificultats en identificar el sentit de l’humor.

Per tant, hem de desgranar el coneixement arxivístic de manera que sigui comprensible i en aquest sentit cal tenir clar que les solucions d’IA (conjunt) sempre van orientades a problemes concrets, no són solucions màgiques. Podem fer el símil amb un robot de cuina. Sí, podem fer moltes coses, però sempre aplicant receptes concretes o a partir d’elements que se’n deriven. Com experts en cuina podríem pensar que si dominem els ingredients la qüestió és simplement donar les instruccions al personal d’enginyeria per a fer barreges, obtenir textures, controlar el temps… Però no n’hi ha prou amb controlar els ingredients i confiar el procés en la part mecànica, calen les receptes. Home, si n’hi ha un munt… Cert, però si una cosa necessiten les màquines és precisió i, és clar, la truita de patates… amb ceba o sense? Les patates remullades, bullides o fregides? I amb un punt de carabassó? La màquina ho pot fer tot, certament, però de l’elecció que fem caldrà dissenyar tot un seguit de controls específics i també un procés més ràpid o més lent de cocció.

En altres paraules, la Intel·ligència Artificial, el Machine Learning, i el Deep Learning també posen a prova la normalització de la metodologia arxivística i de la professió, és a dir, el biaix, conscient o no, de qui proporciona la recepta. A més, aquestes tecnologies requereixen bancs de proves per a poder ser entrenades, corregides i perfeccionades, i això per estrany que sembli no sempre és fàcil.

InterPARES pretén tractar aquestes qüestions i moltíssimes altres, per a intentar aportar una solució a cada problema, i que la suma de petites solucions constitueixi un corpus de referència per la professió arxivística, però també per als col·lectius professionals vinculats a la tecnologia, l’enginyeria, la lingüística, el món del dret i, en definitiva, a totes les persones que treballen en contextos on sigui susceptible implementar solucions d’Intel·ligència Artificial. Per tant, gairebé tots d’una manera o l’altra, i en conseqüència no és ni un repte ni una amenaça, sinó tota una altra cosa. Hi hem de ser perquè és inevitable, perquè tenim molt a aportar i, sobretot i entre moltes altres coses, perquè ens facilitarà portar a terme una revolució en l’accés i la divulgació del patrimoni documental com mai fins ara hem tingut possibilitats de fer-ho.

De la mateixa manera que l’Ajuntament de Girona hi ha participat anteriorment i participa en l’actual projecte, també l’AAC-GD i l’ESAGED són presents en aquesta nova edició. Hi ha moltes maneres de participar-hi, col·laborar-hi i aprendre’n, i si una cosa constitueix l’ADN d’InterPARES és el seu caràcter obert, interdisciplinari i cooperatiu, perquè com ens recorden de tant en tant des de la direcció del projecte si vols anar ràpid, marxa sol, però si vols arribar més lluny, vés acompanyat. 

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *