La IA propaga errades del català per la influència de l’entrenament en castellà

Un estudi de la UPF alerta de l’impacte dels biaixos de la intel·ligència artificial en les llengües amb menys volum de contingut escrit en mitjans digitals

Un estudi de la Universitat Pompeu Fabra (UPF) adverteix que algunes de les eines de la intel·ligència artificial (IA) generativa més populars estan contribuint a propagar formes no normatives del català i que la influència del castellà en el seu model d’entrenament n’és una de les principals causes. L’estudi explica que els models lingüístics d’aquestes eines d’IA generatives són esbiaixats, ja que afavoreixen l’ús de les estructures gramaticals i del lèxic de les llengües amb més parlants, com l’anglès i l’espanyol, que han constituït la base del seu entrenament. Fins ara, diversos estudis havien constatat la seva preferència per les estructures en anglès, però aquesta recerca de la UPF ha estat pionera a demostrar que també hi ha un biaix cap al castellà.

Les conclusions de l’estudi s’exposen en un article publicat en llengua catalana a la revista Linguamática. L’investigador principal de l’estudi és Thomas Brochhagen, del grup de recerca Computational Linguistics and Linguistic Theory (COLT) del Departament de Traducció i Ciències del Llenguatge de la UPF, que ha elaborat l’article juntament amb Mireia Almena Rodríguez, també vinculada a COLT.

Per la investigadora Mireia Almena (UPF), “aquests models d’IA no només reprodueixen el llenguatge, sinó que també influencien la seva evolució i poden tenir un impacte molt més gran en llengües com el català, amb menys volum de contingut escrit en mitjans digitals, que sobre d’altres idiomes amb més parlants i capacitat de producció de textos com l’anglès, l’espanyol o el xinès”.

Els investigadors han analitzat sis models tecnològics -Models de Llenguatge Extensos o LLMs per les seves sigles en anglès-, similars als que fan servir algunes de les eines d’IA generativa més conegudes com ChatGPT o Gemini. Quatre d’aquests models eren multilingües i dos monolingües especialitzats en català. Cal tenir en compte que, fins i tot els models monolingües han estat entrenats en altres llengües, ja sigui en etapes inicials del seu desenvolupament, o bé de manera no intencionada perquè no s’han pogut depurar adequadament les bases de dades que fonamenten el seu aprenentatge.

Errors en les preposicions

Concretament, s’han examinat les preferències d’aquests sis models cap a formes normatives i no normatives del català a partir d’un corpus d’avaluació de 160 oracions, corresponents a vuit estructures gramaticals diferents, que solen plantejar dubtes pel que fa a l’ús de la preposició adequada. Algunes d’aquestes oracions poden donar peu a usos no normatius del català per influència del castellà, com ara l’ús o no de preposició davant d’objecte directe (OD). Per norma general, en castellà es fa servir preposició davant de l’OD (com a la frase “he visto al profesor”). En canvi, en català, la norma general és no fer-ne servir (seguint l’exemple anterior, la frase equivalent en català seria “He vist el professor). D’altres de les oracions examinades poden suscitar formes no normatives del català per altres factors aliens al castellà. Per exemple, es podria utilitzar incorrectament la preposició “de” en lloc de “a” en l’oració següent: “No soc gens propens a enfadar-me per bajanades”. Però, si algú fes servir “propens d’enfadar-me”, no seria per influència del castellà, ja que la preposició correcta seria igualment “a” en aquesta llengua (“propenso a”).

Els resultats mostren que els models multilingües, corresponents a les eines d’IA generatives més populars són els que utilitzen més formes no normatives del català per influència del castellà.  La probabilitat que es desviïn del català normatiu per aquest motiu és del 55% davant el 27% dels models monolingües. En canvi, si s’examina la probabilitat mitjana de fer un ús no normatiu en català per altres motius, els resultats de models monolingües i plurilingües són similars i, en ambdós casos, se situen a l’entorn del 4%.

“Els resultats de la recerca mostren la importància de verificar les preferències lingüístiques dels models de llenguatge, especialment en llengües minoritàries, per tal de tenir aquesta discussió de manera informada; per elaborar polítiques lingüístiques que tinguin en compte l’impacte de les noves tecnologies; i per actuar en conseqüència”, alerta el professor de la UPF Thomas Brochhagen.

Foto: Unsplash

Comparteix:

Subscriviu-vos-hi Dona'ns suport a l'Aixeta