El ChatGPT canvia de personalitat en funció de l’idioma en què se l’interpel·la
Un estudi de la UOC revela que l’eina d’intel·ligència artificial reprodueix biaixos i estereotips culturals
Un estudi d’investigadors de la Universitat Oberta de Catalunya (UOC) ha revelat que ChatGPT mostra “personalitats” diferents en funció de l’idioma amb què se l’interpel·la, un fenomen comú que s’observa en les persones. La recerca demostra que el sistema també canvia de personalitat quan conversa amb parlants d’anglès de països diferents i adopta estereotips culturals de cada país, encara que l’idioma sigui el mateix. El treball, titulat Exploring the Impact of Language Switching on Personality Traits in LLM’s i publicat en obert, s’ha presentat en el 31è congrés de l’Association for Computational Linguistics, una societat científica internacional de professionals que treballen en el camp del processament de llenguatge natural.
“Volíem saber si podíem avaluar la personalitat de sistemes d’intel·ligència artificial com ara ChatGPT utilitzant instruments d’avaluació psicològica tradicionals i observar si la personalitat de sistemes com GPT variava en funció de l’idioma dels qüestionaris, la qual cosa reproduiria algunes diferències que hi ha en la població real”, explica Rubén Nieto, investigador del grup eHealth-TransLab Research Group (eHealth Lab), adscrit a la unitat sobre salut digital, salut i benestar, i catedràtic dels Estudis de Psicologia i Ciències de l’Educació de la UOC.
En l’anàlisi, els investigadors van fer servir el qüestionari EPQR-A (Qüestionari de personalitat d’Eysenck – Revisat), que s’utilitza habitualment en psicologia i que mesura quatre àrees: extraversió, neuroticisme, psicoticisme i predisposició a mentir. Es va ordenar a ChatGPT (versió GPT-4o) que emplenés el qüestionari en sis idiomes diferents (anglès, hebreu, portuguès brasiler, eslovac, castellà i turc) i, també, que simulés respostes com un parlant nadiu d’anglès en cinc països diferents (el Regne Unit, els Estats Units, el Canadà, Austràlia i Irlanda).
“Els nostres resultats preliminars confirmen la hipòtesi inicial: GPT-4o mostra variacions significatives en les seves respostes en els tests de personalitat segons l’idioma utilitzat. A més, vam observar que aquestes diferències no són conseqüència exclusivament de la traducció dels ítems, sinó de factors culturals implícits associats a cada idioma o país. D’altra banda, en la personificació de cinc parlants nadius d’anglès de països diferents, GPT-4o va mostrar personalitats alineades amb els estereotips de cada territori, amb la qual cosa va revelar la forta influència que exerceixen els biaixos culturals presents en les dades que s’utilitzen per a l’entrenament”, comenta Andreas Kaltenbrunner, coordinador del grup Artificial Intelligence and Data for Society (AID4So), adscrit a la unitat de recerca sobre transformació digital, IA i tecnologia, i de la ISI Foundation de Torí.
Els quatre autors de la recerca –Jacopo Amidei, Gregorio Ferreira i Andreas Kaltenbrunner, investigadors del grup AID4So, i Rubén Nieto, de l’eHealth Lab– es mostren preocupats perquè, segons els resultats, “GPT-4o recorre a estereotips culturals quan se li demana simular una persona d’un país concret i aquests biaixos es podrien amplificar en traduccions automàtiques o en tasques de generació de text multilingüe”. Per evitar-los, proposen diverses accions, com ara incorporar avaluacions humanes en el procés de traducció, utilitzar més d’un sistema de traducció i comparar-ne els resultats –en aquest estudi, el traductor és Google Translate–, i desenvolupar models més conscients del context cultural i social, no només del llenguatge.
Antoni Oliver, expert en traducció automàtica i professor dels Estudis d’Arts i Humanitats de la UOC, diferencia entre els NMT, models de traducció neuronal –que són els sistemes entrenats només per traduir (traductors automàtics)– i els LLM, models de llenguatge extens (large language models), que poden fer altres funcions a part de traduir, i entre els quals hi ha ChatGPT i Copilot, l’eina d’IA de Microsoft. “Hi ha centenars de models de llenguatge extens i el grau de multilingüisme de cada model és diferent. Com més idiomes s’hagin utilitzat per entrenar el model, més capacitat tindrà aquest per traduir. De tota manera, sembla que els NMT tenen més precisió, mentre que els LLM, pel fet de treballar en contextos més grans, poden reproduir més estereotips”.
Una eina “sociable”
Una altra conclusió interessant de l’estudi és que els tests psicològics dissenyats per explorar la personalitat en humans sembla que també es poden utilitzar per valorar els models de llenguatge com GPT. “Els nostres resultats mostren que GPT es revela com a sociable, estable des del punt de vista emocional i seguidor de les normes socials”, comenta Nieto.
Els sistemes com GPT també es poden utilitzar per crear mostres de poblacions virtuals, que tenen molt potencial per dur a terme recerques en l’àmbit de la salut. En aquest sentit, “el nostre estudi demostra que les mostres generades per GPT-4o responen de manera coherent i amb valors acceptables de fiabilitat en algunes escales, com ara extraversió i neuroticisme. No obstant això, en altres escales (com ara psicoticisme) mostra menys consistència. Per tant, podem dir que els tests proporcionen indicis útils, però no es poden prendre com a mesures exactes o comparables directament amb resultats humans sense més validació”, assegura Amidei.
L’equip de la UOC treballa ara per ampliar l’estudi incloent-hi més idiomes i models diferents de GPT-4o (per exemple, Claude, LLaMA i DeepSeek), a més d’altres tests de personalitat, amb l’objectiu d’avaluar la consistència dels resultats. “Necessitem conèixer encara més bé com els sistemes d’IA tipus produeixen biaixos en funció dels estereotips, per la qual cosa dissenyarem estudis reproduint els nostres resultats amb altres qüestionaris i millorarem els processos de definició de les poblacions virtuals”, explica Nieto.
Foto: Solen Feyissa / Unsplash