Les videoconferències s’adapten a la llengua de signes

Google crea un sistema per detectar qui té la paraula en una trucada

La pandèmia del coronavirus ha traslladat bona part de les comunicacions socials i professionals a les pantalles i a les diverses aplicacions de videoconferències que  hi ha al mercat. Per facilitar la comunicació, la major part de programes permeten que els usuaris vegin, de forma destacada, el participant en la conversa que està parlant en aquell moment, gràcies al sistema de detecció de veu, un sistema que no serveix per als qui es comuniquen en llengua de signes.

Per resoldre aquest problema, un grup d’investigadors de Google han presentat un sistema anomenat PoseNet que calcula la posició i el moviment de diferents parts del cos de manera que és capaç d’identificar qui té la paraula en una conversa en llengua de signes. El model, presentat en el congrés virtual ECCV 20, encerta qui és la persona que signa en aquell moment en el 80% dels casos, un percentatge que s’eleva fins al 91,5% si s’hi afegeix una eina complementària.

El programa utilitza una font d’àudio virtual per generar un to de 20 kilohertzs, imperceptible a l’oïda humana, però que sí que reconeixen els sistemes d’àudio dels ordinadors, que identifiquen, d’aquesta manera, qui té la paraula com si fos algú que parlés en veu alta. El procés es fa en temps real i no afecta la qualitat de la trucada.

El sistema està disponible en codi obert a la plataforma GitHub perquè tothom el pugui fer servir per aplicar-lo a les aplicacions de videconferència.

Deixa un comentari

L'adreça electrònica no es publicarà.