2.4. Bots i veus (IA domèstica)
Fins ara hem parlat en termes molt generals de dos estils d’interacció basada en la conversa. En el cas de l’instructing, hem vist un exemple molt clar de sistema basat en aquest estil. Però quan parlem de conversar, de què estem parlant? Sense entrar en productes concrets, podem parlar de dos exemples que exemplifiquen molt bé aquest estil i que són bastant diferents.
Parlem dels bots i dels assistents de veu o IA domèstiques.
Els bots són sistemes que simulen tenir una conversa amb l’usuari. Són sistemes on les respostes han de ser molt acotades i concretes per tal que el sistema les entengui i, per tant, l’usuari no pot fer servir un llenguatge natural. Una de les representacions més populars dels bots són els chatbots, programes que a més de simular una conversa amb l’usuari, sovint realitzen accions a partir de les instruccions que l’usuari li facilita.
Un dels casos més curiosos és Tay, el chatbot conversacional d’intel·ligència artificial creat per Microsoft per a Twitter. Aquest enviava tuits en resposta al que els usuaris de la plataforma li escrivien, i aprenia en conseqüència. Això va provocar que, en menys de 24 hores, Microsoft en tanqués el compte, ja que després d’unes hores aprenent, Tay va acabar enviant tuits difamatoris, sexuals i d’extrema dreta.
Tot i que en termes generals parlem de bots i chatbots indistintament, caldria matisar els termes. Bot és el mot genèric usat per referir-nos a una eina dissenyada per completar tasques específiques a partir d’unes instruccions. Chatbot és un tipus de bot concret creat per interactuar de manera conversacional amb els usuaris. En aquest apartat, i per simplificar els termes, farem servir els dos mots de manera intercanviable per referir-nos a sistemes conversacionals.
Però aquests els últims anys hem vist un gran increment en la presència d’assistents de veu o IA domèstiques en les nostres vides quotidianes. Aquests sistemes es basen en el reconeixement de veu i en la interpretació del llenguatge natural per respondre i actuar en base a les peticions dels usuaris.
En aquests sistemes, l’usuari pot fer servir un llenguatge més obert i menys acotat per dirigir-se al sistema, i gràcies als components de IA que inclouen, aprenen al llarg del temps per millorar la comprensió.
Però enlloc de quedar-nos amb aquesta primera capa que diferencia un sistema d’un altre, pensem com nosaltres interactuem amb aquests sistemes. Hem parlat d’instructing i conversing, així com de qüestions de gènere que influeixen en la nostra interacció. Canvia el nostre llenguatge? Ens dirigim a un bot de la mateixa manera que ens dirigim a un amic?
En el nostre dia a dia fem servir un llenguatge natural que canvia quan ens adrecem a un sistema. I tot i que aquesta tecnologia està molt desenvolupada i ha millorat en els últims anys, encara hi trobem una distància òbvia que fa que adaptem la nostra manera de parlar al que creiem que el sistema entendrà.
Un paral·lelisme molt bo és pensar en quin tipus de paraules fas servir quan utilitzes un cercador en línia. Potser fa uns anys, per buscar si hi havia algun restaurant obert a prop teu, haguessis escrit «restaurant obert a prop» a Google. Aquest llenguatge ha anat evolucionant a mesura que la tecnologia avançava, i ara potser podem escriure construccions més complexes com ara «hi ha algun restaurant obert a menys de 5 minuts?».
Aquest llenguatge no només ha evolucionat quan fem servir un cercador, sinó que quan fem servir Alexa o qualsevol altre IA domèstica podem utilitzar construccions més complexes, on certs aspectes se sobreentenen. Per exemple, podríem dir una frase com «Quin temps farà avui a Barcelona?» , o bé «Alexa, temps a Barcelona», o bé «Alexa, he d’agafar el paraigua?». En aquesta última frase hi ha informació que se sobreentén, com ara que agafar un paraigua implica pluja, o que el sistema ja conegui la teva localització o que pel temps verbal que fas servir entengui que et refereixes a avui i no a la setmana que ve.
Com hem vist al principi, la conversa és un acte molt natural i, tot i així, l’hem hagut d’aprendre de nou quan l’apliquem a sistemes. I tot i que aquests sistemes estan dissenyats per què la conversa sigui natural, com a usuaris hi ha barreres que no ens ho permeten del tot.
Aquestes barreres poden ser idiomàtiques, ja que no totes les llengües hi estan representades. Sense anar més lluny, cap dels principals sistemes de IA domèstica inclou cap dels idiomes cooficials de l’Estat espanyol a la seva llista d’idiomes disponibles. Això fa que els catalans, bascos o gallecs puguin sentir que hi ha una distància amb aquests dispositius perquè han de canviar d’idioma per usar-los. La raó darrere d’això és evident. En un país on hi ha una llengua majoritària, es pressuposa que tothom la parlarà i, per tant, els idiomes cooficials passen a segon terme.
Això passa en molts països on idiomes com l’anglès o el castellà són la llengua principal i, per tant, els idiomes propis del país no apareixen disponibles en aquests sistemes d’IA. Per exemple, cap sistema inclou les llengües pròpies de països sud-americans, com el quechua o el guaraní. Tot i no ser llengües molt extenses en nombre de parlants, els que en són parlants nadius poden sentir una barrera idiomàtica per dirigir-se a l’altaveu, si ho han de fer en castellà.
En aquesta mateixa línia, és molt difícil fer servir dobles sentits i ironia amb aquests sistemes, ja que no entenen allò que va més enllà del literal. Pot ser que no ens n’adonem, però fem servir expressions i frases fetes contínuament, i el fet de modificar i adaptar la nostra manera de parlar pot provocar que ens limitem a donar instruccions i que mantenir una conversa natural sigui gairebé impossible.
Feu un petit experiment: la propera vegada que feu servir un assistent de veu o veieu algú altre fent-lo servir, fixeu-vos bé en el llenguatge que s’utilitza. Intenteu mantenir una conversa com faríeu amb una altra persona? O us limiteu a donar instruccions?
Si observeu algú altre usant el sistema, fixeu-vos també en el seu comportament: va pujant el to per tal que el sistema l’entengui? S’altera d’alguna manera? La persona es torna més agressiva o afectuosa quan parla amb el sistema?
Ser conscients d’aquests matisos us farà adonar de tot el que implica la interacció amb assistents de veu i bots i, per tant, us farà més hàbils i flexibles a l’hora de dissenyar el vostre propi sistema d’interacció per veu.