2.4. Bots y voces (IA doméstica)
Hasta ahora hemos hablado en términos muy generales de dos estilos de interacción basada en la conversación. En el caso del instructing, hemos visto un ejemplo muy claro de sistema basado en este estilo. Pero cuando hablamos de conversar, ¿de qué estamos hablando? Sin entrar en productos concretos, podemos hablar de dos ejemplos que ejemplifican muy bien este estilo y que son bastante diferentes.
Hablamos de los bots y de los asistentes de voz o IA domésticas.
Los bots son sistemas que simulan tener una conversación con el usuario. Son sistemas donde las respuestas tienen que ser muy acotadas y concretas para que el sistema las entienda y, por lo tanto, el usuario no puede usar un lenguaje natural. Una de las representaciones más populares de los bots son los chatbots, programas que, además de simular una conversación con el usuario, a menudo realizan acciones a partir de las instrucciones que el usuario le facilita.
Uno de los casos más curiosos es Tay, el chatbot conversacional de inteligencia artificial creado por Microsoft para Twitter. Este enviaba tuits en respuesta a lo que los usuarios de la plataforma le escribían, y aprendía en consecuencia. Esto provocó que, en menos de 24 horas, Microsoft cerrara la cuenta, puesto que después de unas horas aprendiendo Tay acabó enviando tuits difamatorios, sexuales y de extrema derecha.
A pesar de que en términos generales hablamos de bots y chatbots indistintamente, habría que matizar los términos. Bot es la palabra genérica usada para referirnos a una herramienta diseñada para completar tareas específicas a partir de unas instrucciones. Chatbot es un tipo de bot concreto creado para interactuar de manera conversacional con los usuarios. En este apartado, y para simplificar los términos, usaremos las dos palabras de manera intercambiable para referirnos a sistemas conversacionales.
Pero estos últimos años hemos visto un gran incremento en la presencia de asistentes de voz o IA domésticas en nuestras vidas cotidianas. Estos sistemas se basan en el reconocimiento de voz y en la interpretación del lenguaje natural para responder y actuar a partir de las peticiones de los usuarios.
En estos sistemas, el usuario puede usar un lenguaje más abierto y menos acotado para dirigirse al sistema y, gracias a los componentes de IA que incluyen, aprenden a lo largo del tiempo para mejorar la comprensión.
Pero en vez de quedarnos con esta primera capa que diferencia un sistema de otro, pensemos en cómo nosotros interactuamos con estos sistemas. Hemos hablado de instructing y conversing, así como de cuestiones de género que influyen en nuestra interacción. ¿Cambia nuestro lenguaje? ¿Nos dirigimos a un bot del mismo modo que nos dirigimos a un amigo?
En nuestro día a día usamos un lenguaje natural que cambia cuando nos dirigimos a un sistema. Y a pesar de que esta tecnología está muy desarrollada y ha mejorado en los últimos años, todavía encontramos una distancia obvia que hace que adaptemos nuestra manera de hablar a lo que creemos que el sistema entenderá.
Un paralelismo muy bueno es pensar en qué tipo de palabras usáis cuando utilizáis un buscador en línea. Quizá hace unos años, para buscar si había algún restaurante abierto cerca de vosotros, hubierais escrito «restaurante abierto cerca» en Google. Este lenguaje ha ido evolucionando a medida que la tecnología avanzaba, y ahora quizá podemos escribir construcciones más complejas, como por ejemplo «¿hay algún restaurante abierto a menos de 5 minutos?».
Este lenguaje no solo ha evolucionado cuando usamos un buscador, sino que cuando usamos Alexa o cualquier otra IA doméstica podemos utilizar construcciones más complejas, donde ciertos aspectos se sobreentienden. Por ejemplo, podríamos decir una frase como «¿Qué tiempo hará hoy en Barcelona?», o bien «Alexa, tiempo en Barcelona», o bien «Alexa, ¿tengo que coger el paraguas?». En esta última frase hay información que se sobreentiende, como por ejemplo que coger un paraguas implica lluvia, o que el sistema ya conozca tu localización o que por el tiempo verbal que usáis entienda que os referís a hoy y no a la semana que viene.
Como hemos visto al principio, la conversación es un acto muy natural y, aun así, lo hemos tenido que aprender de nuevo cuando lo aplicamos a sistemas. Y a pesar de que estos sistemas están diseñados para que la conversación sea natural, como usuarios hay barreras que no nos lo permiten del todo.
Estas barreras pueden ser idiomáticas, puesto que no todas las lenguas están representadas. Sin ir más lejos, ninguno de los principales sistemas de IA doméstica incluye ninguno de los idiomas cooficiales del Estado español en su lista de idiomas disponibles. Esto hace que los catalanes, vascos o gallegos puedan sentir que hay una distancia con estos dispositivos porque tienen que cambiar de idioma para usarlos. La razón detrás de esto es evidente. En un país donde hay una lengua mayoritaria, se presupone que todo el mundo la hablará y, por lo tanto, los idiomas cooficiales pasan a segundo término.
Esto sucede en muchos países donde idiomas como el inglés o el castellano son la lengua principal y, por lo tanto, los idiomas propios del país no aparecen como disponibles en estos sistemas de IA. Por ejemplo, ningún sistema incluye las lenguas propias de países sudamericanos, como el quechua o el guaraní. A pesar de no ser lenguas muy extensas en número de hablantes, sus hablantes nativos pueden sentir una barrera idiomática para dirigirse al altavoz si lo tienen que hacer en castellano.
En esta misma línea, es muy difícil usar dobles sentidos e ironía con estos sistemas, puesto que no entienden lo que va más allá de lo literal. Puede que no nos demos cuenta, pero usamos expresiones y frases hechas continuamente, y el hecho de modificar y adaptar nuestra manera de hablar puede provocar que nos limitemos a dar instrucciones y que mantener una conversación natural sea casi imposible.
Haced un pequeño experimento: la próxima vez que uséis un asistente de voz o veáis a alguien usándolo, fijaos bien en el lenguaje que se utiliza. ¿Intentáis mantener una conversación como haríais con otra persona? ¿U os limitáis a dar instrucciones?
Si observáis a alguien usando el sistema, fijaos también en su comportamiento: ¿va subiendo el tono para que el sistema lo entienda? ¿Se altera de alguna manera? ¿La persona se vuelve más agresiva o cariñosa cuando habla con el sistema?
Ser conscientes de estos matices os hará daros cuenta de todo lo que implica la interacción con asistentes de voz y bots y, por lo tanto, os hará más hábiles y flexibles a la hora de diseñar vuestro propio sistema de interacción por voz.