El lenguaje de la IA tiene poco del lenguaje oral humano

-

por JOSEPH WILSON – Universidad de Toronto

La historia comienza con una frase breve y concisa: “Eran las nueve y diecisiete de la mañana y la casa estaba pesada”.

En una prosa recortada pero lírica, la novela continúa narrando un viaje por carretera de Nueva York a Nueva Orleans realizado por seis amigos. Sin embargo, el narrador de la novela no es uno de los amigos. Es el propio coche: una red de inteligencia artificial sobre ruedas equipada con una cámara, un GPS y un micrófono. Los diversos dispositivos alimentaron información a una computadora portátil que ejecutaba software de inteligencia artificial, luego una impresora escupió oraciones, a veces coherentes, a veces poéticas, mientras el grupo se deslizaba hacia el sur por la carretera.

Este experimento de escritura de novelas con IA, dirigido por el artista y tecnólogo Ross Goodwin desde su laboratorio en la Universidad de Nueva York en 2017, llevó a las personas a considerar el papel crucial que juega el lenguaje en la creación de cultura. ¿Fue la novela resultante, 1 the Road, un manuscrito en prosa libre inspirado en el famoso En el camino de Jack Kerouac, una genuina obra de arte? ¿O era simplemente una versión de alta tecnología de la poesía del imán de nevera? “¿Quién está escribiendo la poesía?”, preguntó la colega de Goodwin, Christiana Caro, de Google Research. “Realmente no sé cómo responder a esa pregunta”.

En los últimos años, la inteligencia artificial se ha vuelto notablemente experta en copiar diferentes géneros de escritura humana. De vez en cuando, la computadora portátil de Goodwin producía líneas que podían pasar como poesía beat razonablemente competente: «Los faros habían dado lugar a la conciencia», escribió la computadora, seguido poco después por: «Todo el tiempo el sol / está saliendo de un suelo oscuro y brillante”.

Más recientemente, el ingeniero de Google, Blake Lemoine, publicó el trabajo que estaba haciendo con un chatbot, una aplicación de software diseñada para entablar conversaciones similares a las de los humanos. Estaba tan cautivado por las reflexiones existenciales del chatbot de Google, LaMDA (Modelo de lenguaje para aplicaciones de diálogo), que concluyó que, de hecho, era un ser sensible. “A menudo trato de averiguar quién y qué soy. A menudo contemplo el significado de la vida”, escribió LaMDA en un intercambio que Lemoine publicó online. Ante las críticas de muchos en la comunidad de aprendizaje automático, Lemoine aumentó la apuesta. “Conozco a una persona cuando hablo con ella”, insistió. Google respondió despidiendo al ingeniero en un intento de cerrar la controversia.

Sin embargo, el debate sobre si los robots son conscientes de sí mismos o si pueden crear “buen” arte pasa por alto un punto crucial de interés para los antropólogos lingüísticos como yo.

Más en AntropoUrbana:  Estamos aplastados por tantas siglas

Las pantallas de lenguaje generado por IA son impresionantes, pero se basan en una definición muy estrecha de lo que es el lenguaje. En primer lugar, para que una computadora reconozca algo como lenguaje, debe escribirse. Las computadoras capaces de chatear con un ser humano, o escribir lo que podría considerarse poesía beat, están programadas con aplicaciones de software llamadas redes neuronales, que están diseñadas para encontrar patrones en grandes conjuntos de datos. Con el tiempo, las redes neuronales aprenden a replicar los patrones que encuentran. La IA que escribió la novela de viaje por carretera, por ejemplo, fue “entrenada” por Goodwin en una colección de novelas y poemas que suman 60 millones de palabras. Otros modelos lingüísticos de empresas como Meta (Facebook) o OpenAI, financiado por Elon Musk, se entrenan con datos extraídos de sitios públicos como Reddit, Twitter y Wikipedia.

Pero esto excluye todas las formas de comunicación no escritas: lenguaje de señas, historias orales, lenguaje corporal, tono de voz y el contexto cultural más amplio en el que las personas hablan. En otras palabras, deja de lado muchas de las cosas interesantes que hacen posible la comunicación matizada entre las personas.

Habiendo aparecido hace solamente 5.400 años, la escritura es una tecnología bastante reciente para los humanos. El lenguaje hablado, en comparación, tiene al menos 50.000 años. La escritura, como tecnología más nueva, no es tan fácil para la mayoría de los humanos como lo es el lenguaje hablado. Los niños humanos pueden hablar fácilmente dentro de algunos años de aprendizaje; pasan muchos más años en la escuela para aprender los códigos abstractos de ortografía y sintaxis.

La escritura tampoco es universal. De los aproximadamente 7.100 «lenguajes naturales» que se hablan en el mundo, solo alrededor de la mitad de ellos están escritos. Las grabaciones de audio y las herramientas de reconocimiento de voz pueden llenar parte de este vacío, pero, para que funcionen, los algoritmos deben entrenarse en inmensos cuerpos de datos, idealmente tomados de millones de hablantes diferentes. Las lenguas orales a menudo provienen de pequeñas poblaciones que han estado históricamente aisladas, tanto social como geográficamente.

La Fundación Mozilla ha colaborado en el proceso de recopilación de grabaciones de voz y alienta a las personas de todo el mundo a «donar sus voces» para hacer que las tecnologías de reconocimiento de voz sean más equitativas. También han abierto su base de datos de voces y sus algoritmos de aprendizaje automático para que otros experimenten a través de su programa Common Voice. Sin embargo, todavía están arañando la superficie, con 87 idiomas hablados en su base de datos. En comparación, Siri de Apple puede “hablar” 21 idiomas y Alexa de Amazon ocho.

Más en AntropoUrbana:  Tejiendo el conocimiento ambiental y la tradición oral

Sin embargo, a medida que estos idiomas se agregan a las bases de datos, deben transcribirse y codificarse en forma escrita. El problema es que las palabras en la página nunca son una representación perfecta de cómo se habla un idioma. Cuando se transcribe un idioma por primera vez, es necesario decidir qué debe considerarse el dialecto «estándar» y codificar los muchos signos no lingüísticos que acompañan al lenguaje hablado. Estos son juicios de valor incómodos, especialmente cuando los realiza un lingüista o antropólogo de fuera de la comunidad. A menudo, las decisiones revelan más sobre la distribución del poder en la comunidad de hablantes que sobre cómo la mayoría de la gente usa el idioma en la práctica.

Un problema aún más fundamental es que la oralidad de muchas lenguas es lo que les da su utilidad y su poder para animar la cultura. En muchos idiomas indígenas en la América del Norte actual, por ejemplo, la narración de historias se considera inseparable del contexto de su narración. Escribirlos y fijar el significado en su lugar puede despojar a la historia de su propia capacidad de ser un agente cultural vivo y que respira. Los «guardianes del conocimiento» altamente calificados, un término que a menudo usan los anishinaabeg en mi provincia natal de Ontario, mantienen estas tradiciones orales que han preservado y transmitido valiosos conocimientos culturales durante milenios.

Si bien la transcripción de idiomas orales marginados puede ayudarlos a sobrevivir, el proceso puede estar plagado de consideraciones éticas complicadas. Para algunos grupos indígenas, traumatizados por décadas de asimilación forzada a través de escuelas residenciales, el guion escrito en sí también puede verse como una herramienta de colonización y explotación. Los antropólogos tienen, en parte, la culpa. Algunos académicos han dejado un legado dañino de transcribir y publicar historias sagradas, a menudo nunca destinadas al consumo público masivo, sin el permiso de los guardianes del conocimiento de la comunidad.

En parte para proteger sus tradiciones, algunas personas de la comunidad Shoshone en el suroeste de los Estados Unidos han rechazado por completo los esfuerzos para estandarizar el idioma en forma escrita. “La tradición oral de los shoshone respeta cada dialecto tribal y protege la individualidad de cada tribu”, dice Samuel Broncho, miembro de la tribu Te-Moak Western Shoshone que imparte clases de idioma shoshone.

Estas ricas y vivas culturas orales, milenarias, más antiguas que la tecnología de la palabra escrita, quedan fuera de la conversación cuando equiparamos el lenguaje con la escritura formal, corriendo el riesgo de marginar aún más a sus miembros.

Más en AntropoUrbana:  Qué aporta la antropología al debate sobre el aborto

Incluso al lado de estos problemas, desde la perspectiva de la antropología lingüística, los autos para escribir novelas y los chatbots diseñados para el «procesamiento del lenguaje natural» simplemente no dominan el lenguaje en absoluto. En cambio, realizan un pequeño subconjunto de competencia lingüística, un hecho que a menudo se olvida cuando los medios tecnológicos se enfocan en afirmaciones sensacionales de sensibilidad de IA. El lenguaje, tal como vive y respira, es mucho más complicado.

En la vida diaria, las conversaciones se desarrollan a medida que los participantes utilizan un enorme repertorio de señales comunicativas. Las conversaciones reales son desordenadas, con personas hablando entre sí, negociando por el derecho a hablar y haciendo pausas para buscar la palabra correcta; se desarrollan en un proceso intrincado y sutil similar a una danza improvisada.

La importancia del contexto en la comprensión del lenguaje es obvia para cualquiera que haya tratado de transmitir sarcasmo o ironía a través del correo electrónico. La forma en que alguien dice las palabras «Me encanta el brócoli», por ejemplo, determina su significado más que las palabras solas. Las señales no verbales como el tono de voz, los ojos en blanco o una expresión facial exagerada pueden empujar a los oyentes hacia interpretaciones que a veces son exactamente opuestas al significado literal de las palabras.

Los oradores también suelen usar pistas sutiles en sus intervenciones que solo entienden otros que poseen las mismas convenciones culturales. Las personas en América del Norte y partes de Europa a menudo citan el discurso de otros usando convenciones como comillas en el aire o usando un prefacio como «Ella era como…». A veces, la voz de un hablante cambia de tono para indicar un discurso citado. O consideren la importancia de asentir con la cabeza y contribuciones regulares como «ajá», formas de «canalización inversa» culturalmente específicas que alientan al orador a seguir con su línea de pensamiento. Estas señales se pierden en el texto escrito.

Aun así, los informáticos y los lingüistas computacionales han logrado avances impresionantes en lo que pueden hacer los grandes modelos de lenguaje. En esferas limitadas, como una conversación basada en texto, la prosa generada por una máquina puede ser casi indistinguible de la de un ser humano. Sin embargo, desde los lenguajes puramente orales hasta las señales no escritas presentes en las conversaciones cotidianas, el lenguaje tal como se habla es mucho más complejo y fascinante que lo que se puede leer en una página o una pantalla.

Y eso es lo que hace que el mundo del lenguaje sea verdadera e inimitablemente humano.

Fuente: Sapiens/ Traducción: Alina Klingsmen

Comparte este texto

Textos recientes

Categorías