
por RUTVIK DESAI – Universidad de Carolina del Sur
Los sistemas de inteligencia artificial generativa, como los grandes modelos de lenguaje y los generadores de texto a imagen, pueden aprobar los rigurosos exámenes que se exigen a cualquiera que quiera convertirse en médico o abogado. Pueden desempeñarse mejor que la mayoría de las personas en las Olimpiadas de Matemáticas. Pueden escribir poesía medianamente decente, generar pinturas estéticamente agradables y componer música original.
Estas notables capacidades pueden hacer parecer que los sistemas de inteligencia artificial generativa están preparados para asumir trabajos humanos y tener un gran impacto en casi todos los aspectos de la sociedad. Sin embargo, si bien la calidad de su producción a veces rivaliza con el trabajo realizado por humanos, también son propensos a producir con confianza información factualmente incorrecta. Los escépticos también ponen en duda su capacidad de razonar.
Se crearon grandes modelos de lenguaje para imitar el lenguaje y el pensamiento humanos, pero están lejos de ser humanos. Desde la infancia, los seres humanos aprenden a través de innumerables experiencias sensoriales e interacciones con el mundo que los rodea. Los grandes modelos de lenguaje no aprenden como lo hacen los humanos, sino que se entrenan con grandes cantidades de datos, la mayoría de los cuales se extraen de Internet.
Las capacidades de estos modelos son impresionantes y hay agentes de IA que pueden asistir a reuniones por ti, hacer compras por ti o manejar reclamos de seguros. Pero antes de entregarle las llaves a un gran modelo de lenguaje para cualquier tarea importante, es importante evaluar cómo su comprensión del mundo se compara con la de los humanos.
Soy un investigador que estudia el lenguaje y el significado. Mi grupo de investigación desarrolló un nuevo punto de referencia que puede ayudar a las personas a comprender las limitaciones de los grandes modelos de lenguaje para comprender el significado.
Dar sentido a combinaciones de palabras simples
Entonces, ¿qué «tiene sentido» para los grandes modelos de lenguaje? Nuestra prueba implica juzgar el significado de frases de dos palabras con sustantivo-sustantivo. Para la mayoría de las personas que hablan inglés con fluidez, los pares de palabras sustantivo-sustantivo como «pelota de playa» y «pastel de manzana» tienen significado, pero «pelota de playa» y «pastel de manzana» no tienen un significado comúnmente entendido. Las razones de esto no tienen nada que ver con la gramática. Estas son frases que las personas han aprendido y comúnmente aceptan como significativas, al hablar e interactuar entre sí a lo largo del tiempo.
Queríamos ver si un modelo de lenguaje grande tenía el mismo sentido del significado de las combinaciones de palabras, así que construimos una prueba que medía esta capacidad, usando pares sustantivo-sustantivo para los cuales las reglas gramaticales serían inútiles para determinar si una frase tenía un significado reconocible. Por ejemplo, un par adjetivo-sustantivo como “pelota roja” tiene significado, mientras que al revés, “roja pelota”, se obtiene una combinación de palabras sin sentido.
El punto de referencia no pregunta al modelo de lenguaje grande qué significan las palabras. Más bien, prueba la capacidad del modelo de lenguaje grande para extraer el significado de pares de palabras, sin depender de la muleta de la lógica gramatical simple. La prueba no evalúa una respuesta correcta objetiva per se, sino que juzga si los modelos de lenguaje grande tienen un sentido de significado similar al de las personas.
Usamos una colección de 1789 pares sustantivo-sustantivo que habían sido evaluados previamente por evaluadores humanos en una escala de 1, no tiene sentido en absoluto, a 5, tiene sentido completo. Eliminamos los pares con calificaciones intermedias para que hubiera una separación clara entre pares con niveles altos y bajos de significancia.
Luego, pedimos a los modelos de lenguaje grandes de última generación que calificaran estos pares de palabras de la misma manera que se les había pedido a los participantes humanos del estudio anterior que los calificaran, utilizando instrucciones idénticas. Los modelos de lenguaje grandes tuvieron un desempeño deficiente. Por ejemplo, los humanos calificaron la palabra “manzana con pastel” como de baja significancia, con una calificación promedio de alrededor de 1 en una escala de 0 a 4. Pero todos los modelos de lenguaje grandes la calificaron como más significativa de lo que lo haría el 95% de los humanos, calificándola entre 2 y 4. La diferencia no fue tan amplia para frases significativas como “trineo de perros”, aunque también hubo casos en los que un modelo de lenguaje grande le dio a estas frases calificaciones más bajas que el 95% de los humanos.
Para ayudar a los modelos de lenguaje grandes, agregamos más ejemplos a las instrucciones para ver si se beneficiarían de un contexto con un par de palabras altamente significativo frente a uno sin significado. Si bien su desempeño mejoró ligeramente, todavía fue mucho peor que el de los humanos. Para facilitar aún más la tarea, pedimos a los modelos de lenguaje grandes que hicieran un juicio binario (decir sí o no a si la frase tiene sentido) en lugar de calificar el nivel de significación en una escala de 0 a 4. En este caso, el rendimiento mejoró: GPT-4 y Claude 3 Opus obtuvieron mejores resultados que otros, pero aún estaban muy por debajo del rendimiento humano.
Creativos hasta el extremo
Los resultados sugieren que los modelos lingüísticos de gran tamaño no tienen la misma capacidad de dar sentido a las cosas que los seres humanos. Vale la pena señalar que nuestra prueba se basa en una tarea subjetiva, donde el estándar de oro son las calificaciones dadas por las personas. No hay una respuesta objetivamente correcta, a diferencia de los puntos de referencia típicos de evaluación de modelos lingüísticos de gran tamaño que implican razonamiento, planificación o generación de código.
El bajo rendimiento se debió en gran medida al hecho de que los modelos lingüísticos de gran tamaño tendían a sobrestimar el grado en que un par sustantivo-sustantivo calificaba como significativo. Daban sentido a cosas que no deberían tener mucho sentido. En cierto modo, los modelos estaban siendo demasiado creativos. Una posible explicación es que los pares de palabras de bajo significado podrían tener sentido en algún contexto. Una playa cubierta de pelotas podría llamarse «playa de pelotas». Pero no hay un uso común de esta combinación sustantivo-sustantivo entre los hablantes de inglés.
Si los modelos lingüísticos de gran tamaño van a reemplazar parcial o totalmente a los humanos en algunas tareas, necesitarán desarrollarse más para que puedan mejorar su capacidad de dar sentido al mundo, en mayor sintonía con las formas en que lo hacen los humanos. Cuando las cosas no están claras, son confusas o simplemente no tienen sentido (ya sea por un error o un ataque malicioso), es importante que los modelos lo señalen en lugar de intentar darle sentido a casi todo de forma creativa.
Si un agente de IA que responde automáticamente a los correos electrónicos recibe un mensaje destinado a otro usuario por error, una respuesta adecuada puede ser «Lo siento, esto no tiene sentido», en lugar de una interpretación creativa. Si alguien en una reunión hizo comentarios incomprensibles, queremos que un agente que asistió a la reunión diga que los comentarios no tenían sentido. El agente debería decir «Esto parece estar hablando de un reclamo de seguro diferente» en lugar de simplemente «reclamo denegado» si los detalles de un reclamo no tienen sentido.
En otras palabras, es más importante que un agente de IA tenga un sentido similar del significado y se comporte como lo haría un humano cuando no está seguro, en lugar de proporcionar siempre interpretaciones creativas.
Fuente: The Conversation/ Traducción: Maggie Tarlo