Para que el lenguaje natural sea una forma eficaz de comunicación. Las partes involucradas deben poder comprender la terminología y su contexto. Se supone que la mayor parte del contenido compartido es honesto y digno de confianza. Razone sobre la información compartida y luego aplíquela a situaciones del mundo real. Los estudiantes de doctorado del MIT que realizan prácticas en el MIT-IBM Watson AI Lab (Athul Paul Jacob SM ’22, Maohao Shen SM ’23, Victor Butoi y Andi Peng SM ’23) están trabajando para atacar cada paso de este proceso integrado en el lenguaje. Modelos para hacer que los sistemas de IA sean más confiables y precisos para los usuarios
Para lograr este objetivo, la investigación de Jacob va al corazón de los modelos de lenguaje natural existentes para mejorar los resultados utilizando la teoría de juegos. Sus intereses, afirmó, son dos. “Una cosa es entender cómo se comportan los humanos. Utiliza la lente de los sistemas multiagente y la comprensión del lenguaje. Y lo segundo es ‘¿Cómo se puede utilizar eso como información para crear un mejor sistema de IA?’”. Su trabajo se origina en el juego de mesa “Diplomacy”, para el cual su equipo de investigación ha desarrollado un sistema que puede aprender y predecir el comportamiento humano. y negociar estratégicamente para lograr los resultados deseados y más apropiados.
“Este es un juego en el que hay que generar confianza. Debes comunicarte usando el lenguaje. Tienes que jugar con otros seis jugadores al mismo tiempo. Esto es diferente de todos los tipos de tareas con las que la gente se ha enfrentado en el pasado», dijo Jacob, refiriéndose a otros juegos como el póquer y el GO que los investigadores han aplicado a las redes neuronales. «Al hacer eso Hay muchos desafíos de investigación. Uno es «¿Cómo se modela un ser humano?» ¿Cómo se sabe cuándo es probable que los humanos actúen de manera irracional?’” Jacob y sus consultores de investigación incluido el profesor asociado Jacob Andreas y el profesor asistente Gabriele Farina del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y MIT-IBM Watson, Yikang Shen del Laboratorio de IA abordó el problema de crear un nuevo lenguaje como un juego de dos jugadores. juego.
El equipo de Jacob desarrolló un sistema de lenguaje natural para generar respuestas a preguntas utilizando modelos. Luego, el «generador» y el «discriminador» observan la respuesta y determinan si es correcta o no. Si es así, el sistema de IA recibe un punto. En caso contrario no se otorgarán puntos. Los modelos de lenguaje son notoriamente propensos a sufrir alucinaciones. hacerlo menos confiable Este algoritmo de aprendizaje sin complejos colabora con modelos de lenguaje natural y promueve que las respuestas del sistema sean más realistas y confiables. Si bien mantiene la solución cerca del modelo de lenguaje previamente entrenado, Jacob dijo que usar esta técnica con un modelo de lenguaje más pequeño podría potencialmente competir con el mismo rendimiento de un modelo muchas veces más grande.
Cuando el modelo de lenguaje produce resultados Los investigadores también quieren asegurarse de que las construcciones sean coherentes con su precisión. Pero muchas veces éste no es el caso. Pueden ocurrir alucinaciones con modelos que reportan alta confianza a pesar de Eso debería ser en un nivel bajo, Maohao Shen y su grupo. Junto con el asesor Gregory Wornell, profesor de ingeniería Sumitomo en EECS y los investigadores del laboratorio de investigación de IBM Subhro Das, Prasanna Sattigeri y Soumya Ghosh, buscan abordar este problema con el proyecto Uncertainty Quantification (UQ). Nuestro objetivo es calibrar modelos de lenguaje. cuando hay calibraciones de mala calidad», dijo Shen. Específicamente, están analizando problemas de clasificación. Para ello, Shen permite que el modelo de lenguaje genere texto libre. Luego, esto se convierte en una tarea de clasificación de opción múltiple. Por ejemplo, podrían pedirle al modelo que resuelva un problema matemático. Luego pregunta si la respuesta es correcta o no como una respuesta de «sí, no o tal vez», lo que ayuda a determinar si el modelo tiene exceso o falta de confianza.
El equipo ha desarrollado una técnica que perfecciona los resultados de confianza con modelos de lenguaje previamente entrenados. Los investigadores entrenaron un modelo aumentado utilizando datos reales para permitir que el sistema corrija el modelo de lenguaje. “Si su modelo confía demasiado en sus predicciones, Podemos detectarlo y perder confianza. y viceversa», explica Shen. El equipo evaluó su técnica en varios conjuntos de datos de referencia populares. Para demostrar qué tan bien se pueden generalizar las tareas invisibles para ajustar la precisión y la confianza de las predicciones del modelo de lenguaje, “Después del entrenamiento, puede conectar y utilizar esta técnica en nuevas tareas. sin ninguna supervisión», dijo Shen. «Lo único que necesita es información para el nuevo trabajo».
Victor Butoi también mejoró las habilidades del modelo. En cambio, su equipo de laboratorio incluye a John Guttag, profesor Dugald C. Jackson de Ciencias de la Computación e Ingeniería Eléctrica en EECS, los investigadores de laboratorio Leonid Karlinsky y Rogerio Feris de IBM Research; Y los afiliados del laboratorio Hilde Kühne de la Universidad de Bonn y Wei Lin de la Universidad Tecnológica de Graz están creando técnicas para permitir que los modelos del lenguaje visual razonen sobre lo que ven. Y estamos diseñando sugerencias para desbloquear nuevas habilidades de aprendizaje. y comprender frases clave.
El razonamiento elemental es sólo otro aspecto del proceso de toma de decisiones que pedimos a los modelos de aprendizaje automático que realicen para que sean útiles en situaciones del mundo real, explica Butoi: «Hay que poder pensar en los problemas en términos de elementos y editarlos». subtareas», dijo Butoi. «Por ejemplo, si dices que la silla está a la izquierda de la persona, Hay que recordar tanto la silla como la persona. Tienes que entender la dirección”. Y una vez que el modelo entendió “se fue”, el equipo de investigación quiso que el modelo pudiera responder otras preguntas. relacionado con «izquierda»
Sorprendentemente, los modelos de lenguaje visual no razonan muy bien sobre la composición, explica Butoi, pero pueden ayudar utilizando modelos que puedan «traer testigos», por así decirlo. El equipo desarrolló el modelo sintonizado utilizando una técnica llamada adaptación de modelo de lenguaje grande de bajo nivel (LoRA) y lo entrenó en un conjunto de datos anotado llamado Visual Genome, que contiene objetos en las imágenes y sus hijos. Una flecha representa una relación, como dirección. En este caso, el modelo LoRA entrenado recibe instrucciones de decir algo sobre la relación «izquierda», y este resultado de título se utiliza para proporcionar contexto e informar al modelo. El lenguaje de visión hace que el trabajo sea «mucho más fácil», dijo Butoi.
En el mundo de la robótica, los sistemas de inteligencia artificial también interactúan con su entorno mediante la visión y el lenguaje por computadora. Los entornos pueden variar desde almacenes hasta hogares. Andi Peng y el asesor HN Slater, profesor de Aeronáutica y Astronáutica del MIT, Julie Shah y Chuang Gan del laboratorio y de la Universidad de Massachusetts en Amherst, se están centrando en ayudar a las personas con limitaciones físicas utilizando la tecnología virtual. mundo Para ello, el grupo de Peng está desarrollando dos tipos de modelos de IA: “humanos” que buscan apoyo y agentes asistentes. En un entorno de simulación llamado ThreeDWorld, se centra en la interacción entre humanos y robots. El equipo aprovechó los conceptos semánticos capturados por modelos de lenguaje a gran escala para ayudar a los asistentes de IA a inferir habilidades que los operadores «humanos» podrían no ser capaces de realizar. y la motivación detrás de las acciones «humanas» utilizando lenguaje natural. El equipo busca fortalecer la toma de decisiones en consecuencia. Comunicación bidireccional Capacidad para comprender eventos físicos. Y la mejor manera de involucrarse
“Mucha gente piensa que los programas de IA deberían automatizarse. Pero creo que una parte importante de este proceso es que creamos robots y sistemas para humanos. Y queremos transmitir conocimiento humano», dijo Peng. «No queremos que el sistema haga nada extraño. Queremos que lo hagan de una manera humana que podamos entender”.