La generación del lenguaje es Lo más candente en IA Ahora, se utiliza un tipo de sistema llamado “Large Language Model” (o LLM) para aprender de Mejorar el motor de búsqueda de Google llegar Crea juegos de fantasía basados ​​en textoPero estos procedimientos también tienen serios problemas, que incluyen rumiar el sexismo y el lenguaje racista, y fallar en las pruebas de razonamiento lógico. La gran pregunta es: ¿Se pueden mejorar estas debilidades simplemente agregando más datos y potencia de cómputo, o hemos llegado a los límites de este paradigma tecnológico?

Este es uno de los temas que el laboratorio de inteligencia artificial de Alphabet, DeepMind, abordará en tres artículos de investigación. Publicado hoyLa empresa concluyó que una mayor expansión de estos sistemas debería conducir a muchas mejoras. “Un hallazgo clave del artículo es que el progreso y las capacidades de los grandes modelos de lenguaje siguen aumentando. Este no es un campo estancado”, dijo a los periodistas el científico investigador de DeepMind, Jack Rae, en una sesión informativa.

DeepMind proporciona regularmente su trabajo a los productos de Google y crea un Modelo de lenguaje con 280 mil millones de parámetros El nombre es Gover.Los parámetros son una medida rápida del tamaño y la complejidad de un modelo de lenguaje, lo que significa que Gopher es mayor que GPT-3 de OpenAI (175 mil millones de parámetros) pero no tan grande como algunos sistemas más experimentales, como Microsoft y Nvidia Modelo Megatron (530 mil millones de parámetros).

En el mundo de la IA, cuanto más grande es mejor, lo que suele ser correcto, y los modelos más grandes suelen ofrecer un mayor rendimiento. La investigación de DeepMind confirma esta tendencia y muestra que en los puntos de referencia más comunes (como el análisis de sentimiento y el resumen), expandir LLM puede mejorar el rendimiento. Sin embargo, los investigadores también advirtieron que algunos de los problemas inherentes a los modelos de lenguaje requieren más que datos y cálculos para resolverlos.

READ  Hiroshi Lockheimer compartió capturas de pantalla que pueden provenir de Pixel 6 Pro

Rae dijo: “Creo que ahora parece que el modelo falla de muchas maneras”. “Algunos subconjuntos de estos métodos se deben a que el modelo no tiene una comprensión suficientemente buena de lo que lee. Creo que para estas categorías solo vea las mejoras de rendimiento que se obtienen gracias a más datos y escala “.

Sin embargo, agregó que existen “otro tipo de problemas, como los modelos que perpetúan los sesgos estereotipados o los modelos que son engañados para proporcionar una verdad falsa. […] Nadie en DeepMind cree que la escala será la solución [to]. Señaló que en estos casos, el modelo de lenguaje requerirá “procedimientos de capacitación adicionales”, como la retroalimentación de los usuarios humanos.

Para llegar a estas conclusiones, los investigadores de DeepMind evaluaron una serie de modelos de lenguaje de diferentes tamaños en 152 tareas de lenguaje o puntos de referencia. Descubrieron que los modelos más grandes generalmente brindan mejores resultados, y la propia Gopher proporciona el rendimiento más avanzado en aproximadamente el 80% de las pruebas seleccionadas por los científicos.

En otro documento, la empresa también Investigó una amplia gama de peligros potenciales Participa en el despliegue del Máster en Derecho. Estos incluyen el uso de lenguaje tóxico por parte del sistema, la capacidad de compartir información incorrecta y la posibilidad de que se utilice con fines maliciosos, como compartir spam o propaganda. A medida que los modelos de lenguaje de IA se implementen más ampliamente, todos estos problemas serán cada vez más importantes, como los bots de chat y los agentes de ventas.

READ  Google parece estar comenzando a actualizar sus principales aplicaciones de iOS

Sin embargo, vale la pena recordar que el rendimiento de la evaluación comparativa no es el objetivo final y completo de la evaluación de los sistemas de aprendizaje automático.en un Artículos recientesAlgunos investigadores de inteligencia artificial (incluidos dos de Google) exploraron las limitaciones de las pruebas comparativas y señalaron que el alcance de estos conjuntos de datos siempre es limitado y no puede igualar la complejidad del mundo real. Al igual que con las nuevas tecnologías, la única forma confiable de probar estos sistemas es ver cómo funcionan en la realidad. Para modelos de lenguaje grande, pronto veremos más aplicaciones de este tipo.