37 Los engranajes de la IAG
Fabrizio Falchi y Manuel Gentile
La gran popularidad alcanzada en un corto período de tiempo por los recientes sistemas de diálogo en lenguaje natural (como ChatGPT, Bard y LLAMa2-chat), en su utilización de modelos de lenguaje extensos, ha llevado a la aparición de acalorados debates que aun abiertos en varios aspectos. Es indudablemente fascinante cuestionar cómo un sistema computacional, gobernado por ecuaciones matemáticas relativamente simples, es capaz de generar comportamiento que muchos llaman ‘inteligente’.
Sin embargo, este capítulo no intentará proporcionar respuestas a preguntas como, «¿Los modelos LLM tienen un comportamiento que podemos definir como inteligente?«, «¿Cuál es la verdadera naturaleza de la inteligencia humana?«, «¿Cómo podemos definir la creatividad?«. Aunque interesantes, para que estas preguntas sean respondidas correctamente, requerirían una investigación mucho más profunda.
En su lugar, intentaremos ofrecer una visión general accesible para los no expertos con el fin de fomentar la comprensión de los mecanismos subyacentes al funcionamiento de los modelos de lenguaje a gran escala. Solo a través de una mayor conciencia de estos mecanismos es posible entender su potencial así como los riesgos, y promover su uso correcto, especialmente en la educación.
Un concepto erróneo, muy extendido que necesita ser aclarado, es que tales sistemas son básicamente grandes bases de datos que consisten en pares de preguntas y respuestas. Esta falsedad deriva de las prácticas comunes, establecidas a lo largo de los años, para la construcción de sistemas de chatbot (le invitamos a leer el capítulo al respecto). Al mismo tiempo, esta idea no hace justicia al carácter generativo de LLM.
Los modelos de lenguaje son modelos estadísticos capaces de asignar una probabilidad de ocurrencia a una porción de texto (generalmente una palabra), en función de un contexto dado, que generalmente está definido por el conjunto de palabras que preceden a la palabra esperada.
Los modelos construidos usando un enfoque puramente estadístico (por ejemplo, cadenas de Markov, también llamados modelos n-gram) se han unido con el tiempo a modelos de lenguaje construidos a partir de redes neuronales1. Estos han evolucionado con respecto tanto a la estructura de las redes como al tamaño de dichas redes.
Los modelos de lenguaje extensos (LLM) se denominan así porque se basan en grandes redes neuronales entrenadas con enormes cantidades de datos.
Como resultado, comenzamos nuestra investigación con la afirmación de que los modelos de lenguaje generan textos en lugar de simplemente recuperarlos de una base de conocimientos preconstituida.
El aspecto generativo y su naturaleza esencialmente experto-intuitiva hacen difícil predecir cómo un sistema LLM podría responder a la entrada de un usuario. Esta característica refleja una desconfianza común hacia tales sistemas en relación con su capacidad potencial para generar texto falso o inexacto.
Por lo tanto, esta característica es tanto un gran logro tecnológico en términos de la capacidad de una máquina para entender y producir texto y, al mismo tiempo, uno de los principales peligros de tales tecnologías.
Sin embargo, intentemos descubrir tales sistemas.
Como cualquier revolución tecnológica, los factores detrás de este avance son muchos. En un ejercicio de simplificación, mencionamos los principales mientras ofrecemos al lector referencias que pueden guiarlo en un estudio más profundo:
- El tamaño de la red: esto se mide por el número de parámetros entrenables dentro de la red. Los modelos de lenguaje extensos son redes neuronales profundas, caracterizadas por un número asombroso de nodos y capas. Para dar un orden de magnitud, algunos expertos en el campo llaman a los modelos de lenguaje ‘grandes’ cuando se caracterizan por más de 10 mil millones de parámetros. Para darles una magnitud concreta, el modelo GPT3 tiene 150 mil millones de parámetros, mientras que la versión más grande de LLAMa v2 tiene alrededor de 70 mil millones;
- La arquitectura de la red: el éxito está garantizado por el tamaño de la red y también por cómo los nodos y las diferentes capas de la red neuronal están interconectados. Aquí nuevamente, con una simplificación, podemos identificar las redes transformadoras y los mecanismos de atención como las principales innovaciones arquitectónicas que ayudan a entender la efectividad mejorada;
- La cantidad de datos disponibles para el entrenamiento: la disponibilidad sustancial de datos es sin duda un elemento esencial en el entrenamiento de los modelos, pero en realidad esto se ha establecido muchos años antes de la introducción de los modelos. Por tanto, el factor de innovación clave radica en las técnicas de entrenamiento, el proceso de selección y preparación que lleva de los datos al conjunto de entrenamiento. Esto se llama aprendizaje auto-supervisado;
- La potencia de cálculo actual: claramente, el aumento de la potencia de cálculo ha jugado un papel decisivo en permitir la escala de estas redes. La experiencia empírica parece mostrar que el factor de escala es precisamente uno de los parámetros esenciales para que emerjan estos comportamientos;
- Los mecanismos de ajuste: otro elemento, a menudo ignorado, son los mecanismos de ajuste que representan el último paso en el proceso de construcción de los modelos. En particular, nos referimos a los mecanismos de aprendizaje por refuerzo con retroalimentación humana y clasificación. Estos contribuyen a la definición del modelo y se utilizan para producir respuestas más en línea con la intención del usuario. A estos podríamos añadir los procesos de ajuste fino que permiten la especialización y mejora del comportamiento de tales redes en la ejecución de tareas específicas;
- Un pipeline de seguridad: junto al modelo de aprendizaje profundo, hay técnicas ad-hoc diseñadas para mitigar las fragilidades del sistema en entradas inseguras y para prevenir comportamientos no deseados tanto en entradas seguras como inseguras.
En este punto, conscientes de los diferentes factores que caracterizan a LLM, solo nos queda explorar el potencial de tales sistemas poniéndolos a prueba en nuestro contexto educativo. Así que, intenta hablar con ChatGPT o Bard para ayudar a crear nuevos ejercicios y adaptarlos a las necesidades específicas de nuestros estudiantes, crear nuevos planes de lección con contenido relacionado y mucho más. Depende de tu creatividad y de cómo aprendas a dialogar con tales sistemas.
Nota: cada uno de estos factores requeriría una elaboración particular. Para aquellos interesados, proporcionamos una lista de referencias.
-
Bengio, Y., Ducharme, R., & Vincent, P. (2000). A neural probabilistic language model. Advances in Neural Information Processing Systems, 13. https://papers.nips.cc/paper_files/paper/2000/file/728f206c2a01bf572b5940d7d9a8fa4c-Paper.pdf
-
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30. https://papers.nips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf