{"id":131,"date":"2024-02-28T21:41:47","date_gmt":"2024-02-28T21:41:47","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/chapter\/415\/"},"modified":"2025-06-25T17:51:37","modified_gmt":"2025-06-25T17:51:37","slug":"415","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/chapter\/415\/","title":{"raw":"Habla de IA: procesamiento del lenguaje natural","rendered":"Habla de IA: procesamiento del lenguaje natural"},"content":{"raw":"<p class=\"no-indent\">El procesamiento del lenguaje natural ha sido un tema sobre el cual la investigaci\u00f3n ha trabajado extensamente durante los \u00faltimos 50 a\u00f1os. Esto ha llevado al desarrollo de muchas herramientas que usamos todos los d\u00edas:<\/p>\r\n\r\n<ul>\r\n \t<li>Procesadores de texto<\/li>\r\n \t<li>Correcci\u00f3n autom\u00e1tica de gram\u00e1tica y ortograf\u00eda<\/li>\r\n \t<li>Completado autom\u00e1tico<\/li>\r\n \t<li><a href=\"https:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/chapter\/reconocimiento-optico-de-caracteres\/\" target=\"_blank\" rel=\"noopener\">Reconocimiento \u00f3ptico de caracteres (OCR)<\/a><\/li>\r\n<\/ul>\r\n<p class=\"no-indent\">M\u00e1s recientemente, los chatbots, asistentes dom\u00e9sticos y herramientas de traducci\u00f3n autom\u00e1tica han estado teniendo un enorme impacto en todas las \u00e1reas.<\/p>\r\n\r\n\r\n[caption id=\"attachment_414\" align=\"alignleft\" width=\"394\"]<img class=\" wp-image-414\" src=\"http:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/wp-content\/uploads\/sites\/20\/2024\/02\/ch5-page-3-sign-language-scaled-1.jpg\" alt=\"\" width=\"394\" height=\"263\" \/> \"Aprendiendo lenguaje de se\u00f1as\" por Daveynin. Licencia CC BY 2.0. <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.[\/caption]\r\n<p class=\"indent\">Durante mucho tiempo, la investigaci\u00f3n y la industria estuvieron estancadas por la complejidad intr\u00ednseca del lenguaje. Al final del siglo XX, las gram\u00e1ticas de un idioma, escritas por expertos, podr\u00edan tener hasta 50,000 reglas. Estos <strong>sistemas expertos<\/strong> demostraban que la tecnolog\u00eda podr\u00eda marcar una diferencia, pero las soluciones robustas eran demasiado complejas para ser desarrolladas.<\/p>\r\n<p class=\"indent\">Por otro lado, <strong>el reconocimiento de voz<\/strong> necesitaba poder hacer uso de datos ac\u00fasticos y transformarlos en texto. \u00a1Con la variedad de hablantes que uno podr\u00eda encontrar, una tarea realmente dif\u00edcil!<\/p>\r\n<p class=\"indent\">Los investigadores entendieron que si ten\u00edamos un modelo para el idioma deseado, las cosas ser\u00edan m\u00e1s f\u00e1ciles. Si conoci\u00e9ramos las palabras del idioma, c\u00f3mo se forman las oraciones, entonces ser\u00eda m\u00e1s f\u00e1cil encontrar la oraci\u00f3n correcta de un conjunto de candidatos para coincidir con una expresi\u00f3n dada, o para producir una traducci\u00f3n v\u00e1lida de un conjunto de posibles secuencias de palabras.<\/p>\r\n<p class=\"indent\">Otro aspecto crucial ha sido el de <strong>la sem\u00e1ntica<\/strong>. La mayor parte del trabajo que podemos hacer para resolver preguntas ling\u00fc\u00edsticas es superficial; los algoritmos producir\u00e1n una respuesta basada en algunas reglas sint\u00e1cticas locales. Si al final, el texto no significa nada, as\u00ed sea. Algo similar puede suceder cuando leemos un texto de algunos estudiantes: \u00a1podemos corregir los errores sin realmente entender de qu\u00e9 trata el texto! Un verdadero desaf\u00edo es asociar significado al texto y, cuando sea posible, a las oraciones pronunciadas.<\/p>\r\nhttps:\/\/youtu.be\/mANPrlfil3Q\r\n<p class=\"no-indent\">Hubo un resultado sorprendente en 2008<sup>1<\/sup>. Un \u00fanico <strong>modelo de lenguaje<\/strong> podr\u00eda aprenderse de una gran cantidad de datos y usarse para una variedad de tareas ling\u00fc\u00edsticas. De hecho, ese modelo \u00fanico funcion\u00f3 mejor que los modelos entrenados para tareas espec\u00edficas.<\/p>\r\n<p class=\"indent\">El modelo era una <a href=\"https:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/chapter\/deep-neural-networks\/\" target=\"_blank\" rel=\"noopener\">red neuronal profunda<\/a>. \u00a1Nada tan profundo como los modelos utilizados hoy en d\u00eda! Pero suficiente para convencer a la investigaci\u00f3n y la industria de que el AA, y m\u00e1s espec\u00edficamente el aprendizaje profundo, iba a ser la respuesta a muchas preguntas en PLN.<\/p>\r\n<p class=\"indent\">Desde entonces, el procesamiento del lenguaje natural ha dejado de seguir un enfoque basado en modelos y ha estado casi siempre basado en un enfoque basado en datos.<\/p>\r\n<p class=\"indent\">Tradicionalmente, las principales tareas ling\u00fc\u00edsticas se pueden descomponer en dos familias: aquellas que involucran la construcci\u00f3n de modelos y aquellas que involucran la decodificaci\u00f3n.<\/p>\r\n\r\n<h3 style=\"text-align: left\">Construcci\u00f3n de modelos<\/h3>\r\n<p class=\"no-indent\">Para transcribir, responder preguntas, generar di\u00e1logos o traducir, necesitas poder saber si \"Je parle Fran\u00e7ais\" es de hecho una oraci\u00f3n en franc\u00e9s. Y como con los idiomas hablados, las reglas de gram\u00e1tica no siempre se siguen con precisi\u00f3n, por lo que la respuesta tiene que ser probabil\u00edstica. Una oraci\u00f3n puede ser <em>m\u00e1s o menos<\/em> francesa. Esto permite al sistema producir diferentes oraciones candidatas (como la transcripci\u00f3n de un sonido, o la traducci\u00f3n de una oraci\u00f3n) y la probabilidad se da como una puntuaci\u00f3n asociada con cada candidato. Podemos tomar la oraci\u00f3n con la puntuaci\u00f3n m\u00e1s alta o combinar la puntuaci\u00f3n con otras fuentes de informaci\u00f3n (tambi\u00e9n podemos estar interesados en de qu\u00e9 trata la oraci\u00f3n).<\/p>\r\n<p class=\"indent\">Los modelos de lenguaje hacen esto, y las probabilidades se construyen a partir de algoritmos de AA. Y por supuesto, cuanto m\u00e1s datos haya, mejor. Para algunos idiomas hay muchos datos a partir de los cuales construir modelos de lenguaje. Para otros, este no es el caso; estos son idiomas con recursos insuficientes.<\/p>\r\n<p class=\"indent\">En el caso de la traducci\u00f3n, queremos no dos sino tres modelos: un modelo de lenguaje para cada idioma y otro modelo para las traducciones, inform\u00e1ndonos cu\u00e1les son las mejores traducciones de fragmentos de lenguaje. Estos son dif\u00edciles de producir cuando los datos son escasos. Si los modelos para pares de idiomas comunes son m\u00e1s f\u00e1ciles de construir, este no ser\u00e1 el caso para idiomas que no se hablan frecuentemente juntos (como el portugu\u00e9s y el esloveno). Una salida t\u00edpica de esto es usar un <em>idioma pivote<\/em> (t\u00edpicamente ingl\u00e9s) y traducir a trav\u00e9s de este idioma pivote: del portugu\u00e9s al ingl\u00e9s y luego del ingl\u00e9s al esloveno. Esto llevar\u00e1 a resultados inferiores ya que los errores se acumulan.<\/p>\r\n\r\n<h3 style=\"text-align: left\">Decodificaci\u00f3n<\/h3>\r\n<p class=\"no-indent\">La decodificaci\u00f3n es el proceso en el cual un algoritmo toma la secuencia de entrada (que puede ser se\u00f1al o texto) y, consultando los modelos, toma una decisi\u00f3n, que a menudo ser\u00e1 un texto de salida. Aqu\u00ed hay algunas consideraciones algor\u00edtmicas: en muchos casos, la transcripci\u00f3n y la traducci\u00f3n deben ocurrir en tiempo real y disminuir el retraso temporal es un tema clave. As\u00ed que hay espacio para mucha IA.<\/p>\r\n\r\n<h3 style=\"text-align: left\">De extremo a extremo<\/h3>\r\n<p class=\"no-indent\">Hoy en d\u00eda, el enfoque de construir estos componentes por separado y combinarlos m\u00e1s tarde ha sido reemplazado por <em>enfoques de extremo a extremo<\/em> en los cuales el sistema transcribir\u00e1\/traducir\u00e1\/interpretar\u00e1 la entrada a trav\u00e9s de un modelo \u00fanico. Actualmente, tales modelos son entrenados por redes neuronales profundas, que pueden ser enormes. \u00a1Se informa que el modelo GPT3 m\u00e1s grande actualmente comprende varios cientos de millones de par\u00e1metros!<\/p>\r\n\r\n\r\n[caption id=\"attachment_413\" align=\"alignleft\" width=\"357\"]<img class=\" wp-image-413\" src=\"http:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/wp-content\/uploads\/sites\/20\/2024\/02\/ch5-page-3-Autoencoder.png\" alt=\"\" width=\"357\" height=\"267\" \/> Chervinskii, Wikimedia Commons. Licencia CC BY-SA 4.0 <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.[\/caption]\r\n<p class=\"indent\">Intentemos entender la intuici\u00f3n detr\u00e1s de este proceso. Supongamos que tenemos algunos datos. Estos datos brutos pueden codificarse de alguna manera. Pero la codificaci\u00f3n puede ser redundante, e incluso costosa. Construyamos ahora una m\u00e1quina particular, llamada un auto-codificador (ver diagrama a la izquierda). Esta m\u00e1quina ser\u00e1 capaz de tomar un texto, comprimirlo en un peque\u00f1o vector (esta es la parte del codificador), y luego descomprimir el vector (la parte del decodificador) y devolver un texto que de alguna manera se acerque al texto original. La idea es que este mecanismo har\u00e1 que el vector intermedio sea significativo, con dos propiedades deseables: un vector razonablemente peque\u00f1o que 'contiene' la informaci\u00f3n en el texto inicial.<\/p>\r\n\r\n<h3 style=\"text-align: left\">El futuro<\/h3>\r\n<p class=\"no-indent\">Un ejemplo de un proceso de extremo a extremo que podr\u00eda estar disponible pronto ser\u00e1 la capacidad de realizar la siguiente tarea: te escuchar\u00e1 hablar tu idioma, transcribir\u00e1 tu texto, lo traducir\u00e1 a un idioma que no conoces, entrenar\u00e1 un sistema de s\u00edntesis de voz a tu voz, y har\u00e1 que tu propia voz hable el texto correspondiente en una nueva oraci\u00f3n. Aqu\u00ed hay dos ejemplos producidos por investigadores de la Universidad Polit\u00e9cnica de Valencia, Espa\u00f1a, en los que se utiliza el modelo de voz del propio hablante para hacer el doblaje.<\/p>\r\n[embed]https:\/\/www.youtube.com\/embed\/MIwBWUF334E[\/embed]\r\n\r\n[embed]https:\/\/www.youtube.com\/embed\/VBevQ77PQzw[\/embed]\r\n<h3 style=\"text-align: left\">Algunas consecuencias para la educaci\u00f3n<\/h3>\r\n<p class=\"no-indent\">El progreso constante del procesamiento del lenguaje natural es notable. Hace solo diez a\u00f1os nos re\u00edamos de las traducciones propuestas por la IA. Cada vez es m\u00e1s dif\u00edcil encontrar errores tan obvios hoy en d\u00eda. Las t\u00e9cnicas de reconocimiento de voz y de reconocimiento de caracteres tambi\u00e9n est\u00e1n mejorando r\u00e1pidamente.<\/p>\r\n<p class=\"indent\">Los desaf\u00edos sem\u00e1nticos todav\u00eda est\u00e1n ah\u00ed, y responder preguntas que requieren una comprensi\u00f3n profunda de un texto todav\u00eda no es del todo correcto. Pero las cosas van en la direcci\u00f3n correcta. Esto significa que el profesor deber\u00eda esperar que algunas de las siguientes afirmaciones sean ciertas pronto, \u00a1si es que ya no lo son!<\/p>\r\n\r\n<ul>\r\n \t<li>Un estudiante tomar\u00e1 un texto complejo y obtendr\u00e1 (con IA) una versi\u00f3n simplificada; el texto incluso puede ser personalizado y usar t\u00e9rminos, palabras y conceptos a los que el estudiante est\u00e9 acostumbrado;<\/li>\r\n \t<li>Un estudiante podr\u00e1 encontrar un texto, copiarlo y obtener un texto que diga las mismas cosas pero indetectable por una herramienta antiplagio;<\/li>\r\n \t<li>Los videos producidos en cualquier parte del mundo ser\u00e1n accesibles a trav\u00e9s de doblaje autom\u00e1tico en cualquier idioma. Esto significa que nuestros estudiantes estar\u00e1n expuestos a material de aprendizaje construido en nuestro idioma y tambi\u00e9n por material inicialmente dise\u00f1ado para otro sistema de aprendizaje en una cultura diferente;<\/li>\r\n \t<li>Escribir ensayos podr\u00eda convertirse en una tarea del pasado, ya que las herramientas permitir\u00e1n escribir sobre cualquier tema.<\/li>\r\n<\/ul>\r\n<p class=\"no-indent\">Est\u00e1 claro que la IA estar\u00e1 lejos de ser perfecta, y el experto detectar\u00e1 que incluso si el lenguaje es correcto, el flujo de ideas no lo ser\u00e1. Pero enfrent\u00e9moslo: durante el curso de la educaci\u00f3n, \u00bfcu\u00e1nto tiempo llevar\u00e1 que nuestros estudiantes alcancen ese nivel?<\/p>\r\n\r\n\r\n<hr \/>\r\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> <strong data-start=\"69\" data-end=\"100\">Collobert, R., &amp; Weston, J.<\/strong> (2008). A unified architecture for natural language processing: Deep neural networks with multitask learning. En <em data-start=\"214\" data-end=\"284\">Proceedings of the 25th International Conference on Machine Learning<\/em> (pp.\u202f160\u2013167). ACM. <a class=\"\" href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\" target=\"_new\" rel=\"noopener\" data-start=\"305\" data-end=\"363\">http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf<\/a><\/p>\r\n<p class=\"hanging-indent\" style=\"text-align: left\">Nota: esta referencia se da por razones hist\u00f3ricas. \u00a1Pero es dif\u00edcil de leer!<\/p>","rendered":"<p class=\"no-indent\">El procesamiento del lenguaje natural ha sido un tema sobre el cual la investigaci\u00f3n ha trabajado extensamente durante los \u00faltimos 50 a\u00f1os. Esto ha llevado al desarrollo de muchas herramientas que usamos todos los d\u00edas:<\/p>\n<ul>\n<li>Procesadores de texto<\/li>\n<li>Correcci\u00f3n autom\u00e1tica de gram\u00e1tica y ortograf\u00eda<\/li>\n<li>Completado autom\u00e1tico<\/li>\n<li><a href=\"https:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/chapter\/reconocimiento-optico-de-caracteres\/\" target=\"_blank\" rel=\"noopener\">Reconocimiento \u00f3ptico de caracteres (OCR)<\/a><\/li>\n<\/ul>\n<p class=\"no-indent\">M\u00e1s recientemente, los chatbots, asistentes dom\u00e9sticos y herramientas de traducci\u00f3n autom\u00e1tica han estado teniendo un enorme impacto en todas las \u00e1reas.<\/p>\n<figure id=\"attachment_414\" aria-describedby=\"caption-attachment-414\" style=\"width: 394px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-414\" src=\"http:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/wp-content\/uploads\/sites\/20\/2024\/02\/ch5-page-3-sign-language-scaled-1.jpg\" alt=\"\" width=\"394\" height=\"263\" \/><figcaption id=\"caption-attachment-414\" class=\"wp-caption-text\">\u00abAprendiendo lenguaje de se\u00f1as\u00bb por Daveynin. Licencia CC BY 2.0. <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.<\/figcaption><\/figure>\n<p class=\"indent\">Durante mucho tiempo, la investigaci\u00f3n y la industria estuvieron estancadas por la complejidad intr\u00ednseca del lenguaje. Al final del siglo XX, las gram\u00e1ticas de un idioma, escritas por expertos, podr\u00edan tener hasta 50,000 reglas. Estos <strong>sistemas expertos<\/strong> demostraban que la tecnolog\u00eda podr\u00eda marcar una diferencia, pero las soluciones robustas eran demasiado complejas para ser desarrolladas.<\/p>\n<p class=\"indent\">Por otro lado, <strong>el reconocimiento de voz<\/strong> necesitaba poder hacer uso de datos ac\u00fasticos y transformarlos en texto. \u00a1Con la variedad de hablantes que uno podr\u00eda encontrar, una tarea realmente dif\u00edcil!<\/p>\n<p class=\"indent\">Los investigadores entendieron que si ten\u00edamos un modelo para el idioma deseado, las cosas ser\u00edan m\u00e1s f\u00e1ciles. Si conoci\u00e9ramos las palabras del idioma, c\u00f3mo se forman las oraciones, entonces ser\u00eda m\u00e1s f\u00e1cil encontrar la oraci\u00f3n correcta de un conjunto de candidatos para coincidir con una expresi\u00f3n dada, o para producir una traducci\u00f3n v\u00e1lida de un conjunto de posibles secuencias de palabras.<\/p>\n<p class=\"indent\">Otro aspecto crucial ha sido el de <strong>la sem\u00e1ntica<\/strong>. La mayor parte del trabajo que podemos hacer para resolver preguntas ling\u00fc\u00edsticas es superficial; los algoritmos producir\u00e1n una respuesta basada en algunas reglas sint\u00e1cticas locales. Si al final, el texto no significa nada, as\u00ed sea. Algo similar puede suceder cuando leemos un texto de algunos estudiantes: \u00a1podemos corregir los errores sin realmente entender de qu\u00e9 trata el texto! Un verdadero desaf\u00edo es asociar significado al texto y, cuando sea posible, a las oraciones pronunciadas.<\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-3\" title=\"Editar distancia\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/mANPrlfil3Q?feature=oembed&#38;rel=0\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p class=\"no-indent\">Hubo un resultado sorprendente en 2008<sup>1<\/sup>. Un \u00fanico <strong>modelo de lenguaje<\/strong> podr\u00eda aprenderse de una gran cantidad de datos y usarse para una variedad de tareas ling\u00fc\u00edsticas. De hecho, ese modelo \u00fanico funcion\u00f3 mejor que los modelos entrenados para tareas espec\u00edficas.<\/p>\n<p class=\"indent\">El modelo era una <a href=\"https:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/chapter\/deep-neural-networks\/\" target=\"_blank\" rel=\"noopener\">red neuronal profunda<\/a>. \u00a1Nada tan profundo como los modelos utilizados hoy en d\u00eda! Pero suficiente para convencer a la investigaci\u00f3n y la industria de que el AA, y m\u00e1s espec\u00edficamente el aprendizaje profundo, iba a ser la respuesta a muchas preguntas en PLN.<\/p>\n<p class=\"indent\">Desde entonces, el procesamiento del lenguaje natural ha dejado de seguir un enfoque basado en modelos y ha estado casi siempre basado en un enfoque basado en datos.<\/p>\n<p class=\"indent\">Tradicionalmente, las principales tareas ling\u00fc\u00edsticas se pueden descomponer en dos familias: aquellas que involucran la construcci\u00f3n de modelos y aquellas que involucran la decodificaci\u00f3n.<\/p>\n<h3 style=\"text-align: left\">Construcci\u00f3n de modelos<\/h3>\n<p class=\"no-indent\">Para transcribir, responder preguntas, generar di\u00e1logos o traducir, necesitas poder saber si \u00abJe parle Fran\u00e7ais\u00bb es de hecho una oraci\u00f3n en franc\u00e9s. Y como con los idiomas hablados, las reglas de gram\u00e1tica no siempre se siguen con precisi\u00f3n, por lo que la respuesta tiene que ser probabil\u00edstica. Una oraci\u00f3n puede ser <em>m\u00e1s o menos<\/em> francesa. Esto permite al sistema producir diferentes oraciones candidatas (como la transcripci\u00f3n de un sonido, o la traducci\u00f3n de una oraci\u00f3n) y la probabilidad se da como una puntuaci\u00f3n asociada con cada candidato. Podemos tomar la oraci\u00f3n con la puntuaci\u00f3n m\u00e1s alta o combinar la puntuaci\u00f3n con otras fuentes de informaci\u00f3n (tambi\u00e9n podemos estar interesados en de qu\u00e9 trata la oraci\u00f3n).<\/p>\n<p class=\"indent\">Los modelos de lenguaje hacen esto, y las probabilidades se construyen a partir de algoritmos de AA. Y por supuesto, cuanto m\u00e1s datos haya, mejor. Para algunos idiomas hay muchos datos a partir de los cuales construir modelos de lenguaje. Para otros, este no es el caso; estos son idiomas con recursos insuficientes.<\/p>\n<p class=\"indent\">En el caso de la traducci\u00f3n, queremos no dos sino tres modelos: un modelo de lenguaje para cada idioma y otro modelo para las traducciones, inform\u00e1ndonos cu\u00e1les son las mejores traducciones de fragmentos de lenguaje. Estos son dif\u00edciles de producir cuando los datos son escasos. Si los modelos para pares de idiomas comunes son m\u00e1s f\u00e1ciles de construir, este no ser\u00e1 el caso para idiomas que no se hablan frecuentemente juntos (como el portugu\u00e9s y el esloveno). Una salida t\u00edpica de esto es usar un <em>idioma pivote<\/em> (t\u00edpicamente ingl\u00e9s) y traducir a trav\u00e9s de este idioma pivote: del portugu\u00e9s al ingl\u00e9s y luego del ingl\u00e9s al esloveno. Esto llevar\u00e1 a resultados inferiores ya que los errores se acumulan.<\/p>\n<h3 style=\"text-align: left\">Decodificaci\u00f3n<\/h3>\n<p class=\"no-indent\">La decodificaci\u00f3n es el proceso en el cual un algoritmo toma la secuencia de entrada (que puede ser se\u00f1al o texto) y, consultando los modelos, toma una decisi\u00f3n, que a menudo ser\u00e1 un texto de salida. Aqu\u00ed hay algunas consideraciones algor\u00edtmicas: en muchos casos, la transcripci\u00f3n y la traducci\u00f3n deben ocurrir en tiempo real y disminuir el retraso temporal es un tema clave. As\u00ed que hay espacio para mucha IA.<\/p>\n<h3 style=\"text-align: left\">De extremo a extremo<\/h3>\n<p class=\"no-indent\">Hoy en d\u00eda, el enfoque de construir estos componentes por separado y combinarlos m\u00e1s tarde ha sido reemplazado por <em>enfoques de extremo a extremo<\/em> en los cuales el sistema transcribir\u00e1\/traducir\u00e1\/interpretar\u00e1 la entrada a trav\u00e9s de un modelo \u00fanico. Actualmente, tales modelos son entrenados por redes neuronales profundas, que pueden ser enormes. \u00a1Se informa que el modelo GPT3 m\u00e1s grande actualmente comprende varios cientos de millones de par\u00e1metros!<\/p>\n<figure id=\"attachment_413\" aria-describedby=\"caption-attachment-413\" style=\"width: 357px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-413\" src=\"http:\/\/aiopentext.itd.cnr.it\/spanishwithchatgpt\/wp-content\/uploads\/sites\/20\/2024\/02\/ch5-page-3-Autoencoder.png\" alt=\"\" width=\"357\" height=\"267\" \/><figcaption id=\"caption-attachment-413\" class=\"wp-caption-text\">Chervinskii, Wikimedia Commons. Licencia CC BY-SA 4.0 <a href=\"https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by\/2.0\/?ref=openverse<\/a>.<\/figcaption><\/figure>\n<p class=\"indent\">Intentemos entender la intuici\u00f3n detr\u00e1s de este proceso. Supongamos que tenemos algunos datos. Estos datos brutos pueden codificarse de alguna manera. Pero la codificaci\u00f3n puede ser redundante, e incluso costosa. Construyamos ahora una m\u00e1quina particular, llamada un auto-codificador (ver diagrama a la izquierda). Esta m\u00e1quina ser\u00e1 capaz de tomar un texto, comprimirlo en un peque\u00f1o vector (esta es la parte del codificador), y luego descomprimir el vector (la parte del decodificador) y devolver un texto que de alguna manera se acerque al texto original. La idea es que este mecanismo har\u00e1 que el vector intermedio sea significativo, con dos propiedades deseables: un vector razonablemente peque\u00f1o que &#8216;contiene&#8217; la informaci\u00f3n en el texto inicial.<\/p>\n<h3 style=\"text-align: left\">El futuro<\/h3>\n<p class=\"no-indent\">Un ejemplo de un proceso de extremo a extremo que podr\u00eda estar disponible pronto ser\u00e1 la capacidad de realizar la siguiente tarea: te escuchar\u00e1 hablar tu idioma, transcribir\u00e1 tu texto, lo traducir\u00e1 a un idioma que no conoces, entrenar\u00e1 un sistema de s\u00edntesis de voz a tu voz, y har\u00e1 que tu propia voz hable el texto correspondiente en una nueva oraci\u00f3n. Aqu\u00ed hay dos ejemplos producidos por investigadores de la Universidad Polit\u00e9cnica de Valencia, Espa\u00f1a, en los que se utiliza el modelo de voz del propio hablante para hacer el doblaje.<\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-1\" title=\"PhD defense Demo 4: Zero-shot Speaker Adaptation for OER dubbing\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/MIwBWUF334E?feature=oembed&#38;rel=0\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<p><iframe loading=\"lazy\" id=\"oembed-2\" title=\"PhD defense Demo 1: Cross-lingual Voice Cloning at UPV[Media]\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/VBevQ77PQzw?feature=oembed&#38;rel=0\" frameborder=\"0\" allowfullscreen=\"allowfullscreen\"><\/iframe><\/p>\n<h3 style=\"text-align: left\">Algunas consecuencias para la educaci\u00f3n<\/h3>\n<p class=\"no-indent\">El progreso constante del procesamiento del lenguaje natural es notable. Hace solo diez a\u00f1os nos re\u00edamos de las traducciones propuestas por la IA. Cada vez es m\u00e1s dif\u00edcil encontrar errores tan obvios hoy en d\u00eda. Las t\u00e9cnicas de reconocimiento de voz y de reconocimiento de caracteres tambi\u00e9n est\u00e1n mejorando r\u00e1pidamente.<\/p>\n<p class=\"indent\">Los desaf\u00edos sem\u00e1nticos todav\u00eda est\u00e1n ah\u00ed, y responder preguntas que requieren una comprensi\u00f3n profunda de un texto todav\u00eda no es del todo correcto. Pero las cosas van en la direcci\u00f3n correcta. Esto significa que el profesor deber\u00eda esperar que algunas de las siguientes afirmaciones sean ciertas pronto, \u00a1si es que ya no lo son!<\/p>\n<ul>\n<li>Un estudiante tomar\u00e1 un texto complejo y obtendr\u00e1 (con IA) una versi\u00f3n simplificada; el texto incluso puede ser personalizado y usar t\u00e9rminos, palabras y conceptos a los que el estudiante est\u00e9 acostumbrado;<\/li>\n<li>Un estudiante podr\u00e1 encontrar un texto, copiarlo y obtener un texto que diga las mismas cosas pero indetectable por una herramienta antiplagio;<\/li>\n<li>Los videos producidos en cualquier parte del mundo ser\u00e1n accesibles a trav\u00e9s de doblaje autom\u00e1tico en cualquier idioma. Esto significa que nuestros estudiantes estar\u00e1n expuestos a material de aprendizaje construido en nuestro idioma y tambi\u00e9n por material inicialmente dise\u00f1ado para otro sistema de aprendizaje en una cultura diferente;<\/li>\n<li>Escribir ensayos podr\u00eda convertirse en una tarea del pasado, ya que las herramientas permitir\u00e1n escribir sobre cualquier tema.<\/li>\n<\/ul>\n<p class=\"no-indent\">Est\u00e1 claro que la IA estar\u00e1 lejos de ser perfecta, y el experto detectar\u00e1 que incluso si el lenguaje es correcto, el flujo de ideas no lo ser\u00e1. Pero enfrent\u00e9moslo: durante el curso de la educaci\u00f3n, \u00bfcu\u00e1nto tiempo llevar\u00e1 que nuestros estudiantes alcancen ese nivel?<\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1<\/sup> <strong data-start=\"69\" data-end=\"100\">Collobert, R., &amp; Weston, J.<\/strong> (2008). A unified architecture for natural language processing: Deep neural networks with multitask learning. En <em data-start=\"214\" data-end=\"284\">Proceedings of the 25th International Conference on Machine Learning<\/em> (pp.\u202f160\u2013167). ACM. <a class=\"\" href=\"http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf\" target=\"_new\" rel=\"noopener\" data-start=\"305\" data-end=\"363\">http:\/\/machinelearning.org\/archive\/icml2008\/papers\/391.pdf<\/a><\/p>\n<p class=\"hanging-indent\" style=\"text-align: left\">Nota: esta referencia se da por razones hist\u00f3ricas. \u00a1Pero es dif\u00edcil de leer!<\/p>\n","protected":false},"author":3,"menu_order":4,"template":"","meta":{"pb_show_title":"on","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":121,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/pressbooks\/v2\/chapters\/131"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/wp\/v2\/users\/3"}],"version-history":[{"count":10,"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/pressbooks\/v2\/chapters\/131\/revisions"}],"predecessor-version":[{"id":913,"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/pressbooks\/v2\/chapters\/131\/revisions\/913"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/pressbooks\/v2\/parts\/121"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/pressbooks\/v2\/chapters\/131\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/wp\/v2\/media?parent=131"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/pressbooks\/v2\/chapter-type?post=131"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/wp\/v2\/contributor?post=131"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/IAparaprofesores\/wp-json\/wp\/v2\/license?post=131"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}