64 Aprendizaje automático e IA a través de experimentos con datos en Orange
¿Son los delfines mamíferos, y si es así, por qué?
¿Qué especie animal es un Kiwi?
¿Atenas y Roma se encuentran en las mismas zonas climáticas?
¿Quién pintó un famoso cuadro con una señora gritando?
¿Podemos adivinar el autor de un post en las redes sociales solo por el estilo de escritura?
En estilo de juego, ¿tiene Luka Doncic un clon en la NBA?
¿Se puede adivinar la especie del árbol a partir de sus hojas? ¿O por una foto de su corteza?
¿Cómo se agrupan los países del mundo por sus características socioeconómicas? ¿Está el mundo realmente dividido socioeconómicamente al norte y al sur?
¿Están Roma y Atenas en la misma zona climática? Según los patrones climáticos, ¿qué capital de país es más parecida a Berlín?
La ciencia de los datos, y en particular los métodos de AA, actúan como catalizadores del cambio en diversos campos como la ciencia, la ingeniería y la tecnología, teniendo un impacto significativo en nuestra vida cotidiana. Las técnicas computacionales capaces de indagar grandes conjuntos de datos, identificar patrones intrigantes y construir modelos predictivos se están convirtiendo en omnipresentes. Sin embargo, solo unos pocos profesionales poseen una comprensión fundamental de la ciencia de datos, y son menos aun los que participan activamente en la construcción de modelos a partir de sus datos. En una era en la que la IA moldea silenciosamente nuestro mundo, todos debemos ser conscientes de sus capacidades, ventajas y riesgos potenciales. Debemos establecer métodos para comunicar y enseñar eficazmente conceptos relacionados con la ciencia de datos a un público amplio. Los principios y técnicas del AA, la ciencia de datos y la IA deben convertirse en conocimiento común.
Cada una de las preguntas planteadas al principio de este capítulo puede responderse observando los datos pertinentes. Proponemos el siguiente enfoque para entrenar el AA. Comenzar con la pregunta, encontrar datos relevantes y luego responder a la pregunta mediante la búsqueda de patrones y modelos de datos relevantes. En el proyecto Pumice, estamos desarrollando actividades educativas que pueden utilizarse para enriquecer diferentes asignaturas escolares. Utilizamos datos relacionados con la materia y los exploramos mediante IA y enfoques de AA. En colaboración con educadores, hemos desarrollado plantillas de aprendizaje y explicaciones de fondo para profesores y estudiantes.
Las actividades y la formación de Pumices se apoyan en Orange, un programa de AA que cuenta con una interfaz intuitiva, visualizaciones interactivas y programación visual. La clave de la simplicidad es una construcción de tipo ladrillo Lego de los conductos analíticos y la interactividad de todos los componentes (véase la Fig. 1). Esto es necesario en la formación y la versatilidad para cubrir la mayoría de los temas básicos y adaptarse a diversas áreas de aplicación. Para apoyar aun más la enseñanza y centrarse en los conceptos más que en la mecánica subyacente, Orange implementa un fácil acceso a los datos, la reproducibilidad a través del guardado de los flujos de trabajo con todas las diversas configuraciones y opciones basadas en el usuario, y la fácil personalización a través del diseño de nuevos componentes. Un aspecto fundamental de la formación es la narración de historias mediante la inspección de flujos de trabajo y funciones especializadas para la experimentación, como el dibujo de los conjuntos de datos experimentales o el aprendizaje sobre el sobreajuste de la regresión lineal polinómica. Orange está disponible como software de código abierto y se complementa con un video de entrenamiento conciso.

Fig. 1. Software de minería de datos de Orange y un flujo de trabajo típico de exploración de datos.
En la Fig. 1 mostramos un flujo de trabajo típico de exploración de datos de Orange. El flujo de trabajo consta de componentes que cargan los datos, calculan las distancias, visualizan los datos o los modelos resultantes, o realizan cualquier tarea necesaria para encontrar y visualizar patrones de datos. En este flujo de trabajo, hemos utilizado los datos socioeconómicos de los países del mundo. La rama superior del flujo de trabajo estudia dos características y muestra que la esperanza de vida y los años de escolarización están correlacionados. También muestra que hay países como Cabo Verde y Marruecos donde la gente vive mucho pero no pasa demasiado tiempo escolarizada. Los niños en las escuelas pueden diseñar este tipo de redes para explorar qué países son socioeconómicamente similares entre sí y dónde pueden encontrar que el mundo está socioeconómicamente dividido en norte, centro y sur y que hay una gran división entre los sectores desarrollados y subdesarrollados. No hace falta decírselo explícitamente «con mirar los datos en Orange, lo harán a pesar de todo y, en las clases superiores, bucearán en estas divisiones por su cuenta.
El desarrollo de Orange comenzó en 2003. Desde entonces, ha ganado un desarrollo sustancial. Con más de 50.000 usuarios mensuales diferentes, Orange se ha consolidado como una aplicación informática especializada y ampliamente aceptada. Aproximadamente la mitad de sus usuarios proceden del ámbito académico. En particular, Orange ha experimentado un notable repunte en su adopción en el sector educativo, con más de 500 universidades de todo el mundo que lo han incorporado a sus cursos de ciencia de datos.
Si eres un educador con ganas de adentrarte en el mundo del AA y la ciencia de datos, aquí tienes una recopilación de recursos que ofrecen una introducción a estas disciplinas a través de la exploración práctica de datos con Orange:
- Orange, la caja de herramientas página web
- Una introducción a la ciencia de datos, es un conjunto de videos cortos que muestran métodos seleccionados de visualización y AA con Orange. Encuentra los videos en http://youtube.com/orangedatamining, y ve a la lista de reproducción «Intro to Data Science».
- Pumice es un sitio web para profesores donde recopilamos casos de uso que puedes incorporar a tu programa de formación.
- Pumice.