{"id":96,"date":"2023-11-30T16:30:07","date_gmt":"2023-11-30T16:30:07","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/ai-speak-data-based-systems-part-2\/"},"modified":"2024-01-31T11:50:47","modified_gmt":"2024-01-31T11:50:47","slug":"ai-speak-data-based-systems-part-2","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/ai-speak-data-based-systems-part-2\/","title":{"raw":"Parlons IA : Syst\u00e8mes bas\u00e9s sur les donn\u00e9es - Partie 2","rendered":"Parlons IA : Syst\u00e8mes bas\u00e9s sur les donn\u00e9es &#8211; Partie 2"},"content":{"raw":"La conception et la mise en \u0153uvre d'un projet centr\u00e9 sur les donn\u00e9es pourraient \u00eatre d\u00e9compos\u00e9es en 6 \u00e9tapes. Il y a beaucoup d'allers et retours entre les \u00e9tapes et l'ensemble du processus peut devoir \u00eatre r\u00e9p\u00e9t\u00e9 plusieurs fois pour qu'il soit parfait.\n<p class=\"indent\">Pour \u00eatre efficace en classe, des \u00e9quipes multidisciplinaires avec des enseignants,\u00a0des experts p\u00e9dagogiques et des informaticiens devraient \u00eatre impliqu\u00e9s dans chaque \u00e9tape du processus<sup>1<\/sup>. Des experts humains sont n\u00e9cessaires pour identifier le besoin et concevoir le processus, pour concevoir et pr\u00e9parer les donn\u00e9es, pour choisir les algorithmes ML, pour interpr\u00e9ter de mani\u00e8re critique les r\u00e9sultats et pour pr\u00e9voir la fa\u00e7on d'utiliser l'application<sup>2<\/sup>.<\/p>\n\n<h3>1) Comprendre le contexte \u00e9ducatif<\/h3>\n<p class=\"no-indent\"><img class=\"alignleft\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Understanding%20the%20context%20french.jpg\" alt=\"\" width=\"286\" height=\"430\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Understanding%20the%20context%20french.jpg-8\">La premi\u00e8re \u00e9tape de la conception d'un outil AIED consiste \u00e0 comprendre les besoins de la classe. Une fois les objectifs fix\u00e9s, il convient de voir comment les atteindre : quels sont les facteurs \u00e0 prendre en compte et ceux \u00e0 ignorer. Toute solution bas\u00e9e sur des donn\u00e9es est biais\u00e9e en faveur des ph\u00e9nom\u00e8nes qui peuvent \u00eatre facilement calcul\u00e9s et standardis\u00e9s<sup>3<\/sup>. Ainsi, chaque d\u00e9cision doit \u00eatre \u00e9tudi\u00e9e par les enseignants qui utiliseront l'outil, les experts en p\u00e9dagogie qui peuvent assurer que toutes les d\u00e9cisions sont fond\u00e9es sur des th\u00e9ories \u00e9prouv\u00e9es et les informaticiens qui comprennent le fonctionnement des algorithmes.<\/p>\n<p class=\"indent\">Il y a beaucoup d'allers-retours entre les deux premi\u00e8res \u00e9tapes puisque ce qui est possible d\u00e9pendra \u00e9galement des donn\u00e9es disponibles.<\/p>\n<p class=\"indent\">De plus, la conception d'outils p\u00e9dagogiques est \u00e9galement soumise \u00e0 des lois qui imposent des restrictions sur l'utilisation des donn\u00e9es et les types d'algorithmes qui peuvent \u00eatre utilis\u00e9s.<\/p>\n\n<h3>2) Comprendre les donn\u00e9es<\/h3>\n<p class=\"no-indent\">Une fois les objectifs et les facteurs contributifs identifi\u00e9s, l'accent est mis sur les donn\u00e9es n\u00e9cessaires, la fa\u00e7on dont elles seront sourc\u00e9es et \u00e9tiquet\u00e9es, la fa\u00e7on dont la confidentialit\u00e9 sera assur\u00e9e et la fa\u00e7on dont la qualit\u00e9 des donn\u00e9es sera mesur\u00e9e<sup>3<\/sup>. Pour qu'une application d'apprentissage automatique soit r\u00e9ussie, les ensembles de donn\u00e9es doivent \u00eatre suffisamment grands, diversifi\u00e9s et bien \u00e9tiquet\u00e9s.<\/p>\n&nbsp;\n\n[caption id=\"attachment_279\" align=\"alignright\" width=\"367\"]<img class=\" wp-image-279\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/ch3-page-4-MNIST-e1697986859822-1024x946-1.png\" alt=\"\" width=\"367\" height=\"339\"> Adapt\u00e9 de \"File:MnistExamples.png\" par Josef Steppan sous licence CC BY-SA 4.0. Pour une copie de cette licence, visitez <a href=\"https:\/\/creativecommons.org\/licenses\/by-sa\/4.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by-sa\/4.0\/?ref=openverse<\/a>[\/caption]\n<p class=\"indent\">L'apprentissage automatique n\u00e9cessite des donn\u00e9es pour entra\u00eener le mod\u00e8le et des donn\u00e9es sur lesquelles travailler ou pr\u00e9dire. Certaines t\u00e2ches ML, comme la reconnaissance des visages et des objets, disposent d\u00e9j\u00e0 de nombreuses bases de donn\u00e9es priv\u00e9es et publiques pour l'entra\u00eenement.<\/p>\n<p class=\"indent\">S'ils ne sont pas d\u00e9j\u00e0 disponibles sous une forme utilisable, les ensembles de donn\u00e9es existants peuvent devoir \u00eatre enrichis ou r\u00e9\u00e9tiquet\u00e9s pour r\u00e9pondre aux besoins du projet. Dans le cas contraire, des ensembles de donn\u00e9es d\u00e9di\u00e9s devront peut-\u00eatre \u00eatre cr\u00e9\u00e9s et \u00e9tiquet\u00e9s en partant de z\u00e9ro. Les traces num\u00e9riques g\u00e9n\u00e9r\u00e9es par l'\u00e9tudiant lors de l'utilisation d'une application pourraient \u00e9galement \u00eatre utilis\u00e9es comme l'une des sources de donn\u00e9es.<\/p>\n<p class=\"indent\">Dans tous les cas, les donn\u00e9es et les \u00e9l\u00e9ments pertinents pour le probl\u00e8me doivent \u00eatre soigneusement identifi\u00e9s<sup>2<\/sup>. Les \u00e9l\u00e9ments non pertinents ou redondants peuvent pousser un algorithme \u00e0 trouver de faux mod\u00e8les et compromettre les performances du syst\u00e8me<sup>2<\/sup>. Puisque la machine ne peut trouver des mod\u00e8les que dans les donn\u00e9es qui lui sont fournies, le choix de l'ensemble de donn\u00e9es d\u00e9finit aussi implicitement ce qu'est le probl\u00e8me<sup>4<\/sup>. S'il y a beaucoup de donn\u00e9es disponibles, un sous-ensemble doit \u00eatre s\u00e9lectionn\u00e9 \u00e0 l'aide de techniques statistiques et les donn\u00e9es v\u00e9rifi\u00e9es pour \u00e9viter les erreurs et les biais.<\/p>\n<p class=\"indent\">A titre d'exemple de mauvaises donn\u00e9es d'entra\u00eenement, dans une histoire datant des d\u00e9buts de la vision par ordinateur, un mod\u00e8le a \u00e9t\u00e9 entra\u00een\u00e9 \u00e0 discriminer les images de chars russes et am\u00e9ricains. On a d\u00e9couvert plus tard que sa grande pr\u00e9cision \u00e9tait due au fait que les chars russes avaient \u00e9t\u00e9 photographi\u00e9s par temps nuageux et les chars am\u00e9ricains par temps ensoleill\u00e9<sup>4<\/sup>.<\/p>\n<p class=\"indent\">Donc, la qualit\u00e9 de l'ensemble de donn\u00e9es choisi doit \u00eatre v\u00e9rifi\u00e9e, en tenant compte de la raison pour laquelle il a \u00e9t\u00e9 cr\u00e9\u00e9, de ce qu'il contient, des processus utilis\u00e9s pour la collecte, le traitement et l'\u00e9tiquetage, la distribution et la maintenance.\nLes questions cl\u00e9s \u00e0 poser comprennent <em>Les ensembles de donn\u00e9es sont-ils adapt\u00e9s \u00e0\nleurs objectifs pr\u00e9vus<\/em> et <em>Les ensembles de donn\u00e9es contiennent-ils des risques cach\u00e9s qui peuvent rendre les mod\u00e8les biais\u00e9s ou discriminatoires<sup>3<\/sup>?<\/em>\n<img class=\"aligncenter\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Understanding%20the%20data%20french.jpg\" alt=\"\" width=\"296\" height=\"351\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Understanding%20the%20data%20french.jpg-9\"><\/p>\n\n<h3 class=\"indent\">3) Pr\u00e9paration des donn\u00e9es<\/h3>\nLa pr\u00e9paration des donn\u00e9es consiste \u00e0 cr\u00e9er des ensembles de donn\u00e9es en fusionnant les donn\u00e9es disponibles \u00e0 diff\u00e9rents endroits, en corrigeant les incoh\u00e9rences (par exemple, certaines notes de test pourraient \u00eatre sur une \u00e9chelle de 1 \u00e0 10 alors que d'autres sont donn\u00e9es en pourcentage) et en recherchant les valeurs manquantes ou extr\u00eames. Ensuite, des tests automatis\u00e9s pourraient \u00eatre effectu\u00e9s pour v\u00e9rifier la qualit\u00e9 des ensembles de donn\u00e9es. Cela inclut la v\u00e9rification des fuites de confidentialit\u00e9 et des corr\u00e9lations ou st\u00e9r\u00e9otypes impr\u00e9vus<sup>2<\/sup>. Les ensembles de donn\u00e9es pourraient \u00e9galement \u00eatre divis\u00e9s en ensembles de donn\u00e9es de training et de test \u00e0 ce stade. Le premier est utilis\u00e9 pour entra\u00eener le mod\u00e8le et le deuxi\u00e8me pour v\u00e9rifier ses performances. Faire des tests avec l\u2019ensemble de donn\u00e9es d\u2019entra\u00eenement reviendrait \u00e0 donner l\u2019examen la veille pour les devoirs : la performance de l\u2019\u00e9tudiant \u00e0 l\u2019examen n\u2019indiquera pas sa compr\u00e9hension<sup>2<\/sup>.\n<img class=\"aligncenter\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Preparing%20the%20data%20french.jpg\" alt=\"\" width=\"283\" height=\"312\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Preparing%20the%20data%20french.jpg-36\">\n<h3>4) Mod\u00e9lisation<\/h3>\n<img class=\"alignleft\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Modeling%20french.jpg\" alt=\"\" width=\"326\" height=\"364\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Modeling%20french.jpg-38\">Dans cette \u00e9tape, des algorithmes sont utilis\u00e9s pour<a href=\"ai-speak--machine-learning\" data-cke-saved-href=\"ai-speak--machine-learning\"> extraire des tendances dans les donn\u00e9es<\/a> et cr\u00e9er <a href=\"ai-speak--how-youtube-learns-you\" data-cke-saved-href=\"ai-speak--how-youtube-learns-you\">des mod\u00e8les<\/a>. Habituellement, diff\u00e9rents algorithmes sont test\u00e9s pour voir ce qui fonctionne le mieux. Ces mod\u00e8les peuvent ensuite \u00eatre mis \u00e0 profit pour faire des pr\u00e9dictions sur de nouvelles donn\u00e9es.\n\nDans la plupart des projets, les mod\u00e8les initiaux d\u00e9couvrent des probl\u00e8mes dans les donn\u00e9es appelant des allers-retours entre les \u00e9tapes 2 et 3<sup>2<\/sup>. Tant qu'il existe une forte corr\u00e9lation entre les caract\u00e9ristiques des donn\u00e9es et la valeur de sortie, il est tr\u00e8s probable qu'un algorithme d'apprentissage automatique g\u00e9n\u00e8re de bonnes pr\u00e9dictions.\n\nCes algorithmes utilisent des techniques statistiques et informatiques avanc\u00e9es pour traiter les donn\u00e9es. Les programmeurs doivent ajuster les param\u00e8tres et essayer diff\u00e9rents algorithmes pour obtenir les meilleurs r\u00e9sultats. Prenons une application qui d\u00e9tecte la tricherie. Un faux positif, c'est lorsqu'un \u00e9l\u00e8ve qui n'a pas trich\u00e9 est signal\u00e9. Un faux n\u00e9gatif, c'est lorsqu'un \u00e9l\u00e8ve qui a trich\u00e9 n'est pas signal\u00e9. Les concepteurs de syst\u00e8mes peuvent r\u00e9gler le mod\u00e8le pour minimiser soit les faux positifs, o\u00f9 certains comportements de tricherie pourraient \u00eatre manqu\u00e9s, soit les faux n\u00e9gatifs, o\u00f9 m\u00eame les cas douteux sont signal\u00e9s<sup>5<\/sup>. Le r\u00e9glage d\u00e9pend donc de ce que nous voulons obtenir du syst\u00e8me.\n<h3>5) \u00c9valuation<\/h3>\n<img class=\"alignright\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Evaluation%20french.jpg\" alt=\"\" width=\"306\" height=\"189\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Evaluation%20french.jpg-63\">\nPendant l'\u00e9tape de mod\u00e9lisation, chaque mod\u00e8le peut \u00eatre r\u00e9gl\u00e9 pour la pr\u00e9cision de la pr\u00e9diction sur l'ensemble de donn\u00e9es d'entra\u00eenement. Les mod\u00e8les sont ensuite test\u00e9s sur l'ensemble de donn\u00e9es de test et un mod\u00e8le est choisi pour \u00eatre utilis\u00e9. Ce mod\u00e8le est \u00e9galement \u00e9valu\u00e9 sur la fa\u00e7on dont il r\u00e9pond aux besoins \u00e9ducatifs : Les objectifs fix\u00e9s \u00e0 l'\u00e9tape 1 sont-ils atteints ? Y a-t-il des probl\u00e8mes impr\u00e9vus ? La qualit\u00e9 est-elle bonne ? Est-ce que certaines parties pourraient \u00eatre am\u00e9lior\u00e9es ou r\u00e9alis\u00e9es d'une autre mani\u00e8re ? Une nouvelle conception est-elle n\u00e9cessaire ? L'objectif principal est de d\u00e9cider si l'application peut \u00eatre d\u00e9ploy\u00e9e dans les \u00e9coles. Si ce n'est pas le cas, tout le processus est recommenc\u00e9<sup>2<\/sup>.\n<h3>6) D\u00e9ploiement<\/h3>\n<img class=\"alignleft\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Deployment%20french.jpg\" alt=\"\" width=\"295\" height=\"282\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Deployment%20french.jpg-61\">La derni\u00e8re \u00e9tape de ce processus consiste \u00e0 voir comment int\u00e9grer l'application bas\u00e9e sur les donn\u00e9es au syst\u00e8me scolaire pour en tirer le maximum d'avantages, tant au niveau de l'infrastructure technique que des pratiques p\u00e9dagogiques.\n\nBien que donn\u00e9 comme l'\u00e9tape finale, l'ensemble du processus est it\u00e9ratif. Apr\u00e8s le d\u00e9ploiement, le mod\u00e8le doit \u00eatre r\u00e9guli\u00e8rement revu pour v\u00e9rifier s'il est toujours pertinent dans le contexte. Les besoins, les processus ou les modes de saisie des donn\u00e9es pourraient changer, ce qui affecterait les r\u00e9sultats du syst\u00e8me. L'application doit donc \u00eatre revue et mise \u00e0 jour si n\u00e9cessaire. Le syst\u00e8me devrait \u00eatre surveill\u00e9 en permanence pour son impact sur l'apprentissage, l'enseignement et l'\u00e9valuation<sup>6<\/sup>.\n\n<sup><img class=\"wp-image-95 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7.png\" alt=\"\" width=\"447\" height=\"316\"><\/sup>\n<p class=\"no-indent\">Les directives \u00e9thiques sur l'utilisation de l'IA et des donn\u00e9es pour les \u00e9ducateurs soulignent que l'\u00e9cole devrait \u00eatre en contact avec le fournisseur de services d'IA tout au long du cycle de vie du syst\u00e8me d'IA, m\u00eame avant le d\u00e9ploiement. Elle devrait demander une documentation technique claire et demander des \u00e9claircissements sur les points peu clairs. Un accord devrait \u00eatre conclu pour le support et la maintenance et il faudrait s'assurer que le fournisseur a respect\u00e9 toutes les obligations l\u00e9gales<sup>6<\/sup>.<\/p>\n<p class=\"no-indent\"><strong>Note :<\/strong> Tant les \u00e9tapes \u00e9num\u00e9r\u00e9es ici que l'illustration sont adapt\u00e9es des \u00e9tapes et des t\u00e2ches de CRISP-DM Datascience (bas\u00e9es sur la figure 3 de Chapman, Clinton, Kerber, et al. 1999) telles que pr\u00e9sent\u00e9es dans <sup>2<\/sup>.<\/p>\n\n\n<hr>\n<p class=\"hanging-indent\"><sup>1 <\/sup>Du Boulay, B., Poulovasillis, A., Holmes, W., Mavrikis, M., <em>Artificial Intelligence And Big Data Technologies To Close The Achievement Gap,<\/em>in Luckin, R., ed. Enhancing Learning and Teaching with Technology, London: UCL Institute of Education Press, pp. 256\u2013285, 2018.<\/p>\n<p class=\"hanging-indent\"><sup>2<\/sup> Kelleher, J.D, Tierney, B, <em>Data Science<\/em>, London, 2018.<\/p>\n<p class=\"hanging-indent\"><sup>3 <\/sup>Hutchinson, B., Smart, A., Hanna, A., Denton, E., Greer, C., Kjartansson, O., Barnes, P., Mitchell, M., <em><a href=\"https:\/\/doi.org\/10.1145\/3442188.3445918\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"https:\/\/doi.org\/10.1145\/3442188.3445918\">Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure<\/a><\/em>, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, Association for Computing Machinery, New York, 2021.<\/p>\n<p class=\"hanging-indent\"><sup>4 <\/sup>Barocas, S.,\u00a0 Hardt, M., Narayanan, A., <em><a href=\"https:\/\/fairmlbook.org\/\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"https:\/\/fairmlbook.org\/\">Fairness and machine learning Limitations and Opportunities<\/a>, <\/em>2022.<\/p>\n<p class=\"hanging-indent\"><sup>5 <\/sup>Schneier, B., <em>Data and Goliath: The Hidden Battles to Capture Your Data and Control Your World, <\/em>W. W. Norton &amp; Company, 2015.<\/p>\n<p class=\"hanging-indent\"><sup>6 <\/sup><em><a href=\"https:\/\/education.ec.europa.eu\/news\/ethical-guidelines-on-the-use-of-artificial-intelligence-and-data-in-teaching-and-learning-for-educators\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"https:\/\/education.ec.europa.eu\/news\/ethical-guidelines-on-the-use-of-artificial-intelligence-and-data-in-teaching-and-learning-for-educators\">Ethical guidelines on the use of artificial intelligence and data in teaching and learning for educators<\/a><\/em>, European Commission, October 2022.<\/p>","rendered":"<p>La conception et la mise en \u0153uvre d&rsquo;un projet centr\u00e9 sur les donn\u00e9es pourraient \u00eatre d\u00e9compos\u00e9es en 6 \u00e9tapes. Il y a beaucoup d&rsquo;allers et retours entre les \u00e9tapes et l&rsquo;ensemble du processus peut devoir \u00eatre r\u00e9p\u00e9t\u00e9 plusieurs fois pour qu&rsquo;il soit parfait.<\/p>\n<p class=\"indent\">Pour \u00eatre efficace en classe, des \u00e9quipes multidisciplinaires avec des enseignants,\u00a0des experts p\u00e9dagogiques et des informaticiens devraient \u00eatre impliqu\u00e9s dans chaque \u00e9tape du processus<sup>1<\/sup>. Des experts humains sont n\u00e9cessaires pour identifier le besoin et concevoir le processus, pour concevoir et pr\u00e9parer les donn\u00e9es, pour choisir les algorithmes ML, pour interpr\u00e9ter de mani\u00e8re critique les r\u00e9sultats et pour pr\u00e9voir la fa\u00e7on d&rsquo;utiliser l&rsquo;application<sup>2<\/sup>.<\/p>\n<h3>1) Comprendre le contexte \u00e9ducatif<\/h3>\n<p class=\"no-indent\"><img loading=\"lazy\" decoding=\"async\" class=\"alignleft\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Understanding%20the%20context%20french.jpg\" alt=\"\" width=\"286\" height=\"430\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Understanding%20the%20context%20french.jpg-8\" \/>La premi\u00e8re \u00e9tape de la conception d&rsquo;un outil AIED consiste \u00e0 comprendre les besoins de la classe. Une fois les objectifs fix\u00e9s, il convient de voir comment les atteindre : quels sont les facteurs \u00e0 prendre en compte et ceux \u00e0 ignorer. Toute solution bas\u00e9e sur des donn\u00e9es est biais\u00e9e en faveur des ph\u00e9nom\u00e8nes qui peuvent \u00eatre facilement calcul\u00e9s et standardis\u00e9s<sup>3<\/sup>. Ainsi, chaque d\u00e9cision doit \u00eatre \u00e9tudi\u00e9e par les enseignants qui utiliseront l&rsquo;outil, les experts en p\u00e9dagogie qui peuvent assurer que toutes les d\u00e9cisions sont fond\u00e9es sur des th\u00e9ories \u00e9prouv\u00e9es et les informaticiens qui comprennent le fonctionnement des algorithmes.<\/p>\n<p class=\"indent\">Il y a beaucoup d&rsquo;allers-retours entre les deux premi\u00e8res \u00e9tapes puisque ce qui est possible d\u00e9pendra \u00e9galement des donn\u00e9es disponibles.<\/p>\n<p class=\"indent\">De plus, la conception d&rsquo;outils p\u00e9dagogiques est \u00e9galement soumise \u00e0 des lois qui imposent des restrictions sur l&rsquo;utilisation des donn\u00e9es et les types d&rsquo;algorithmes qui peuvent \u00eatre utilis\u00e9s.<\/p>\n<h3>2) Comprendre les donn\u00e9es<\/h3>\n<p class=\"no-indent\">Une fois les objectifs et les facteurs contributifs identifi\u00e9s, l&rsquo;accent est mis sur les donn\u00e9es n\u00e9cessaires, la fa\u00e7on dont elles seront sourc\u00e9es et \u00e9tiquet\u00e9es, la fa\u00e7on dont la confidentialit\u00e9 sera assur\u00e9e et la fa\u00e7on dont la qualit\u00e9 des donn\u00e9es sera mesur\u00e9e<sup>3<\/sup>. Pour qu&rsquo;une application d&rsquo;apprentissage automatique soit r\u00e9ussie, les ensembles de donn\u00e9es doivent \u00eatre suffisamment grands, diversifi\u00e9s et bien \u00e9tiquet\u00e9s.<\/p>\n<p>&nbsp;<\/p>\n<figure id=\"attachment_279\" aria-describedby=\"caption-attachment-279\" style=\"width: 367px\" class=\"wp-caption alignright\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-279\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/ch3-page-4-MNIST-e1697986859822-1024x946-1.png\" alt=\"\" width=\"367\" height=\"339\" \/><figcaption id=\"caption-attachment-279\" class=\"wp-caption-text\">Adapt\u00e9 de \u00ab\u00a0File:MnistExamples.png\u00a0\u00bb par Josef Steppan sous licence CC BY-SA 4.0. Pour une copie de cette licence, visitez <a href=\"https:\/\/creativecommons.org\/licenses\/by-sa\/4.0\/?ref=openverse\">https:\/\/creativecommons.org\/licenses\/by-sa\/4.0\/?ref=openverse<\/a><\/figcaption><\/figure>\n<p class=\"indent\">L&rsquo;apprentissage automatique n\u00e9cessite des donn\u00e9es pour entra\u00eener le mod\u00e8le et des donn\u00e9es sur lesquelles travailler ou pr\u00e9dire. Certaines t\u00e2ches ML, comme la reconnaissance des visages et des objets, disposent d\u00e9j\u00e0 de nombreuses bases de donn\u00e9es priv\u00e9es et publiques pour l&rsquo;entra\u00eenement.<\/p>\n<p class=\"indent\">S&rsquo;ils ne sont pas d\u00e9j\u00e0 disponibles sous une forme utilisable, les ensembles de donn\u00e9es existants peuvent devoir \u00eatre enrichis ou r\u00e9\u00e9tiquet\u00e9s pour r\u00e9pondre aux besoins du projet. Dans le cas contraire, des ensembles de donn\u00e9es d\u00e9di\u00e9s devront peut-\u00eatre \u00eatre cr\u00e9\u00e9s et \u00e9tiquet\u00e9s en partant de z\u00e9ro. Les traces num\u00e9riques g\u00e9n\u00e9r\u00e9es par l&rsquo;\u00e9tudiant lors de l&rsquo;utilisation d&rsquo;une application pourraient \u00e9galement \u00eatre utilis\u00e9es comme l&rsquo;une des sources de donn\u00e9es.<\/p>\n<p class=\"indent\">Dans tous les cas, les donn\u00e9es et les \u00e9l\u00e9ments pertinents pour le probl\u00e8me doivent \u00eatre soigneusement identifi\u00e9s<sup>2<\/sup>. Les \u00e9l\u00e9ments non pertinents ou redondants peuvent pousser un algorithme \u00e0 trouver de faux mod\u00e8les et compromettre les performances du syst\u00e8me<sup>2<\/sup>. Puisque la machine ne peut trouver des mod\u00e8les que dans les donn\u00e9es qui lui sont fournies, le choix de l&rsquo;ensemble de donn\u00e9es d\u00e9finit aussi implicitement ce qu&rsquo;est le probl\u00e8me<sup>4<\/sup>. S&rsquo;il y a beaucoup de donn\u00e9es disponibles, un sous-ensemble doit \u00eatre s\u00e9lectionn\u00e9 \u00e0 l&rsquo;aide de techniques statistiques et les donn\u00e9es v\u00e9rifi\u00e9es pour \u00e9viter les erreurs et les biais.<\/p>\n<p class=\"indent\">A titre d&rsquo;exemple de mauvaises donn\u00e9es d&rsquo;entra\u00eenement, dans une histoire datant des d\u00e9buts de la vision par ordinateur, un mod\u00e8le a \u00e9t\u00e9 entra\u00een\u00e9 \u00e0 discriminer les images de chars russes et am\u00e9ricains. On a d\u00e9couvert plus tard que sa grande pr\u00e9cision \u00e9tait due au fait que les chars russes avaient \u00e9t\u00e9 photographi\u00e9s par temps nuageux et les chars am\u00e9ricains par temps ensoleill\u00e9<sup>4<\/sup>.<\/p>\n<p class=\"indent\">Donc, la qualit\u00e9 de l&rsquo;ensemble de donn\u00e9es choisi doit \u00eatre v\u00e9rifi\u00e9e, en tenant compte de la raison pour laquelle il a \u00e9t\u00e9 cr\u00e9\u00e9, de ce qu&rsquo;il contient, des processus utilis\u00e9s pour la collecte, le traitement et l&rsquo;\u00e9tiquetage, la distribution et la maintenance.<br \/>\nLes questions cl\u00e9s \u00e0 poser comprennent <em>Les ensembles de donn\u00e9es sont-ils adapt\u00e9s \u00e0<br \/>\nleurs objectifs pr\u00e9vus<\/em> et <em>Les ensembles de donn\u00e9es contiennent-ils des risques cach\u00e9s qui peuvent rendre les mod\u00e8les biais\u00e9s ou discriminatoires<sup>3<\/sup>?<\/em><br \/>\n<img loading=\"lazy\" decoding=\"async\" class=\"aligncenter\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Understanding%20the%20data%20french.jpg\" alt=\"\" width=\"296\" height=\"351\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Understanding%20the%20data%20french.jpg-9\" \/><\/p>\n<h3 class=\"indent\">3) Pr\u00e9paration des donn\u00e9es<\/h3>\n<p>La pr\u00e9paration des donn\u00e9es consiste \u00e0 cr\u00e9er des ensembles de donn\u00e9es en fusionnant les donn\u00e9es disponibles \u00e0 diff\u00e9rents endroits, en corrigeant les incoh\u00e9rences (par exemple, certaines notes de test pourraient \u00eatre sur une \u00e9chelle de 1 \u00e0 10 alors que d&rsquo;autres sont donn\u00e9es en pourcentage) et en recherchant les valeurs manquantes ou extr\u00eames. Ensuite, des tests automatis\u00e9s pourraient \u00eatre effectu\u00e9s pour v\u00e9rifier la qualit\u00e9 des ensembles de donn\u00e9es. Cela inclut la v\u00e9rification des fuites de confidentialit\u00e9 et des corr\u00e9lations ou st\u00e9r\u00e9otypes impr\u00e9vus<sup>2<\/sup>. Les ensembles de donn\u00e9es pourraient \u00e9galement \u00eatre divis\u00e9s en ensembles de donn\u00e9es de training et de test \u00e0 ce stade. Le premier est utilis\u00e9 pour entra\u00eener le mod\u00e8le et le deuxi\u00e8me pour v\u00e9rifier ses performances. Faire des tests avec l\u2019ensemble de donn\u00e9es d\u2019entra\u00eenement reviendrait \u00e0 donner l\u2019examen la veille pour les devoirs : la performance de l\u2019\u00e9tudiant \u00e0 l\u2019examen n\u2019indiquera pas sa compr\u00e9hension<sup>2<\/sup>.<br \/>\n<img loading=\"lazy\" decoding=\"async\" class=\"aligncenter\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Preparing%20the%20data%20french.jpg\" alt=\"\" width=\"283\" height=\"312\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Preparing%20the%20data%20french.jpg-36\" \/><\/p>\n<h3>4) Mod\u00e9lisation<\/h3>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignleft\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Modeling%20french.jpg\" alt=\"\" width=\"326\" height=\"364\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Modeling%20french.jpg-38\" \/>Dans cette \u00e9tape, des algorithmes sont utilis\u00e9s pour<a href=\"ai-speak--machine-learning\" data-cke-saved-href=\"ai-speak--machine-learning\"> extraire des tendances dans les donn\u00e9es<\/a> et cr\u00e9er <a href=\"ai-speak--how-youtube-learns-you\" data-cke-saved-href=\"ai-speak--how-youtube-learns-you\">des mod\u00e8les<\/a>. Habituellement, diff\u00e9rents algorithmes sont test\u00e9s pour voir ce qui fonctionne le mieux. Ces mod\u00e8les peuvent ensuite \u00eatre mis \u00e0 profit pour faire des pr\u00e9dictions sur de nouvelles donn\u00e9es.<\/p>\n<p>Dans la plupart des projets, les mod\u00e8les initiaux d\u00e9couvrent des probl\u00e8mes dans les donn\u00e9es appelant des allers-retours entre les \u00e9tapes 2 et 3<sup>2<\/sup>. Tant qu&rsquo;il existe une forte corr\u00e9lation entre les caract\u00e9ristiques des donn\u00e9es et la valeur de sortie, il est tr\u00e8s probable qu&rsquo;un algorithme d&rsquo;apprentissage automatique g\u00e9n\u00e8re de bonnes pr\u00e9dictions.<\/p>\n<p>Ces algorithmes utilisent des techniques statistiques et informatiques avanc\u00e9es pour traiter les donn\u00e9es. Les programmeurs doivent ajuster les param\u00e8tres et essayer diff\u00e9rents algorithmes pour obtenir les meilleurs r\u00e9sultats. Prenons une application qui d\u00e9tecte la tricherie. Un faux positif, c&rsquo;est lorsqu&rsquo;un \u00e9l\u00e8ve qui n&rsquo;a pas trich\u00e9 est signal\u00e9. Un faux n\u00e9gatif, c&rsquo;est lorsqu&rsquo;un \u00e9l\u00e8ve qui a trich\u00e9 n&rsquo;est pas signal\u00e9. Les concepteurs de syst\u00e8mes peuvent r\u00e9gler le mod\u00e8le pour minimiser soit les faux positifs, o\u00f9 certains comportements de tricherie pourraient \u00eatre manqu\u00e9s, soit les faux n\u00e9gatifs, o\u00f9 m\u00eame les cas douteux sont signal\u00e9s<sup>5<\/sup>. Le r\u00e9glage d\u00e9pend donc de ce que nous voulons obtenir du syst\u00e8me.<\/p>\n<h3>5) \u00c9valuation<\/h3>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignright\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Evaluation%20french.jpg\" alt=\"\" width=\"306\" height=\"189\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Evaluation%20french.jpg-63\" \/><br \/>\nPendant l&rsquo;\u00e9tape de mod\u00e9lisation, chaque mod\u00e8le peut \u00eatre r\u00e9gl\u00e9 pour la pr\u00e9cision de la pr\u00e9diction sur l&rsquo;ensemble de donn\u00e9es d&rsquo;entra\u00eenement. Les mod\u00e8les sont ensuite test\u00e9s sur l&rsquo;ensemble de donn\u00e9es de test et un mod\u00e8le est choisi pour \u00eatre utilis\u00e9. Ce mod\u00e8le est \u00e9galement \u00e9valu\u00e9 sur la fa\u00e7on dont il r\u00e9pond aux besoins \u00e9ducatifs : Les objectifs fix\u00e9s \u00e0 l&rsquo;\u00e9tape 1 sont-ils atteints ? Y a-t-il des probl\u00e8mes impr\u00e9vus ? La qualit\u00e9 est-elle bonne ? Est-ce que certaines parties pourraient \u00eatre am\u00e9lior\u00e9es ou r\u00e9alis\u00e9es d&rsquo;une autre mani\u00e8re ? Une nouvelle conception est-elle n\u00e9cessaire ? L&rsquo;objectif principal est de d\u00e9cider si l&rsquo;application peut \u00eatre d\u00e9ploy\u00e9e dans les \u00e9coles. Si ce n&rsquo;est pas le cas, tout le processus est recommenc\u00e9<sup>2<\/sup>.<\/p>\n<h3>6) D\u00e9ploiement<\/h3>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignleft\" src=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Deployment%20french.jpg\" alt=\"\" width=\"295\" height=\"282\" data-original=\"https:\/\/www.ai4t.eu\/book\/ia-pour-les-enseignants--un-manuel-ouvert-1\/media\/Deployment%20french.jpg-61\" \/>La derni\u00e8re \u00e9tape de ce processus consiste \u00e0 voir comment int\u00e9grer l&rsquo;application bas\u00e9e sur les donn\u00e9es au syst\u00e8me scolaire pour en tirer le maximum d&rsquo;avantages, tant au niveau de l&rsquo;infrastructure technique que des pratiques p\u00e9dagogiques.<\/p>\n<p>Bien que donn\u00e9 comme l&rsquo;\u00e9tape finale, l&rsquo;ensemble du processus est it\u00e9ratif. Apr\u00e8s le d\u00e9ploiement, le mod\u00e8le doit \u00eatre r\u00e9guli\u00e8rement revu pour v\u00e9rifier s&rsquo;il est toujours pertinent dans le contexte. Les besoins, les processus ou les modes de saisie des donn\u00e9es pourraient changer, ce qui affecterait les r\u00e9sultats du syst\u00e8me. L&rsquo;application doit donc \u00eatre revue et mise \u00e0 jour si n\u00e9cessaire. Le syst\u00e8me devrait \u00eatre surveill\u00e9 en permanence pour son impact sur l&rsquo;apprentissage, l&rsquo;enseignement et l&rsquo;\u00e9valuation<sup>6<\/sup>.<\/p>\n<p><sup><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-95 aligncenter\" src=\"http:\/\/aiopentext.itd.cnr.it\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7.png\" alt=\"\" width=\"447\" height=\"316\" srcset=\"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7.png 2245w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7-300x212.png 300w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7-1024x724.png 1024w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7-768x543.png 768w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7-1536x1086.png 1536w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7-2048x1448.png 2048w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7-65x46.png 65w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7-225x159.png 225w, https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-content\/uploads\/sites\/15\/2023\/11\/FR-17.7-350x247.png 350w\" sizes=\"(max-width: 447px) 100vw, 447px\" \/><\/sup><\/p>\n<p class=\"no-indent\">Les directives \u00e9thiques sur l&rsquo;utilisation de l&rsquo;IA et des donn\u00e9es pour les \u00e9ducateurs soulignent que l&rsquo;\u00e9cole devrait \u00eatre en contact avec le fournisseur de services d&rsquo;IA tout au long du cycle de vie du syst\u00e8me d&rsquo;IA, m\u00eame avant le d\u00e9ploiement. Elle devrait demander une documentation technique claire et demander des \u00e9claircissements sur les points peu clairs. Un accord devrait \u00eatre conclu pour le support et la maintenance et il faudrait s&rsquo;assurer que le fournisseur a respect\u00e9 toutes les obligations l\u00e9gales<sup>6<\/sup>.<\/p>\n<p class=\"no-indent\"><strong>Note :<\/strong> Tant les \u00e9tapes \u00e9num\u00e9r\u00e9es ici que l&rsquo;illustration sont adapt\u00e9es des \u00e9tapes et des t\u00e2ches de CRISP-DM Datascience (bas\u00e9es sur la figure 3 de Chapman, Clinton, Kerber, et al. 1999) telles que pr\u00e9sent\u00e9es dans <sup>2<\/sup>.<\/p>\n<hr \/>\n<p class=\"hanging-indent\"><sup>1 <\/sup>Du Boulay, B., Poulovasillis, A., Holmes, W., Mavrikis, M., <em>Artificial Intelligence And Big Data Technologies To Close The Achievement Gap,<\/em>in Luckin, R., ed. Enhancing Learning and Teaching with Technology, London: UCL Institute of Education Press, pp. 256\u2013285, 2018.<\/p>\n<p class=\"hanging-indent\"><sup>2<\/sup> Kelleher, J.D, Tierney, B, <em>Data Science<\/em>, London, 2018.<\/p>\n<p class=\"hanging-indent\"><sup>3 <\/sup>Hutchinson, B., Smart, A., Hanna, A., Denton, E., Greer, C., Kjartansson, O., Barnes, P., Mitchell, M., <em><a href=\"https:\/\/doi.org\/10.1145\/3442188.3445918\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"https:\/\/doi.org\/10.1145\/3442188.3445918\">Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure<\/a><\/em>, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, Association for Computing Machinery, New York, 2021.<\/p>\n<p class=\"hanging-indent\"><sup>4 <\/sup>Barocas, S.,\u00a0 Hardt, M., Narayanan, A., <em><a href=\"https:\/\/fairmlbook.org\/\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"https:\/\/fairmlbook.org\/\">Fairness and machine learning Limitations and Opportunities<\/a>, <\/em>2022.<\/p>\n<p class=\"hanging-indent\"><sup>5 <\/sup>Schneier, B., <em>Data and Goliath: The Hidden Battles to Capture Your Data and Control Your World, <\/em>W. W. Norton &amp; Company, 2015.<\/p>\n<p class=\"hanging-indent\"><sup>6 <\/sup><em><a href=\"https:\/\/education.ec.europa.eu\/news\/ethical-guidelines-on-the-use-of-artificial-intelligence-and-data-in-teaching-and-learning-for-educators\" target=\"_blank\" rel=\"noopener\" data-cke-saved-href=\"https:\/\/education.ec.europa.eu\/news\/ethical-guidelines-on-the-use-of-artificial-intelligence-and-data-in-teaching-and-learning-for-educators\">Ethical guidelines on the use of artificial intelligence and data in teaching and learning for educators<\/a><\/em>, European Commission, October 2022.<\/p>\n","protected":false},"author":1,"menu_order":4,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":82,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/96"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/96\/revisions"}],"predecessor-version":[{"id":97,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/96\/revisions\/97"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/parts\/82"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/96\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/media?parent=96"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapter-type?post=96"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/contributor?post=96"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/license?post=96"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}