{"id":209,"date":"2023-11-30T16:31:51","date_gmt":"2023-11-30T16:31:51","guid":{"rendered":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/does-data-always-have-to-be-labeled\/"},"modified":"2024-01-31T11:52:02","modified_gmt":"2024-01-31T11:52:02","slug":"does-data-always-have-to-be-labeled","status":"publish","type":"chapter","link":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/chapter\/does-data-always-have-to-be-labeled\/","title":{"raw":"Les donn\u00e9es doivent-elles toujours \u00eatre \u00e9tiquet\u00e9es ?","rendered":"Les donn\u00e9es doivent-elles toujours \u00eatre \u00e9tiquet\u00e9es ?"},"content":{"raw":"<h3>Les donn\u00e9es doivent-elles toujours \u00eatre \u00e9tiquet\u00e9es ?<\/h3>\n<p class=\"no-indent\">Non, pas toujours. Une grande partie des algorithmes d\u2019apprentissage automatique sont supervis\u00e9s ou non-supervis\u00e9s.<\/p>\n<p class=\"indent\">Quand vous souhaitez classer une photo en tant que photo d\u2019un chien, d\u2019un chat ou d\u2019un gorille, vous pouvez fournir \u00e0 la machine des photos portant l\u2019\u00e9tiquette \u00ab\u00a0chien\u00a0\u00bb, \u00ab\u00a0chat\u00a0\u00bb ou \u00ab\u00a0gorille\u00a0\u00bb. Lorsque vous souhaitez noter une copie, vous pouvez fournir \u00e0 la machine une grande quantit\u00e9 de copies corrig\u00e9es, avec leurs notes associ\u00e9es. Dans tous les cas, nous savions \u00e0 quoi ressemblerait le r\u00e9sultat : un chien, un chat, un gorille, A+, A, A-, D\u2026<\/p>\n<p class=\"indent\">Lorsque des donn\u00e9es \u00e9tiquet\u00e9es sont fournies pendant l\u2019entra\u00eenement, l\u2019algorithme essaye de trouver une fonction ou une sorte de formule math\u00e9matique,qui permet de faire correspondre la saisie au r\u00e9sultat. La plupart du temps, cela signifie \u00e9galement que le programmateur ou la programmatrice essaye divers algorithmes afin de voir lequel propose la meilleure fonction d\u2019association. Pour autant, tant que les donn\u00e9es portent des \u00e9tiquettes, celles-ci servent de \u00ab Superviseur \u00bb ou de guide qui permet de v\u00e9rifier que la fonction choisie par l\u2019algorithme fonctionne bel et bien<sup>1<\/sup>. Si la fonction propose un r\u00e9sultat diff\u00e9rent de celui du label, l\u2019algorithme doit fournir un meilleur r\u00e9sultat.<\/p>\n<p class=\"indent\">L\u2019\u00e9tiquetage des donn\u00e9es est une activit\u00e9 qui prend du temps, qui s\u2019av\u00e8re co\u00fbteuse et qui n\u00e9cessite souvent l\u2019emploi de travailleurs humains. Lorsque nous cherchons uniquement des mod\u00e8les dans les donn\u00e9es sans avoir une id\u00e9e claire du mod\u00e8le que nous allons trouver, nous ne connaissons m\u00eame pas le r\u00e9sultat. Les donn\u00e9es ne peuvent donc pas \u00eatre \u00e9tiquet\u00e9es. C\u2019est l\u00e0 que les algorithmes non supervis\u00e9s entrent en jeu.<\/p>\n<p class=\"indent\">Au lieu d\u2019essayer de faire correspondre saisie et r\u00e9sultat, ces algorithmes cherchent des r\u00e9gularit\u00e9s dans les donn\u00e9es, qui permettront de regrouper les saisies en cat\u00e9gories<sup>1<\/sup>. Les banques utilisent l\u2019apprentissage automatique non supervis\u00e9 pour d\u00e9tecter des activit\u00e9s frauduleuses dans les transactions par carte bancaire. \u00c9tant donn\u00e9 que l\u2019on recense un nombre gigantesque de transactions \u00e0 chaque minute, nous ne pouvons pas savoir comment d\u00e9tecter des mod\u00e8les et \u00e9tiqueter une activit\u00e9 comme \u00e9tant une fraude, c\u2019est pourquoi nous nous appuyons sur l\u2019Apprentissage Automatique pour identifier automatiquement des mod\u00e8les. Le fait de regrouper des ensembles d\u2019\u00e9tudiants en un nombre fixe de groupes est \u00e9galement un probl\u00e8me qui requiert souvent l\u2019utilisation de l\u2019apprentissage automatique non supervis\u00e9. Il en va de m\u00eame en ce qui concerne l\u2019identification d\u2019op\u00e9rations terroristes gr\u00e2ce \u00e0 des activit\u00e9s cellulaires dans un r\u00e9seau.<\/p>\n\n\n<hr>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1 <\/sup>Kelleher, J.D, Tierney, B, <em>Data Science<\/em>, London, 2018.<\/p>","rendered":"<h3>Les donn\u00e9es doivent-elles toujours \u00eatre \u00e9tiquet\u00e9es ?<\/h3>\n<p class=\"no-indent\">Non, pas toujours. Une grande partie des algorithmes d\u2019apprentissage automatique sont supervis\u00e9s ou non-supervis\u00e9s.<\/p>\n<p class=\"indent\">Quand vous souhaitez classer une photo en tant que photo d\u2019un chien, d\u2019un chat ou d\u2019un gorille, vous pouvez fournir \u00e0 la machine des photos portant l\u2019\u00e9tiquette \u00ab\u00a0chien\u00a0\u00bb, \u00ab\u00a0chat\u00a0\u00bb ou \u00ab\u00a0gorille\u00a0\u00bb. Lorsque vous souhaitez noter une copie, vous pouvez fournir \u00e0 la machine une grande quantit\u00e9 de copies corrig\u00e9es, avec leurs notes associ\u00e9es. Dans tous les cas, nous savions \u00e0 quoi ressemblerait le r\u00e9sultat : un chien, un chat, un gorille, A+, A, A-, D\u2026<\/p>\n<p class=\"indent\">Lorsque des donn\u00e9es \u00e9tiquet\u00e9es sont fournies pendant l\u2019entra\u00eenement, l\u2019algorithme essaye de trouver une fonction ou une sorte de formule math\u00e9matique,qui permet de faire correspondre la saisie au r\u00e9sultat. La plupart du temps, cela signifie \u00e9galement que le programmateur ou la programmatrice essaye divers algorithmes afin de voir lequel propose la meilleure fonction d\u2019association. Pour autant, tant que les donn\u00e9es portent des \u00e9tiquettes, celles-ci servent de \u00ab Superviseur \u00bb ou de guide qui permet de v\u00e9rifier que la fonction choisie par l\u2019algorithme fonctionne bel et bien<sup>1<\/sup>. Si la fonction propose un r\u00e9sultat diff\u00e9rent de celui du label, l\u2019algorithme doit fournir un meilleur r\u00e9sultat.<\/p>\n<p class=\"indent\">L\u2019\u00e9tiquetage des donn\u00e9es est une activit\u00e9 qui prend du temps, qui s\u2019av\u00e8re co\u00fbteuse et qui n\u00e9cessite souvent l\u2019emploi de travailleurs humains. Lorsque nous cherchons uniquement des mod\u00e8les dans les donn\u00e9es sans avoir une id\u00e9e claire du mod\u00e8le que nous allons trouver, nous ne connaissons m\u00eame pas le r\u00e9sultat. Les donn\u00e9es ne peuvent donc pas \u00eatre \u00e9tiquet\u00e9es. C\u2019est l\u00e0 que les algorithmes non supervis\u00e9s entrent en jeu.<\/p>\n<p class=\"indent\">Au lieu d\u2019essayer de faire correspondre saisie et r\u00e9sultat, ces algorithmes cherchent des r\u00e9gularit\u00e9s dans les donn\u00e9es, qui permettront de regrouper les saisies en cat\u00e9gories<sup>1<\/sup>. Les banques utilisent l\u2019apprentissage automatique non supervis\u00e9 pour d\u00e9tecter des activit\u00e9s frauduleuses dans les transactions par carte bancaire. \u00c9tant donn\u00e9 que l\u2019on recense un nombre gigantesque de transactions \u00e0 chaque minute, nous ne pouvons pas savoir comment d\u00e9tecter des mod\u00e8les et \u00e9tiqueter une activit\u00e9 comme \u00e9tant une fraude, c\u2019est pourquoi nous nous appuyons sur l\u2019Apprentissage Automatique pour identifier automatiquement des mod\u00e8les. Le fait de regrouper des ensembles d\u2019\u00e9tudiants en un nombre fixe de groupes est \u00e9galement un probl\u00e8me qui requiert souvent l\u2019utilisation de l\u2019apprentissage automatique non supervis\u00e9. Il en va de m\u00eame en ce qui concerne l\u2019identification d\u2019op\u00e9rations terroristes gr\u00e2ce \u00e0 des activit\u00e9s cellulaires dans un r\u00e9seau.<\/p>\n<hr \/>\n<p class=\"hanging-indent\" style=\"text-align: left\"><sup>1 <\/sup>Kelleher, J.D, Tierney, B, <em>Data Science<\/em>, London, 2018.<\/p>\n","protected":false},"author":1,"menu_order":6,"template":"","meta":{"pb_show_title":"","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[49],"contributor":[],"license":[],"part":195,"_links":{"self":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/209"}],"collection":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/users\/1"}],"version-history":[{"count":1,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/209\/revisions"}],"predecessor-version":[{"id":210,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/209\/revisions\/210"}],"part":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/parts\/195"}],"metadata":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapters\/209\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/media?parent=209"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/pressbooks\/v2\/chapter-type?post=209"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/contributor?post=209"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/aiopentext.itd.cnr.it\/iapourlesenseignants\/wp-json\/wp\/v2\/license?post=209"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}