Comment choisir le bon algorithme pour la bonne tâche ?

Un grand éventail d'algorithmes est aujourd'hui disponible dans différentes librairies d'analyse de données et boîtes à outils. Par conséquent, quand il s'agit de choisir un algorithme, la question n'est pas de savoir si un algorithme existe pour résoudre votre problème, mais plutôt lequel correspond le mieux au problème en science des données que vous essayez de résoudre. La prochaine session du mastercourse EluciDATA du 26 avril se concentrera sur le choix du bon algorithme pour la bonne tâche.

Si, à l'heure actuelle, on se focalise surtout sur les exemples des géants d'Internet (p. ex. Google, Amazon, Facebook), la science des données peut aussi être très précieuse pour innover dans d'autres domaines de la recherche et de l'industrie, ainsi que dans les PME. Elle permet de puiser de nouvelles connaissances dans des données expérimentales, d'établir le profil de produits et de clients, d'optimiser les processus de production, de prédire les pannes des machines, etc.

Dans ce contexte, le mastercourse EluciDATA propose une introduction pragmatique et orientée industrie à l'innovation par les données. Ce mastercourse (en anglais) sera composé de plusieurs sessions indépendantes, afin de satisfaire les différents besoins et points de vue de personnes au contexte différent.

Choisir le bon algorithme pour la bonne tâche

L'une des étapes finales et centrales du flux de travail en science des données est le choix d'un algorithme approprié pour le problème que vous essayez de résoudre. En raison de la richesse d'algorithmes compris dans les bibliothèques d'analyse de données et les boîtes à outils, la question n'est souvent pas de savoir s'il existe un algorithme pour le contexte, mais plutôt celui qui convient le mieux. En outre, la façon dont vous formulez votre objectif commercial en tant que tâche en science des données peut déterminer le type d'algorithme que vous pouvez appliquer.

Par conséquent, le but de cette session est de présenter aux participants les tâches les plus importantes en science des données (classification, groupement, régression, etc.) et de donner un aperçu des algorithmes et techniques les plus couramment utilisés pour résoudre chacune de ces tâches. Pour chacune des méthodes, ses caractéristiques, avantages et inconvénients seront expliqués afin de guider les participants à faire un choix conscient en termes de données disponibles (dimensionnalité, types d'attributs, etc.) et d'exigences du modèle attendu (interprétabilité, précision, évolutivité, etc.). Enfin, les principes directeurs pour apprendre et évaluer les modèles résultants, y compris un aperçu des pièges courants et des mesures d'évaluation fréquemment utilisées, seront présentés.

Cette session vise à répondre aux questions suivantes :

  • Comment traduire votre/vos objectif(s) professionnel(s) en une tâche en science des données ?
  • Quelles sont les tâches les plus importantes en science des données et quels algorithmes et techniques d'apprentissage automatique existent pour résoudre ces tâches ?
  • Comment choisir l'algorithme approprié en fonction des caractéristiques importantes des données disponibles et des exigences du modèle attendu telles que la précision, l'interprétabilité, l'évolutivité, etc. ?
  • Comment apprendre et évaluer les modèles qui en résultent, afin d'arriver à la performance la plus optimale ?

Vous aimeriez assister à cette session ? Consultez les détails du séminaire sur notre agenda.