Exploitez vos données grâce à l’exploration de modèles

Avec le développement de l’Internet des objets et du Big Data, des données de plus en plus volumineuses sont collectées dans des domaines de plus en plus variés. De ce fait, au fil du temps, le nombre de méthodes développées pour extraire des informations utiles à partir de ces données s’est considérablement multiplié. Parmi les méthodes les plus efficaces, certaines portent sur l’exploration de modèles (pattern mining).

Grâce à la recherche de modèles, c’est-à-dire d’événements ou d’objets qui sont étroitement associés, les méthodes d’exploration de modèles permettent d’analyser les comportements et de prédire des comportements futurs. Par exemple, un supermarché peut analyser la liste des marchandises achetées par ses clients pour savoir quels achats supplémentaires y sont associés. Cela peut permettre à un magasin de réorganiser ses rayons et de proposer des offres spéciales. 

Autre exemple : les sociétés de taxi qui surveillent constamment les données de leurs véhicules, par ex. un niveau d’huile trop bas, ou une température du moteur trop élevée. Dans la mesure où elles savent aussi quand leurs taxis tombent en panne, elles peuvent rechercher les modèles (la séquence événementielle qui précède habituellement une panne) qui conduisent à une défaillance. En identifiant ce comportement, elles peuvent prédire l’apparition d’une panne (en détectant le début de la séquence événementielle) et résoudre le problème avant qu’il ne se produise, épargnant ainsi du temps et de l’argent. 

Ces méthodes peuvent être employées dans des domaines nombreux et variés, notamment la maintenance d’une usine ou d’une ferme éolienne, l’identification d’une maladie, la prédiction de la prochaine prescription médicale, l’analyse du comportement des cyclistes dans une ville, etc.

Amélioration des calculs et de l’efficacité de la mémoire

Créé en 1995, le premier algorithme d’exploration de modèles ne permettait de trouver que des séries d’objets fréquents, par exemple, des objets habituellement associés, comme dans l’exemple du supermarché. Aujourd’hui, les méthodes d’exploration de modèles peuvent aussi rechercher des séquences d’articles (quand l’ordre des articles est important, comme dans le cas du taxi). 

Le plus gros inconvénient de l’exploration de modèles étant le temps de calcul, la plupart des progrès ont été réalisés dans l’amélioration des calculs et de l’efficacité de la mémoire, par ex. en utilisant la parallélisation. Cela a abouti aux méthodes actuelles qui peuvent trouver facilement des modèles longs dans un laps de temps raisonnable.

Des méthodes spécifiques pour des problèmes et des besoins spécifiques

Néanmoins, pour l’instant, nous nous intéressons surtout aux méthodes d’exploration de modèles conçues spécifiquement pour résoudre des problèmes et des besoins spécifiques. Elles nous permettent d’utiliser l’exploration de modèles dans un large éventail de situations et de résoudre de nombreux problèmes de nature diverse. La liste ci-dessous ne comprend que les méthodes principales, mais il en existe beaucoup d’autres:

  • Multi-niveaux
    Dans l’exploration multi-niveaux, nous ne recherchons pas uniquement des articles, mais aussi leur hiérarchie. Si nous revenons à notre exemple du supermarché, nous finissons par des achats associés de pommes, poires, kiwis… tous considérés comme des articles différents bien qu’ils soient tous des fruits. De ce fait, le supermarché peut vouloir aussi trouver des modèles contenant des fruits sans tenir compte des articles spécifiques de sous-niveau, par exemple les pommes. De plus, en considérant les fruits comme un ensemble, il est possible de trouver des modèles qui auraient pu être cachés si nous avions sélectionné chaque fruit indépendamment.
  • Multi-domaines
    Les méthodes d’exploration multi-domaines s’intéressent aux propriétés multiples des articles lors de la recherche de modèles. Revenons une fois de plus au supermarché : supposons que notre supermarché a des magasins dans toute la Belgique et qu’il souhaite vérifier s’il existe des modèles différents selon les lieux de l’achat. Il peut vouloir aussi analyser les modèles en fonction du sexe ou du revenu du client. De cette manière, les méthodes multi-domaines seront en mesure de trouver une réponse à des questions telles que « Quels articles sont en général achetés simultanément par des femmes riches à Charleroi? »
  • Exploration de modèles temporels
    L’aspect temporel peut être aussi important. Lorsque nous envisageons une séquence, nous pouvons nous intéresser non seulement au prochain élément de la séquence, mais aussi à l’intervalle de temps habituel avant l’apparition de cet élément. Cela est particulièrement intéressant pour l’entretien. Si vous trouvez un modèle conduisant à une panne/un produit défectueux, vous voudrez savoir combien de fois vous devrez empêcher l’apparition de ce problème, et vous assurer que vous disposez réellement du temps nécessaire pour le faire. En effet, personne ne s’intéresse à un modèle qui prédit une panne de voiture trois secondes seulement avant l’incident. 
  • Exploration de modèles sous contrainte
    De nombreuses méthodes peuvent permettre d’imposer des contraintes sur les modèles. On peut avoir une contrainte sur la longueur des modèles, afin de récupérer uniquement les modèles contenant plus de 5 éléments. L’exploration de modèles dirigée recherche des modèles contenant des objets d’intérêt, par exemple des modèles contenant les éléments « bons chocolats belges ». L’exploration de modèles agrégés sous contrainte impose une contrainte sur un agrégat d’éléments, par ex. pour trouver des modèles dans lesquels « le prix moyen de tous les articles est supérieur à 50 euros ». De nombreuses contraintes peuvent être imaginées (et des combinaisons de contraintes sont également possibles, mais il s’agit de méthodes assez complexes). 

Comme vous pouvez le voir, le simple Algorithme APriori a donné naissance à de nombreuses méthodes avancées prêtes à tirer parti de toutes les données collectées et stockées dans un nombre de plus en plus important d’industries et de domaines. Toutes ces méthodes peuvent être utilisées pour résoudre des problèmes particuliers grâce à ces différents types d’exploration de modèles qui ont été développés.

Vous avez des questions sur ce sujet ? Faites-le nous savoir et nous serons heureux d’en discuter avec vous!

Tags: