Introduction au Machine Learning

Présentation

  • Le machine learning ???
  • Comment ça marche ?
  • La mise en oeuvre
  • Quelques modèles

Le machine learning ???

Vocabulaire

  • artificial intelligence (AI)
  • machine learning (ML)
  • deep learning (DL)

Définition

Le but du ML est de prendre des décisions ou faire des prédictions en se basant sur les données.

Les données sont primordiales.

Prendre des décisions

Faire des prédictions

Applications

  • La recommandation de musique
  • Le filtrage des mails
  • Les feeds sur les réseaux sociaux
  • Les assistants vocaux
  • Les assistants type ChatGPT
  • Les voitures autonomes
  • ...

Les principaux types

  • apprentissage supervisé
  • apprentissage non-supervisé
  • apprentissage par renforcement

L'apprentissage supervisé

Trouver une fonction telle que:

avec : les exemples
avec : les étiquettes

f(grumpy cat) = cat

f(dog or cat) = cat

f(2cv) = dog

L'apprentissage non-supervisé

Trouver des patterns ou des structures cachés dans des données.

L'apprentissage par renforcement

Faire évoluer un agent dans un environnement afin qu'il apprenne à réaliser des actions qui le récompensent.

Comment ça marche ?

L'entrainement d'un modèle

  1. On initialise un modèle
  2. On utilise le modèle pour faire une prédiction
  3. On compare la prédiction à ce qu'on attend
  4. On corrige le modèle
  5. On recommence à partir de 1 jusqu'à être satisfait

Définir un critère d'évaluation de l'erreur

  • Distance L1, L2
  • Précision, rappel, score F1
  • Distance de Levenshtein
  • ...

Éviter le sous-apprentissage et le sur-apprentissage

Un modèle de ML doit être capable d'estimer et de généraliser.

La mise en oeuvre

Cadrer le problème

  • identifier le type du problème
  • poser des hypothèses sur les données
  • choisir un critère d'évaluation
  • choisir un modèle
  • choisir un algorithme pour l'apprentissage
  • choisir un algorithme pour l'inférence

Quelques modèles

Les arbres de décision

Les forêts aléatoires

Un ensemble d'arbres de décision

Les réseaux de neurones

Les KNN

Conclusion

Le Machine Learning vise à faire des prédictions ou prendre des décisions en se basant sur des données.

Il faut :

  • identifier le type du problème
  • comprendre les données

Ressources pour aller plus loin :

IA > ML > DL > generative models

AGI vs ANI vs ASI

modèles génératifs

prendre des décisions = faire une classification

en se basant sur les données -> en "apprenant"

en économie et en psychologie, on cherche à trouver des modèles des processus sous-jacents

en statistique, on cherche un modèle qui correspond aux données

le commentaire est-il positif ou négatif ?

la transaction est-elle frauduleuse ?

qui essaye de déverrouiller le téléphone ?

dois-je tourner à gauche, à droite, accélérer, freiner ?

est-ce qu'il va pleuvoir dans l'heure ?

quel produit va aimer tel utilisateur ?

modèles de classification ou de regression (avec Y dans les réels)

on connait les classes Y (étiquettes), on connait également les exemples X (caractéristiques)

faire de la réduction de dimensions

identifier des groupes dans un ensemble d'utilisateurs (clustering)

détection d'anomalies

robot qui doit apprendre à marcher

IA qui joue à Mario

erreur = somme des carrés des résidus

La distance de Levenshtein est une distance, au sens mathématique du terme, donnant une mesure de la différence entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer ou remplacer pour passer d'une chaîne à l'autre.

L(chien, chat) = 3

distance euclidienne (à vol d'oiseau)

distance de manhattan

la séparation en plusieurs ensembles : train, validation, test

http://nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist/

nettoyer les données

arbre de décision, forêt aléatoire, régression logistique, réseau de neurone, SVM, K-plus-proches-voisins

https://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html#sphx-glr-auto-examples-classification-plot-classifier-comparison-py