Ce jeu de données contenant des informations de 683 personnes sur le cancer du sein.
Cet ensemble de données est un ensemble de classification binaire classique .
J'ai utilisé ces donneés pour entrainer un model d'apprentissage automatique
pour prédire la probabilité qu'une cellule est Bénigne ou Maligne.
Dans un premier temps, j'ai analysé les données et identifié les corrélations entre les differentes caractères
à l'aide des librairies Matplotlib et Seaborn. Ceci m'a permis de choisir les critères suivants
qui sont corrélés avec la cible (classe). ou qui ont une corrélation avec la cible
Uniformité de la taille des cellules ,
Uniformité de la forme des cellules ,
Noyau nu ,
Nucléole normal
Ensuite, j'ai entrainé trois modèles en utilisant les classfieurs suivants :
Decision Tree Classifier dont le score de précision est de 96%.
Grid SearchCV (KNN) dont le score de précision est de 97%.
Grid SearchCV(Random Forest Classifier) dont le score de précision est de 96%.