Définitions

Data mining

Le data mining (ou exploration de données) est le processus de découverte de modèles dans de grands ensembles de données impliquant des méthodes situées à l'intersection de l'apprentissage automatique, des statistiques et des systèmes de base de données.

L’exploration de données est un sous-domaine interdisciplinaire de l’informatique et de la statistique qui vise à extraire des informations (avec des méthodes intelligentes) d’un ensemble de données et à les transformer en une structure compréhensible pour une utilisation ultérieure. Le data mining est l'étape d'analyse du processus de "découverte de connaissances dans les bases de données" (ou knowledge discovery in databases"  ou KDD).  Outre l'étape d'analyse brute, il s'agit également d’astuces de gestion de base de données et de données, de prétraitement de données, de considérations de modèle et d’inférence, de métriques d'intérêt, de considérations de complexité, de post- traitement des structures découvertes, de visualisation et de mise à jour en ligne.

Le terme « data mining » est un terme mal choisi, car le but est l'extraction des modèles et des connaissances à partir de grandes quantités de données, et non l'extraction (le « mining ») de données elles- mêmes.  Il s’agit également d’un buzzword et s’applique fréquemment à toute forme de traitement de données ou d’informations à grande échelle (collecte, extraction, stockage, analyse et statistique), ainsi qu’à toute application de système d’aide à la décision, y compris: intelligence artificielle (p. ex. apprentissage automatique) et intelligence d'affaires . Le livre « Data mining: Practical machine learning tools and techniques with Java »  (qui couvre la plupart de matériel d'apprentissage de la machine) était à l’origine pour être nommé  « Practical machine learning », et le terme data mining n'a été ajoutée pour des raisons de marketing.  Souvent, les termes plus généraux (à grande échelle) l’analyse des données à grande échelle et l’analytics - ou, en se référant aux méthodes actuelles, l’ « intelligence artificielle » et le « machine learning » - sont plus appropriés.

Le « vrai » data mining  désigne l’analyse semi-automatique ou 100% automatique de grandes quantités de données pour extraire des patterns inconnus ou intéressants tels que des groupes de données (analyse de cluster), des données peu communes (de détection des anomalies), et des dépendances (règle d'association l’extraction, extraction de motifs séquentiels). Cela implique généralement l'utilisation de techniques de gestion base de données telles que les indices spatiaux . Ces modèles peuvent alors être vus comme une sorte de résumé des données entrée et peuvent être utilisés dans des analyses ultérieures ou, par exemple, dans l'apprentissage automatique et l'analyse prédictive . Par exemple, le data mining peut identifier plusieurs groupes dans les données (de profils de clients, de transactions, de comportement d’achats si l’on s’en tient au domaine du marketing) qui peuvent ensuite être utilisés pour obtenir des résultats de prédiction plus précis par un système d'aide à la décision . Ni la collecte de données, la préparation des données, ni l'interprétation des résultats, ni les rapports ne font partie du data mining en tant que tel, mais ils font partie du processus global de KDD (knowledge discovery in databases).

La différence entre l'analyse de données et le data mining réside dans le fait que l'analyse de données est utilisée pour tester des modèles et des hypothèses sur l'ensemble de données, par exemple pour analyser l’efficacité d'une campagne marketing, quelle que soit la quantité de données; Au contraire, le data mining utilise des modèles statistiques et d’apprentissage automatique pour découvrir des schémas (informations) clandestins ou cachés dans un grand volume de données.

Les termes connexes data dredging (dragage des données), data fishing (pêche de données), et data snooping (données espionnes) se réfèrent à l'utilisation de méthodes d'extraction de données pour échantillonner les parties d'un ensemble de données de population plus qui sont (ou peuvent être) trop faible pour re susceptibles inférences statistiques à effectuer sur la validité de tous les modèles découverts. Ces méthodes peuvent toutefois être utilisées pour créer de nouvelles hypothèses à tester avec des populations de données plus vastes.

Organisme de formation

CPF, Pole Emploi, Plan de formation   OF N°11755165975 - 17 rue etex, Paris

Recevez des exclus !

Search