La dépendance aux données numériques, une réalité au quotidien

data science

Au fil du temps le numérique introduit dans nos vies une dépendance à une quantité incroyable de données. Autrefois, avant cette ère du numérique, l’on notait les adresses et numéros dans un calepin, nos rendez-vous et note de rappel et planning d’événements de la journée voire de ceux à venir se faisait dans un agenda. L’annuaire des abonnés téléphoniques nous permettait de rechercher les contacts d’entreprises, et particuliers que nous n’avions pas. Aujourd’hui, nos téléphones et ordinateurs regorgent d’applications nous permettant de faire toutes ces choses, et en plus des autres objets technologiques et numériques du quotidien, des masses d’informations sont stockées. Vu que certaines sont confidentielles, il y a donc risque qu’ils soient exposés et à la portée de tous et n’importe qui. C’est pourquoi est née la datascience, une discipline issue de la multiplication des bases de données et de l’Internet et à la croissance exponentielle du volume de données numériques disponibles dans le monde.

data science

D’où vient la Data Science et en quoi consiste-t-elle ?

Le terme Data Science a été utilisé lors du 2e colloque Franco-Japonais de statistique tenu à l’Université Montpellier II (France) en septembre 1992. En 2001, William Cleveland reprenait essentiellement les mêmes idées dans un article programmatique paru en 2001, qui précise les contours de cette discipline émergente. Elle a reçu beaucoup d’attention grâce à l’intérêt grandissant pour le « Big Data, et a naturellement généré l’émergence d’une nouvelle filière de formation : « data scientists », dont le premier objectif est de produire des méthodes de tri et d’analyser les données de masse et de sources plus ou moins complexes ou disjointes de données. Ceci afin d’en extraire des informations utiles ou potentiellement utiles. Pour cela, le « scientifique des données » s’appuie sur la fouille de données, les statistiques, le traitement du signal, diverses méthodes de référencement, apprentissage automatique et la visualisation de données. Il s’intéresse donc à la classification, au nettoyage, à l’exploration, à l’analyse et à la protection de bases de données plus ou moins interopérables.