Découverte et prise en main de Dataiku DSS Platform grâce à la Dataiku Academy

Dataiku DSS platform est un outil commercialisé depuis 2014. Ceci en fait l’une des solutions consacrées à la Datascience parmi les plus récemment développées. En effet, ses principaux concurrents sur le marché des plateformes orientées Datascience et Machine Learning ont été élaborés une dizaine voire plusieurs dizaines d’années auparavant.

Point de vue

Dataiku DSS platform est un outil commercialisé depuis 2014. Ceci en fait l’une des solutions consacrées à la Datascience parmi les plus récemment développées. En effet, ses principaux concurrents sur le marché des plateformes orientées Datascience et Machine Learning ont été élaborés une dizaine voire plusieurs dizaines d’années auparavant (SPSS IBM en 1968, SAS 1976, Knime 2006, Rapid Miner 2006, Alteryx 2006).

Malgré sa relative jeunesse, l’outil a pourtant su rapidement trouver sa place parmi de nombreuses directions Data, notamment en France, et trouver grâce aux yeux de nombreux professionnels manipulant de la data au quotidien.

Depuis 2013 et les premiers développements, cette solution SaaS a donc grandi au milieu d’un environnement Data qui a fortement évolué sur les dernières années avec entre autres :

  • Une diversification et un enrichissement de l’écosystème technique1

L’écosystème technique en Datascience a été transformé et enrichi par la démocratisation de langages et logiciels sous licence libre (R issu du milieu universitaire a émergé en entreprise ; Python, considérablement enrichi en bibliothèques dédiées au calcul scientifique, s’est largement déployé). Par ailleurs, les problématiques soulevées par les contraintes du Big Data ont donné naissance à de nouveaux outils spécifiquement adaptés, parmi lesquels le traitement ajusté – Hadoop, MapReduce puis Spark – et plus récemment encore le Cloud pour le stockage.

  • Une évolution des formations2

En parallèle de ce chamboulement technologique, les perspectives d’emplois générées par le secteur data ont suscité de nombreuses vocations parmi les étudiants pour le domaine de la Datascience. De nombreuses formations ont ainsi été créées pour répondre à cette demande, notamment pour compléter l’offre du domaine universitaire ou d’autres formations historiques parmi lesquelles l’ENSAI et l’ENSAE. Une partie de ces formations, notamment les plus récentes et celles sous de nouvelles formes, MOOC ou plateformes spécialisées, ont souvent mis l’accent dans leurs enseignements sur les langages et outils sous licence libre, parfois au détriment d’outils d’éditeurs encore établis au premier rang desquels SAS. Dataiku DSS Platform ne semble, quant à lui, pas encore au programme de ces formations.

  • Une évolution des environnements data au sein même des entreprises

Enfin, le troisième mouvement observé est l’adoption de ces nouveaux outils et l’arrivée de ces nouvelles compétences en entreprise. La masse de données à traiter, toujours plus importante3, a nécessité d’adapter l’environnement technique. Cependant, devant l’abondance de solutions techniques envisageables, les entreprises doivent faire le bon choix technologique pour les 3 voire parfois les 10 prochaines années. Peu des plus grandes entreprises en France se sont lancées jusqu’à présent dans un virage complètement orienté Open Source pour la partie Data. Il s’agit en effet de conserver l’assurance que les traitements de données critiques sur lesquels elles s’appuient pour fonctionner au quotidien seront maintenus en cas de changement de solutions. Garanties que n’offre pas forcément la solution « tout open source », notamment car il faut disposer des bonnes compétences techniques pour entretenir ces environnements. Par ailleurs, la migration depuis un environnement constitué de solutions commerciales vers un environnement « Open Source » non commercial est coûteuse en temps homme (audit des projets à passer, monter en compétence des équipes, double run, recettes…).

 

Pourquoi s’intéresser à Dataiku DSS ?

Dataiku semble être l’une des solutions idéales pour prendre en compte ces trois mouvements de fond du domaine. Par exemple, en ce qui concerne l’évolution technologique, l’outil possède des connecteurs particulièrement performants pour s’interfacer avec les environnements Cloud les plus répandus du marché. DSS permet aussi d’intégrer au sein de son environnement des codes rédigés en langage R ou Python, ce qui facilite l’usage de certaines équipes data qui fonctionnent dorénavant avec différents langages selon les préférences de chacun. Par ailleurs, cela permet de bénéficier de bibliothèques de fonctions qui parfois n’existent que dans un seul de ces langages et feront donc office d’extensions pour l’outil.

Caractéristiques spécifiques de l’outil

Riche d’une interface relativement intuitive et accueillante, la solution se positionne habilement pour satisfaire différents profils de professionnels de la Data.  J’en avais fait une première découverte il y a deux ans, dans le cadre d’une veille et nous avions ensuite entrepris d’initier des consultants Consortia à cet outil par l’apprentissage et le passage de certifications (qui font plutôt office de validation d’acquis par l’éditeur car elles ne sont pas inscrites au RNCP4). La force de l’outil est notamment sa convivialité et son interface très intuitive. Le travail en collaboration entre différents rôles (data engineer, data analyst, data scientist, …) y est fortement encouragé avec, entre autres, la traçabilité des modifications apportées aux projets, la mise à disposition de métadonnées sur les projets ainsi que la possibilité de documenter son projet à l’aide de wikis.

 

 

 

Les sections obligatoires du parcours sur l’apprentissage automatique

Parcours « Advanced Designer » :

Ce dernier parcours est consacré à un usage avancé de l’outil autour des aspects d’automatisation, d’optimisation des traitements (le partitionnement notamment), de mise en place de contrôles et d’alertes sur la qualité des données pour garantir la conformité des traitements de données aux attentes. A noter enfin qu’une section est consacrée aux plugins, c’est-à-dire les extensions téléchargeables disponibles dans le store Dataiku qui permettent notamment de régler des problèmes d’interconnexion avec d’autres outils.

 

Les certifications et les approfondissements

3 certifications sont proposées par l’éditeur. Elles correspondent aux 3 parcours d’apprentissage présentés précédemment. Ces certifications consistent, dans un premier temps, en la réalisation d’un projet puis, dans un second temps, à un contrôle de connaissances sous forme de questionnaire à choix multiples qui s’appuiera sur ce projet. L’objectif est d’atteindre les 80% de bonnes réponses, mais pas de panique, nous pouvons repasser l’examen jusqu’à sa réussite !

A noter tout de même que pour la certification nommée « Advanced Designer Certificate », il vous faudra la version d’essai de 14 jours car la version disponible via une machine virtuelle n’offre pas toutes les fonctionnalités nécessaires à la réalisation du projet.

L’interface d’accueil pour les certifications

Pour finir, nous pouvons évoquer la disponibilité au sein de la Dataiku Academy de cours avancés sur des problématiques spécifiques au sein du « Course Catalog ». Par exemple, une section est consacrée à l’interconnexion de DSS avec les bases de données NoSQL ; une autre se focalise sur les problématiques de gouvernance de la donnée.

 

Une solution riche et une compétence technique intéressante

Comme nous l’avons vu ainsi au fil de cet article, l’outil Dataiku DSS Platform offre de belles fonctionnalités aux entreprises pour résoudre une grande partie de leurs problématiques autour de la donnée. Ces fonctionnalités propres à la solution peuvent être complétées par la richesse disponible dans le monde du logiciel libre à travers les packages R ou les librairies Python notamment.

Il semble cependant que cette solution soit encore peu enseignée durant les études alors qu’elle se déploie de plus en plus en entreprise. Comme vous avez pu le voir à travers cette note, son apprentissage est relativement simple pour en utiliser les fonctionnalités les plus basiques et il peut donc s’avérer judicieux d’y consacrer quelques heures pour certifier d’un premier niveau de maitrise de cet outil.

 

  1. Selon des sondages réalisés par KDnuggets de 2000 à 2019 https://www.youtube.com/watch?v=pKPaHH7hnv8&feature=youtu.be

Et https://www.kdnuggets.com/2020/06/data-science-tools-popularity-animated.html

  1. https://dataanalyticspost.com/formations-data-science-lembarras-choix/ (Auteur : Isabelle BELLIN)
  2. https://www.networkworld.com/article/3325397/idc-expect-175-zettabytes-of-data-worldwide-by-2025.html
  3. Registre national des certifications professionnelles

 

L’interface d’accueil d’un projet

L’interface d’accueil d’un projet

Par ailleurs, Dataiku offre au sein d’un unique projet la possibilité de faire toutes les étapes de traitement de la donnée, depuis l’extraction jusqu’à l’activation de ces données, à travers notamment la mise en production de modèles issus du machine learning.

Apprentissage de l’outil

L’éditeur propose un parcours d’apprentissage au sein de son site dédié « Dataiku Academy ». L’avantage non négligeable est que ce parcours est gratuit et qu’il propose même de passer des certifications (toujours gratuites). Suivre le parcours d’apprentissage et passer les certifications prend environ une vingtaine d’heures en version courte et une trentaine d’heures en version longue, c’est-à-dire avec les cours optionnels. Le cours est en anglais mais avec la possibilité de sous-titrer en français pour les vidéos.

Le MOOC alterne entre la présentation en vidéo des concepts de Dataiku DSS ou même de problématiques liées à la donnée et la mise en application à travers un exemple dans l’outil.

Les chapitres sont assez courts et les manipulations dans l’outil sont très guidées. Au fil des chapitres, figurent des quizz intermédiaires pour vérifier votre bonne compréhension des concepts clés. A la fin du chapitre, un quizz final sanctionne la validation de la section.

La fenêtre de cours avec ici une vidéo

Pour ce qui est de la manipulation, le plus simple est d’installer une machine virtuelle qui simulera un serveur sur votre ordinateur.

3 parcours d’apprentissage sont ainsi proposés.

Parcours « Core Designer » :

Le premier cours nommé « Core Designer » est consacré à la découverte de l’outil pour ses aspects les plus basiques, à savoir les concepts de l’outil, la création de workflows à l’aide des « visual recipes », c’est-à-dire de nœuds paramétrables à travers une interface graphique relativement simple afin de réaliser les tâches les plus classiques de data management. Sont aussi abordées dans ce chapitre les introductions au « Lab » afin de réaliser les modélisations, et enfin les visualisations graphiques. On appréciera dans ce premier parcours la capacité de l’outil à nous accompagner dans les étapes de data management, notamment par le biais d’une visualisation colorée de la table de données selon leur conformité (valeurs atypiques, non conformes …). Cependant, l’une des faiblesses de l’outil ressort aussi à travers l’interface de data visualisation, un peu décevante mais qui s’est tout de même enrichie récemment.

L’interface de quizz

L’interface de quizz

Parcours « ML Practitionner » :

A travers ce cours dédié à l’apprentissage automatique, sont présentées les fonctionnalités permettant de construire, évaluer, améliorer et mettre en production un modèle. Les notions autour de l’intelligence artificielle « explicable », la surveillance et le maintien de la performance des modèles au court du temps sont aussi abordées. Enfin, des sections consacrées aux capacités de l’outil à traiter des sous-domaines spécifiques du machine learning tels que le traitement naturel du langage (NLP) ou les séries temporelles sont aussi disponibles, en s’appuyant sur des plugins. Par le biais de ce cours, nous découvrons la facilité avec laquelle nous pouvons construire un modèle performant et apprécier l’accompagnement de la plateforme à chacune des étapes.

Les sections obligatoires du parcours sur l’apprentissage automatique

Parcours « Advanced Designer » :

Ce dernier parcours est consacré à un usage avancé de l’outil autour des aspects d’automatisation, d’optimisation des traitements (le partitionnement notamment), de mise en place de contrôles et d’alertes sur la qualité des données pour garantir la conformité des traitements de données aux attentes. A noter enfin qu’une section est consacrée aux plugins, c’est-à-dire les extensions téléchargeables disponibles dans le store Dataiku qui permettent notamment de régler des problèmes d’interconnexion avec d’autres outils.

Les certifications et les approfondissements

3 certifications sont proposées par l’éditeur. Elles correspondent aux 3 parcours d’apprentissage présentés précédemment. Ces certifications consistent, dans un premier temps, en la réalisation d’un projet puis, dans un second temps, à un contrôle de connaissances sous forme de questionnaire à choix multiples qui s’appuiera sur ce projet. L’objectif est d’atteindre les 80% de bonnes réponses, mais pas de panique, nous pouvons repasser l’examen jusqu’à sa réussite !

A noter tout de même que pour la certification nommée « Advanced Designer Certificate », il vous faudra la version d’essai de 14 jours car la version disponible via une machine virtuelle n’offre pas toutes les fonctionnalités nécessaires à la réalisation du projet.

L’interface d’accueil pour les certifications

Pour finir, nous pouvons évoquer la disponibilité au sein de la Dataiku Academy de cours avancés sur des problématiques spécifiques au sein du « Course Catalog ». Par exemple, une section est consacrée à l’interconnexion de DSS avec les bases de données NoSQL ; une autre se focalise sur les problématiques de gouvernance de la donnée.

 

Une solution riche et une compétence technique intéressante

Comme nous l’avons vu ainsi au fil de cet article, l’outil Dataiku DSS Platform offre de belles fonctionnalités aux entreprises pour résoudre une grande partie de leurs problématiques autour de la donnée. Ces fonctionnalités propres à la solution peuvent être complétées par la richesse disponible dans le monde du logiciel libre à travers les packages R ou les librairies Python notamment.

Il semble cependant que cette solution soit encore peu enseignée durant les études alors qu’elle se déploie de plus en plus en entreprise. Comme vous avez pu le voir à travers cette note, son apprentissage est relativement simple pour en utiliser les fonctionnalités les plus basiques et il peut donc s’avérer judicieux d’y consacrer quelques heures pour certifier d’un premier niveau de maitrise de cet outil.

 

 

  1. Selon des sondages réalisés par KDnuggets de 2000 à 2019 https://www.youtube.com/watch?v=pKPaHH7hnv8&feature=youtu.be

Et https://www.kdnuggets.com/2020/06/data-science-tools-popularity-animated.html

 

  1. https://dataanalyticspost.com/formations-data-science-lembarras-choix/ (Auteur : Isabelle BELLIN)
  2. https://www.networkworld.com/article/3325397/idc-expect-175-zettabytes-of-data-worldwide-by-2025.html
  3. Registre national des certifications professionnelles

 

À lire aussi