Update slides

2020-04-15 14:05:27 +02:00 · 2020-04-15 14:05:27 +02:00 · f4d36e7406
commit f4d36e7406
parent 14109c9400
17 changed files with 1596 additions and 165 deletions
--- a/slides/01-introduction.md
+++ b/slides/01-introduction.md
@ -0,0 +1,297 @@
+<!--
+theme: default
+paginate: true
+footer: Glenn Rolland © 2020
+-->
+
+# Gestion de projets _data_
+
+### Introduction, définition et enjeux
+
+> Glenn Y. Rolland 
+> <glenux@glenux.net>
+
+---
+
+<!--
+_class: chapter
+-->
+
+## Les data, qu'est-ce que c'est ?
+
+---
+
+## Les data, qu'est-ce que c'est ?
+
+### Étymologie
+
+Du latin _datum_ (supin de _do_)
+
+* Don, cadeau, présent
+* S'utilise principalement au pluriel
+
+---
+
+## Les data, qu'est-ce que c'est ?
+
+### Définition
+
+* (Informatique) Données, faits, informations.
+* (Philosophie) Se dit de faits connus dans le domaine scientifique et servant
+  de départ à des recherches futures. (corrélatif de desiderata)
+
+----
+
+<!--
+_class: chapter
+-->
+
+## Contexte
+
+---
+
+## Contexte
+
+### Un monde capitaliste... une incitation à
+
+* Vendre plus cher
+* Vendre plus
+  * Elargir le marché (croissance horizontale)
+  * Mieux cibler sa prospection &rarr; connaitre le consommateur
+* Payer moins cher les ressources
+* Être plus efficace / ressource
+* Produire plus / ressource
+  * Acquérir de nouvelles compétences (croissance verticale)
+
+---
+
+## Contexte
+
+### De plus en plus d'organisations...
+
+* Qui ont fait ou font leur transition numérique
+* Qui constatent qu'elles possèdent de l'information métier
+* Qui optent pour des stratégies data-driven
+* Qui se lancent dans un marathon de projets _data science_ et _intelligence artificielle_
+* Qui espèrent profiter des avantages des nouvelles technologies et de la donnée
+
+----
+
+## Contexte
+
+### De plus en plus de métiers...
+
+* De plus en plus de demande pour les compétences data
+* Data scientist
+* Data analyst
+* Data engineer
+* __...mais tout le monde peut utiliser les data dans sa pratique professionnelle__
+
+---
+
+## Contexte
+
+### De plus en plus de questions
+
+* Quelle est la meilleure approche pour réussir un projet 
+  * Big Data ?
+  * ou Data Science ?
+  * ou Machine Learning / Intelligence artificielle ?
+* Quels sont les acteurs nécessaires aux changements ?
+* Comment se déclinent les différentes étapes de conception et de déploiement de projets dans le temps ?
+
+---
+
+<!--
+_class: chapter
+-->
+
+## Enjeux autour des data
+
+---
+
+## Enjeux autour des data
+
+### Être capable d'analyser...
+
+* C'est être capable de collecter, organiser, nettoyer, manipuler, décortiquer, 
+  analyser et visualiser des données
+* Pour des données internes ou externes, qualitatives ou quantitatives, à sa disposition
+* L'analyse de données, c'est de l'information... qui produit de l'information
+
+---
+
+## Enjeux autour des data
+
+### ...pour les utiliser !
+
+* L'information =
+  * Valeur (directe ou indirecte)
+  * Influence (sur un public, des bénéficiaires)
+  * Temps d'avance (sur le marché, la concurrence, l'ennemi, etc.)
+* C'est une nouvelle forme de capital
+  * Levier de pouvoir
+  * Nouveaux rapports de force (propriétaire des moyens de production, force de production, exploités, etc.)
+* Les usages sont innombrables
+
+---
+
+<!--
+_class: chapter
+-->
+
+## Différents types de projets data
+
+---
+
+## Différents types de projets data
+
+### Trois grandes classes d'objectifs
+
+* l’automatisation des processus
+* comprendre l’existant, détecter des patterns ou prédire des événements
+* l’amélioration du niveau de service et l’engagement vis-à-vis de l’utilisateur final
+
+---
+
+## Différents types de projets data
+
+## Robotic Process Automation (RPA) &mdash; présentation
+
+* La forme d’IA la plus facile et la moins coûteuse à mettre en place
+* Porte ses fruits à court terme et son ROI est remarquable
+* Toutefois, nombreuses organisations ont encore du chemin à faire dans ce domaine
+
+---
+
+## Différents types de projets data
+
+## Robotic Process Automation (RPA) &mdash; quelques exemples
+
+* Le transfert de données et des emails collectés dans divers systèmes d’information pour mettre à jour les bases de données clients ou les opportunités détectées ;
+* Le rapprochement et contrôle des factures et commandes afin de rendre plus robuste les processus comptables ;
+* La lecture et analyse des contrats et documents légaux pour extraire des contraintes ou anomalies possibles.
+
+---
+
+## Différents types de projets data
+
+### Analyse de données &mdash; présentation
+
+* L’analyse de l’information (évolution "automatisée" des statistiques)
+* L’extraction de valeurs pertinentes depuis un vaste volume  
+  de données (Big Data) 
+* À des fins descriptives ou prédictives
+
+---
+
+## Différents types de projets data
+
+### Analyse de données &mdash; quelques exemples
+
+
+* Faire de la maintenance prédictive sur les chaines d’industrie
+* Identifier les fraudes possibles dans les systèmes bancaires ou d’assurance ou les systèmes de santé
+* Automatiser le ciblage clientèle lors des campagnes marketing
+* Fournir aux assureurs des modèles plus précis sur les potentiels clients
+
+Certaines pratiques de _Machine Learning_, dites de _Deep Learning_, permettent de :
+
+* Reconnaitre de la voix ou des images
+* Reconnaitre du langage naturel (Natural Language Processing ou NLP)
+
+---
+
+## Différents types de projets data
+
+### Engagement et prise de décision &mdash; présentation
+
+* Engager l’utilisateur final (employé ou client) dans un processus d’interaction avec la machine 
+* Pour récolter de l’information 
+* Pour fournir un service ou produit "plus" adapté
+
+---
+
+## Différents types de projets data
+
+### Engagement et prise de décision &mdash; quelques exemples
+
+* Agents conversationnels (chatbots) intelligents 
+  * qui peuvent être sollicités 24/7 
+  * qui couvrent une panoplie de services dépendant du niveau d’apprentissage du robot
+* Moteurs de recommandation qui orientent l’utilisateur dans ses choix de services ou produits
+
+---
+
+<!--
+_class: chapter
+-->
+
+## Limites des projets actuels et nouveaux enjeux
+
+---
+
+## Limites des projets actuels et nouveaux enjeux
+
+### Initiatives complexes
+
+* En terme de ressources humaines
+* En terme de processus transverse à l'entreprise
+* En terme de technologies
+
+### Manque de maturité
+
+* Des modeles difficilements industrialisables
+  * Essentiellement des _proof-of-concept_
+  * Peu d'outils et de formats standardisés
+  * Pas de méthodes ou de normes sur la production
+
+---
+
+## Limites des projets actuels et nouveaux enjeux
+
+### Pertinence de la donnée
+
+* Nous sommes capable de ratisser tres large mais...
+  * Quelle est la qualité de la donnée ?
+  * Est-elle pertinente ou est-elle un déchet ?
+* Comment assure-t-on la tracabilité de la donnée ?
+
+### Une approche centrée sur la technologie
+
+* La machine ne fait pas de prise en compte globale
+* L'analyse du contexte autour de la donnée, importe autant que cette dernière
+* Comment utilise-t-on la machine et l'humain dans leurs meilleurs rôles ?
+
+---
+
+## Limites des projets actuels et nouveaux enjeux
+
+### Chaine opérationnelle
+
+* Besoin d'une vision transverse aux différents métiers
+* Mais organisation non mobilisée
+  * Faible collaboration liées aux différences culturelles
+* Quels temps de réactions
+  * entre la collecte, ...
+  * ... le traitement, ...
+  * ... et l'action ?
+
+---
+
+## Limites des projets actuels et nouveaux enjeux
+
+### Des risques juridiques
+
+* Fuite de données personnelles dans les modeles (RGPD)
+* Discrimination liés aux données qu'il est difficile à expliquer (RGPD)
+* À qui appartient le modele entrainé sur la base de données d'un tiers (propriété intellectuelle / industrielle)
+
+---
+
+<!--
+_class: chapter
+-->
+
+## Merci pour votre attention !
+
--- a/slides/02-etapes-projet.md
+++ b/slides/02-etapes-projet.md
@ -0,0 +1,563 @@
+<!--
+theme: default
+paginate: true
+footer: Glenn Rolland © 2020
+
+_backgroundColor: #662d91
+_color: white
+-->
+
+# Gestion de projets _data_
+
+### Étapes d'un projet _data_
+
+> Glenn Y. Rolland 
+> <glenux@glenux.net>
+
+---
+
+## Vue d'ensemble
+
+### Plusieurs méthodes spécifiques mais peu de maturité
+
+* Méthode CRISP (anciennement CRISP-DM)
+  * développée par IBM dans les années 60
+  * pour des projets de DataMining
+  * s'applique efficacement à la data-science
+* Egalement des façons de faire plus récentes (trop?)
+* Certains points fluctuent selon les méthodes
+
+---
+
+## Vue d'ensemble
+
+### Méthode CRISP
+
+1. Formaliser questions business
+2. Collecte des données
+3. Construction du Data Hub
+4. Modélisation (et analyse) des données
+5. Évaluation
+6. Déploiement et industrialisation
+
+----
+
+<!-- 
+_class: chapter
+-->
+
+![bg right](images/bg_business_question.jpg)
+
+## Étape 1 -<br/> Formaliser les questions business
+
+----
+
+## Étape 1 - Formaliser les questions business
+
+### Objectifs
+
+* Périmétrer le projet
+  * quels services ?
+  * quels enjeux opérationnels ?
+  * quels référentiels et réglementations à respecter ?
+  * quel environnement ?
+* Formaliser 
+  * les objectifs 
+  * les lignes rouges à ne pas franchir
+
+---
+
+## Étape 1 - Formaliser les questions business
+
+### Comment ? <small>(1/2)</small>
+
+* Définir les problématiques à résoudre parmi cinq types de questions :
+    * Quelle quantité ? (régression)
+    * Est-ce A ou B (ou C, D, E... ) ? (classification)
+    * Comment les données sont-elles organisées? (clustering)
+    * Est-ce étrange ? (détection d’anomalie)
+    * Que devons-nous faire ensuite ? (apprentissage par renforcement)
+
+---
+
+## Étape 1 - Formaliser les questions business
+
+### Comment ? <small>(2/2)</small>
+
+* Identifier les variables à prédire
+  * Prévisions de ventes (régression)
+  * Profil client (clustering)
+  * « Qu’est-ce qui attire le plus les clients : un coupon de 5 € ou une remise de 25 % ? » (classification)
+
+---
+
+<!--
+_class: chapter
+-->
+
+![bg right](images/bg_data_collection.jpg)
+
+
+## Étape 2 -<br/> Collecte des données
+
+---
+
+## Étape 2 - Collecte des données
+
+### Objectif
+
+* Identifier les données utiles
+* Rendre leur accès possible
+  * Les données sont rarement au même endroit
+  * Identifier les sources où obtenir ces données
+  * Savoir y accéder
+
+&nbsp;<br/>
+
+:warning: La collecte de données est consommatrice de temps et d’énergie
+
+---
+
+## Étape 2 - Collecte des données
+
+### Cas idéal : bases de données existantes
+
+* Une partie des données sont regroupée dans une ou plusieurs bases de données (BDD) :
+  * Il faut trouver les BDD dans son entreprise (ou chez les fournisseurs) 
+  * Les BDD sont accessibles, documentées et les données structurées (ex: data warehouse, BDD relationnelle).
+  * Il faut récupérer des données peu structurées via des requêtes (requêtes SQL, etc.)
+
+---
+
+## Étape 2 - Collecte des données
+
+### Cas fréquent : pas de base de données 
+
+* Il faut extraire les données depuis d'autre supports 
+  * Reconnaissance de texte automatisée (_Optical Character Recognition_ ou _OCR_) 
+  * Recopie depuis des formulaires papier (_data entry_)
+  * Extraction de données depuis des sites web (_web scraping_)
+  * Extraction de données depuis des services web (_API REST_, _XML RPC_)
+
+----
+
+## Étape 2 - Collecte des données
+
+### Cas du _web scraping_ <small>(1/2)</small>
+
+* Il s'agit d'écrire un programme pour
+  * télécharger une page d'un site web
+  * la découper pour extraire les données,
+  * les structurer et l'exporter au format souhaité
+* Méthode rarement utilisables en production
+  * s’apparente à voler des données sur un site…
+  * … sauf autorisation explicite contraire !
+
+----
+
+## Étape 2 - Collecte des données
+
+### Cas du _web scraping_ <small>(2/2)</small>
+
+* Méthode chronophage et difficile :
+  * À faire au cas, car tous les sites sont différents :cry:
+  * Certaines parties des sites sont dynamiques :scream:
+  * Les sites web évoluent et leur structure peut changer du jour au lendemain :sob:
+
+----
+
+## Étape 2 - Collecte des données
+
+### Cas des API (Application Programming Interface)
+
+* Fournies par des tiers (organisations, développeurs, etc.)
+* Implémentées par les développeurs dans un programme sur mesure
+* Permettent d'effectuer des actions sur un système extérieur
+  * ex: [OpenWeatherMap API](https://openweathermap.org/api)
+  * ex: [Covid-19 API](https://covid2019-api.herokuapp.com/)
+  * ex: [SNCF API](https://www.digital.sncf.com/startup/api)
+
+:warning: Le nombre d'accès peut être limité dans le temps (ex: 100 connexions / heure)
+
+:blue_book: Le site [Programme Web](https://www.programmableweb.com/) référence les API publiques depuis 2005
+
+---
+
+<!--
+_class: chapter
+-->
+
+## Étape 3 -<br/>Construction du <br/>Data Hub
+
+![bg right](images/bg_data_hub.jpg)
+
+---
+
+## Étape 3 - Construction du Data Hub
+
+### Objectifs
+
+* Nettoyer les données
+* Mettre en forme les données
+* Rendre utilisable par les algorithmes qui seront choisis
+
+### Enjeux
+
+* Éviter des erreurs dans les hypothèses
+* Limiter les biais dans les modèles prédictifs
+
+---
+
+## Étape 3 - Construction du Data Hub
+
+### Contraintes
+
+* Phase la plus chronophage du projet
+  * 50 à 80% du temps
+* Volumétrie des données (To, Po et +)
+* Aller-retours en data scientists et les équipes métiers
+* Des formats de données différents à convertir
+  * CSV, JSON, XML, SQL, etc.
+
+---
+
+## Étape 3 - Construction du Data Hub
+
+### Risque : données erronées
+
+* Erreurs de saisie
+* Incompatibilités entre la source de données et la base
+
+### Risque : données incomplètes
+
+* ex: Les utilisateurs ne renseignent que les champs obligatoires
+* ex: Les utilisateurs ne renseignent que ceux qui les concernent dans leur activité (les autres données passent à la trappe)
+
+---
+
+## Étape 3 - Construction du Data Hub
+
+### Risque : données non normées
+
+* Plusieurs utilisateurs renseignent une donnée identique sous des formats différents
+* ex: un individu de sexe masculin sera renseigné M., Mr ou Monsieur
+
+&rArr; Conséquence : impossible de comparer les données
+
+---
+
+## Étape 3 - Construction du Data Hub
+
+### Risque : les doublons
+
+* Un donnée se retrouve plusieurs fois dans la base
+  * Laquelle est la plus à jour ?
+  * Laquelle est la source ?
+  * Comment fusionner les données ?
+
+&rArr; Conséquence : sur-représentation d'une information
+
+---
+
+## Étape 3 - Construction du Data Hub
+
+### Risque : les données obsolètes
+
+* ex: Une entreprise a fermé, a déménagé
+* ex: Un client s'est inscrit il y a 10 ans, mais n'a jamais utilisé le site depuis
+* ex: Mme X a remplacé Mr Y
+
+&rArr; Conséquence : la qualité et la pertinence de la base se détériore
+
+---
+
+## Étape 3 - Construction du Data Hub
+
+### Outils
+
+* Pandas (Python)
+* Dplyr/Data.table (R)
+* SQL
+
+---
+
+<!--
+_class: chapter
+-->
+
+## Étape 4 - Modélisation et analyse des données
+
+![bg right](images/bg_data_analysis.jpg)
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Formulation des hypothèses - Objectifs
+
+  * Établir des liens de corrélation entre les données
+  * Croiser les différentes natures de données
+  * Dégager des tendances
+
+Exemple : estimation d’un prix de vente d’un bien immobilier
+
+  * jeu de données : localisation, superficie, rendement locatif, age et qualité de la construction, équipements
+  * hypothèses: relation entre prix de vente (m$^2$) et localisation
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Formulation des hypothèses - Outils
+
+* Graphiques
+	* Diagrammes de dispersion
+	* Courbes de distributions
+	* Histogrammes
+* Power BI
+* Qlickview
+* Jupyter Notebooks
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Formulation des hypothèses - Contraintes
+
+* Se fait en itérations avec l'étape de nettoyage
+* En fouillant les hypothèses on trouve des incohérences et vice versa
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Déterminations des variables synthétiques
+
+* Sélection des variables pertinentes (Feature selection)
+  * Sélectionner les variables qui expliquent/ impactent le problème à résoudre
+  * Retirer du jeu de données les variables à faibles intérêts sont
+* Modèle simple
+  * Intuitif et compréhensible
+  * Réduction de la phase d’apprentissage des modèles
+  * Réduction de la dimensionnalité
+* Modèle complexe
+  * Analyse fine et précise de la problématique donnée
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Déterminations des variables synthétiques
+
+* Transformation des variables (Feature construction)
+  * créer de nouvelles variables à partir des variables brutes du jeu de données
+  * Cette méthode s’applique très souvent aux variables continues (le nombre de possibilités est infini)
+  * lorsque les experts métiers préconisent que le problème à prédire dépend d’une valeur seuil
+
+Exemple : pour une variable "age"
+
+* le data scientist pourrait fixer un seuil à 18 ans et ainsi créer deux nouvelles variables ("majeur" ou "mineur")
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Construction du modèle
+
+* Cette étape correspond à la phase de _machine learning_ à proprement parler
+  * Choisir les différents modèles de machine learning
+  * Permettre de modéliser au mieux la variable cible à expliquer (problématique métier)
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Modèle GLM (linéaire généralisé)
+
+* Logit en classification + régression linéaire
+  * Simple
+  * Interprétable
+  * Souvent de bons proxys dans des cas simples
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Modèle Random Forest et Boosted Trees (xgboost, lightgbm)
+
+* Non paramétriques
+* S’adaptent très bien aux données « spontanément »
+* Des performances nettement meilleures que les modèles GLM dans la grande majorité des cas
+* Plus difficiles à calibrer (tuning d’hyper paramètres)
+  * Moins stables dans le temps et moins interprétables
+  * Peut représenter un frein à leur mise en production
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Modèle _Deep Learning_
+
+* Spécifiquement adaptés lorsque les données sont du texte ou des images
+* Performent bien mieux que les méthodes citées précédemment
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Autres modèles ?
+
+* De nombreux autres modèles existent (SVM, Naïve Bayes)
+* Parfois plus performants dans des cas spécifiques
+* Assez peu utilisés
+
+---
+
+## Étape 4 - Modélisation et analyse des données
+
+### Validation du modèle ?
+
+* Diviser le jeu de données retraité en plusieurs parties
+  * 70% pour la conception + 30% pour le test
+  * 50% pour la conception + 30% pour le test + 20% pour la validation
+* La division se fait aléatoirement
+* Attention à ce que les différentes "classes" de données soient équitablement réparties
+
+---
+
+<!--
+* validation du modele
+* comment | 
+Afin de sélectionner le « modèle le plus adéquat », il est d’usage de diviser
+le jeu de données retraité en deux parties. La première partie - 70% du jeux
+de données - participera à la conception du modèle et la seconde partie à le
+tester. Dans le cadre de modèles complexes qui nécessitent de tuner des
+paramètres afin de ne pas apprendre indirectement sur le jeu de test, les
+données peuvent être divisées en trois parties afin de concevoir, tester et
+valider le modèle.
+
+En général, cette division en deux/ trois jeux de données se fait
+aléatoirement. Les différentes classes vont « naturellement » être bien
+réparties sauf dans le cas où l’une d’entre elles est très sous représentée,
+ce qui est un point d’attention général de la modélisation : il va falloir
+essayer de « forcer l’apprentissage » à identifier des phénomènes très rares
+et donc par nature difficiles à détecter. Par exemple, si le problème est un
+sujet de classification, il faut s’assurer que l’ensemble des classes à
+prédire est bien représenté dans les jeux de données.
+
+Lors de la phase de « training », le premier jeu de données va permettre de
+concevoir/caliber le modèle c’est-à-dire d’estimer les paramètres du « modèle
+théorique ». Par exemple si le data scientist suggère que la variable cible Y
+repose sur un modèle théorique établi comme suit :
+
+Y= m * X + b
+
+Avec :
+
+Y : Variable à expliquer (problématique métier)
+
+X : variable explicative
+
+m et b : les paramètres
+
+La phase de training va permettre à l'algorithme de machine learning de
+déterminer mécaniquement et par itération les paramètres « m » et « b » de la
+manière la plus précise possible en fonction du jeu de données (les couples
+(Xi Yi) du jeu de données N°1).
+
+Le second jeu de données va permettre d’évaluer le modèle c’est-à-dire de
+faire tourner le modèle établi en phase de training sur les données X non
+encore utilisées. Le modèle va générer des données Yi et il suffira de
+s’assurer que les outputs ne dévient pas de manière significative avec les
+données cibles réelles Yi du jeu de donné N°2). Le niveau de performance des
+modèles se matérialise par la fonction d’erreur.
+
+De ces deux phases dépendront la sélection du modèle prédictif retenu et le
+déploiement de ce dernier.  
+-->
+
+## Étape 4 - Modélisation et analyse des données
+
+### Présentation & communication
+
+* Restituer ses travaux de manière claire, pédagogue et dynamique
+* Tirer rapidement des informations
+  * Représentations graphiques pertinentes et dynamiques (vs des données statistiques chiffrées)
+
+<!--
+* outils
+  * directement sous Python (Jupyter)
+  * des outils de BI plus souples tels que Power BI
+  * Qlickview
+-->
+
+---
+
+<!--
+_class: chapter
+-->
+
+## 5. Évaluation
+
+![bg right](images/bg_data_evaluation.jpg)
+
+---
+
+## 5. Évaluation
+
+### Enjeux
+
+* Vérifier que l'analyse répond bien aux questions posées
+  * Robustesse ?
+  * Précision
+* Évaluer le retour sur investissement de la démarche data
+* Décide du déploiement du modèle ou de son amélioration
+
+---
+
+<!--
+_class: chapter
+-->
+
+## Étape 6 -<br/> Déploiement et industrialisation
+
+![bg right](images/bg_production_1.jpg)
+
+---
+
+## Étape 6 - Déploiement et industrialisation
+
+### Objectifs
+
+* Mise en production
+  * Génération d'un rapport
+  * Mise en place d'une application
+* L'intégrer au processus de décision
+
+---
+
+## Étape 6 - Déploiement et industrialisation
+
+### De nouvelles questions
+
+* Comment mettre à jour un modèle apprenant ?
+* Comment vérifier son bon fonctionnement ?
+
+---
+
+<!--
+_class: chapter
+-->
+
+
+## Merci pour votre attention !
+
+<!--
+
+## Références
+
+  * [Méthode CRISP : la clé de la réussite en Data Science![Flag: url](flags/flag-url.png)](https://fr.blog.businessdecision.com/methode-crisp-la-cle-de-la-reussite-en-data-science/)
+  * <http://www.mc2i.fr/La-methode-CRISP-pour-les-projets-Big-Data>[![Flag: url](flags/flag-url.png)](http://www.mc2i.fr/La-methode-CRISP-pour-les-projets-Big-Data)
+  * [READ. Les 7 étapes d'un projet data science![Flag: url](flags/flag-url.png)](https://www.linkedin.com/pulse/les-7-%C3%A9tapes-dun-projet-data-science-j%C3%A9r%C3%A9my-bouzidi/)
+
+-->
--- a/slides/03-modeles-economiques.md
+++ b/slides/03-modeles-economiques.md
@ -0,0 +1,520 @@
+<!--
+theme: default
+paginate: true
+footer: Glenn Rolland © 2020
+
+_backgroundColor: #662d91
+_color: white
+-->
+
+# Gestion de projets _data_
+
+### Modèles économiques
+
+> Glenn Y. Rolland 
+> <glenux@glenux.net>
+
+----
+
+
+<!-- 
+_class: chapter
+-->
+
+![bg right](images/bg_business_question.jpg)
+
+## La données comme potentiel
+
+----
+
+## La données comme potentiel
+
+### Pour l'innovation
+
+- Une ressource rare devenue abondante
+- ex: chasseur cueilleurs => société agricole
+  - plus de nourriture
+- ex: invention de l'imprimerie
+  - plus d'instruction
+- ex: nouveaux processus de production
+  - plus de produits (en série)
+- ex: le web
+  - plus de données
+
+----
+
+## La données comme potentiel
+
+### Impact sur la société
+
+- Nouvelles structures sociales
+- Nouvelles formes de gouvernance
+- Nouvelles sources de richesse
+- Nouvelles opportunités
+- Nouvelles inégalités
+
+----
+
+## La données comme potentiel
+
+### Une ressource particulière (1/2)
+
+- Une source illimitée
+  - Contrairement aux ressources naturelles
+- En croissance
+  - Fonction du nombre de personnes touchées
+  - Fonction du nombre de services
+  - Fonction du nombre de capteurs
+
+----
+
+## La données comme potentiel
+
+### Une ressource particulière (2/2)
+
+- Aucune rivalité
+  - Consommation possible par plusieurs acteurs en meme temps
+- Plus elle est utilisée, plus sa valeur augmente
+
+----
+
+## La données comme potentiel
+
+### Quelle valeur pour la donnée ? Estimations
+
+- Taille du marché direct des données publiques ouvertes, sur 2016-2020 : 35
+milliards d'euros
+  - Comission Européenne, étude sur l'impact des données 2015
+
+- Le big data, par an, 3000 milliards d'euros
+  - Rapport de McKinsey Global Institude, 2014
+
+----
+
+## La données comme potentiel
+
+### Quelle valeur pour la donnée ? Hmmm
+
+- Difficile à quantifier, pas de valeur intrinsèque
+- La valeur réside dans la manière dont on les utilise
+
+
+----
+
+## La données comme potentiel
+
+### Quelle valeur d'usage pour les données ?
+
+- Fonction de sservices créés
+- Fonction des nouveaux produits et idées
+- Fonction des nouveaux modeles économiques
+- Fonction des nouvelles activités créées
+- Fonction de leur impact sur le réel
+
+
+----
+
+<!-- 
+_class: chapter
+-->
+
+![bg right](images/bg_business_question.jpg)
+
+## Différents types de données
+
+----
+
+## Différents types de données
+
+### Les données « ouvertes »
+
+- Tout le monde y a accès
+- Elles peuvent etre partagées par tous
+- Elles peuvent être utilisées par tous
+
+----
+
+## Différents types de données
+
+### Les données « partagées »
+
+- Entre organisations (publiques, privées)
+- Acces autorisé en contrepartie d'une forme de redevance
+
+----
+
+## Différents types de données
+
+### Les données « fermées »
+
+- Tenues confidentielles
+- Accessibles à de rares personnes
+
+----
+
+<!-- 
+_class: chapter
+-->
+
+![bg right](images/bg_business_question.jpg)
+
+## Un sujet éminament politique
+
+----
+
+## Un sujet politique
+
+### Estonie
+
+- X-Road (depuis 2000)
+  - interconnecter les bases de données des administrations
+
+- 1200 services proposés
+- 150 produceturs de données
+- 950 "consommateurs" de services
+
+----
+
+## Un sujet politique
+
+### Danemark (depuis 2012)
+
+- Programme "Basic Data – Grunddata"
+- Basic Data Board
+- De nouvelles roles et métiers règlementés
+- Des leviers budgétaires forts
+
+----
+
+## Un sujet politique
+
+### Royaume Uni (depuis 2013) (1/2)
+
+  - National Information Infrastructure
+  - De nombreuses initiatives
+    - Open Data Institute
+    - Tech City UK
+    - Digital Catapult
+    - Tech North
+    - Alan Turing Institute
+
+----
+
+## Un sujet politique
+
+### Royaume Uni (depuis 2013) (2/2)
+
+  - 43% des licornes européennes (non cotées, spécialisées sur les données) sont au
+Royaume unie
+  - 12% des entreprises du secteur numérique connaissent une croissance rapide
+
+
+----
+
+## Un sujet politique
+
+### France : des efforts...
+
+  - Nouvelle France Industrielle (2013)
+  - Etalab
+  - La French Tech
+  - Cap Digital
+  - France.Data.Gouv.Fr
+
+
+
+----
+
+## Un sujet politique
+
+### Un impact réel et mesurable
+
+- ex: 85% de réduction des infections nosocomiales
+- ex: économies sur la consommation d'électricité
+- ex: aides aux TPE en fonction de "signaux faibles"
+- ex: réducation d'inégalités face à l'accès au logement
+- etc.
+
+
+
+----
+
+## Un sujet politique
+
+### Un ensemble de mesures essentielles (1/3)
+
+- Produire des données essentielles
+  - Identifier et donner une reconnaissance aux données de référence
+  - Préserver la souveraineté informationnelle
+- Encourager la collaboration
+  - Jumelage des programmes nationnaux sur les données
+- Développer les réseaux
+  - Partage de bonnes pratiques & réseau de startups
+- Permettre l'innovation et créer des échanges
+  - Jumelage entre villes présentant des caractéristiques similaires (démographie,
+économie, etc.)
+
+----
+
+## Un sujet politique
+
+### Un ensemble de mesures essentielles (2/3)
+
+* Faciliter l'usage des données
+  - Recommandation : Développer un maximum d'API
+  - Définir de nouveaux standards de données
+* Développer l'infrastructure de services interconnectés
+  - Construction de registres de données de référence
+  - Coordonner la production des données serait source d’économie et d’efficience
+* Faciliter l'accès aux services
+  - Programmes d'identification électronique, mise en commun des informations &
+partage d'expérience entre pays
+
+----
+
+## Un sujet politique
+
+### Un ensemble de mesures essentielles (3/3)
+
+* Surmonter la pénurie de compétences
+  - Développer les programmes d'éducation
+  - Promouvoir l'acquisition de connaissances de base en matière de données
+
+- Renforcer le pouvoir d'action des citoyens sur leurs données
+- Anticiper les enjeux futurs en matire de poltiique des données
+
+
+----
+
+<!-- 
+_class: chapter
+-->
+
+![bg right](images/bg_business_question.jpg)
+
+## Chaine de valeur des données
+
+----
+
+## Chaine de valeur des données
+
+### Les données en tant qu'actif
+
+* Pour améliorer l’allocation des ressources ou les processus 
+  * réduire les cout de transaction dans un objectif de gains d’efficacité
+* Pour améliorer et personnaliser les services
+  * pour en accroître la qualité et l'attractivité
+* Comme élément de l’analyse prédictive 
+  * étayer la prise de décision
+  * améliorer la pertinence de cette dernière
+* Pour mener des recherches en sciences sociales et établir des modèles
+  comportementaux.
+
+
+----
+
+
+## Chaine de valeur des données
+
+### Source d'externalité positives (1/2)
+
+- Pour encourager l’innovation par la création de nouveaux services et 		 de
+  nouveaux modèles économiques ;
+- Créent de nouveaux marchés et permettent leur régulation
+  - ex: Uber, Blablacar
+- Constituent une source de développement en produisant des effets sociaux
+  positifs et en améliorant la rationalité économique des agents ;
+
+----
+
+
+## Chaine de valeur des données
+
+### Source d'externalité positives (2/2)
+
+- Réduisent l’asymétrie d’information elles constituent une source de transparence
+  - Ushaihidi
+- Utilisées pour promouvoir la coopération par la création de communs
+  contributifs et l’exploitation d’économies d’échelle.
+  - ex: OpenStreeMap
+  - carte des tremblements de terre
+
+
+
+----
+
+## Chaine de valeur des données
+
+### Les questions à se poser (1/3)
+
+- Quelles infrastructures ?
+  - Probleme : elle est invisible
+  - Probleme 2 : tout dépend d'elle
+- Quelles données essentielles disponibles ?
+- Quelle est la qualité de mes données
+  - Fraicheur
+  - Source identifiable
+  - Quels formats / standards
+
+----
+
+## Chaine de valeur des données
+
+### Les questions à se poser (2/3)
+
+- Quelles usages possibles VS quels usages souhaités ?
+- Quelle ouverture possible VS quelle ouverture souhaitée ?
+  - Les données fermées sont difficiles à répertorier
+  - Cela constitue un frein sur le marché
+- Comment rendre ces données exploitables ?
+  - API
+  - Interopérabilité
+
+----
+
+## Chaine de valeur des données
+
+### Les questions à se poser (3/3)
+
+- Quelles règlementations à respecter ?
+  - Légalité des données à l'origine
+  - Légalité des données à la sortie
+  - Autres contraintes ?
+
+----
+
+<!-- 
+_class: chapter
+-->
+
+![bg right](images/bg_business_question.jpg)
+
+## Nouveaux enjeux pour les entreprises
+
+----
+
+## Nouveaux enjeux pour les entreprises
+
+### La question de la survie
+
+- Anciens modeles
+- Nouveaux modeles "augmentés" aux data
+- Réinvention par la donnée ?
+  - ... ou disparition programmée ?
+
+
+----
+
+
+## Nouveaux enjeux pour les entreprises
+
+### Comprendre la valeur de la donnée
+
+- Comme matiere premiere
+  - Certaines données sont monétisables
+  - Il peut etre utile d'en acquérir
+- Comme valeur d'usage
+  - Permet de mieux décider
+  - Permet de mieux agir
+  - Permet de mieux produire
+- Comme actif stratégique
+  - Permet une influence sur toute la chaine de valeur
+
+
+----
+
+## Nouveaux enjeux pour les entreprises
+
+### Mise en place d'une politique de données
+
+- Identifier les données
+- Cartographier les données
+- Elaborer un plan d'expérimentation
+  - Encore peu de certitudes dans ce domaine
+  - Test & Learn
+
+
+----
+
+## Nouveaux enjeux pour les entreprises
+
+### S'interroger sur le partage (1/2)
+
+- __La valeur vient souvent d'une co-construction__
+  - Ex: utilisation des données par un tiers de façon non-prévisible
+
+- Approche par filière
+  - Avec plate-forme d'échange
+  - Définition de règles
+  - ex: Airbus & Skywise
+
+----
+
+## Nouveaux enjeux pour les entreprises
+
+### S'interroger sur le partage (2/2)
+
+- Approche écosystémique
+  - ex: Twitter
+  - ex: Blockchain
+    - La confiance n'exclut pas le controle
+
+
+----
+
+## Nouveaux enjeux pour les entreprises
+
+### Intégrer la question de la sécurité
+
+----
+
+## Nouveaux enjeux pour les entreprises
+
+### Repositionner la stratégie face aux données
+
+  - Connaissance de la données
+  - Amélioration opératoinnelle
+  - Création de nouveaux services / produits
+
+
+----
+
+<!-- 
+_class: chapter
+-->
+
+![bg right](images/bg_business_question.jpg)
+
+## Réinventer l'entreprise avec les données
+
+----
+
+## Réinventer l'entreprise avec les données
+
+### Les questions à se poser avant tout
+
+* « Qu'est ce que je souhaite apporter à mon client final ? »
+  - avant d'élaborer une stratégie
+
+* Comment améliorer ma relation client
+  - B2B devient comme le B2C
+
+----
+
+## Réinventer l'entreprise avec les données
+
+### A retenir pour les entreprises
+
+* La gestion des données est une composante métier à part entiere
+
+* L'impact : le développement de nouvelles activités
+
+  * ex: Nexity, ancien promoteur, devient plate-forme d'information et de services
+immobliers
+  * ex: Direct Energie apporte le meme produit que ses concurrents, mais se
+distingue par la données qu'il produit et qui permet d'optmiser la conso
+
+----
+
+## Merci pour votre attention !
+
--- a/slides/03-modeles-economiques.v2.md
+++ b/slides/03-modeles-economiques.v2.md
@ -0,0 +1,135 @@
+
+----
+
+## Business model and data
+
+* A business model “describes the rationale of how an organization creates, delivers, and captures value.” A Data Business Model is a business model where data is an indispensable component.
+
+---
+
+## How can Data be Monetized?
+
+* Data itself 
+* Data storage
+* Data transfer
+* Data filtering
+* Data aggregation
+* Data analysis
+* Generated data
+
+----
+
+  * If you have a valuable dataset that others would pay to access, then you can sell it directly (e.g. Factual, FullContact, Yodlee) or build the only access point and sell it indirectly (e.g. DataFox, Mattermark, Bloomberg, and LoopNet).
+Data helps drive revenue, and built products based on data. As you learn about customer preferences, you can improve product recommendations and greatly increase each customer’s lifetime value. This is huge for Amazon and most eCommerce companies. If you’re building a repository of content (which is a form of data), you can use that to drive ads. You can also use data about your users to better monetize ad targeting, like Facebook and Twitter do.
+Data helps improve profit margins. Possible ways to improve margins with data include conversion funnel optimization, price optimization, and accurate supply/demand prediction. Examples: Amazon, online marketplaces, and every company that uses A/B testing.
+Specific Monetization Game Plans
+How can you turn the business models above into actual businesses? Here are some specific recipes for different types of products:
+
+----
+
+## Content Companies
+
+Build a content site, use engagement data to decide what content to produce (e.g. BuzzFeed, Bleacher Report)
+Build a user-generated content site, display relevant ads/affiliate links/product recs next to content (e.g. Yelp, Pinterest, eventually Quora)
+Use behavioral data to create better content recommendations and higher engagement, then charge for usage (e.g. Pandora, Netflix)
+
+eCommerce
+
+Use purchase and conversion data to implement profit-maximizing pricing (e.g. Amazon, eBay, most eCommerce companies)
+Use data to create better product recommendations and increase basket size (e.g. Warby Parker, Lumoid, True&Co)
+(These two recipes can also be applied to other companies, like SaaS startups, but they have a deeper impact on eCommerce companies because of the lower margins. Taking a SaaS company from a 50% margin to a 75% margin is great, but taking an eCommerce company from -5% margin to 20% margin is what turns it into a real business.)
+
+----
+
+## Data providers
+
+Sell access to premium data (LinkedIn subscriptions, IMDB Pro, DataFox, LoopNet).
+Sell API access to raw data (Factual, Clearbit, Yodlee)
+Help customers augment their datasets with external data (e.g. Factual for location data, Zephyr Health for medical and health data, Socrata for government data). This is different than selling data because that model is more about selling an entire self-contained datasets to customers; this model is more about helping customers who already have some data enrich their data with other attributes. This business model is often much more reliant on integration and deduping algorithms than on data acquisition.
+
+## B2B and B2C tools
+
+Build models from product usage data (e.g. LendUp for credit scoring, Sift Science for fraud detection, Framed Data for churn prediction, Metromile for car insurance). Increased product usage leads to better models, which are both more valuable to customers and more difficult for competitors to replicate.
+Build a consumer app that saves time for customers and collects data as a result (e.g. inbox organization tools like Unroll.Me, shopping related tools like Honey and Two Tap, and smart launchers and homescreens like Bento). This data can be used for better recommendations or ad targeting, and can often be monetized by affiliate fees.
+Build a SaaS product that makes some industry more efficient, usually through replacing faxes/voicemails/emails with online forms. Use form data to build killer features (e.g. Flexport, SimpleLegal, Sourcery)
+
+----
+
+## Cases study
+
+---
+
+## Cases study
+
+### Zoho
+
+Having established itself as a SaaS leader in office productivity and CRM tools, Zoho offers a versatile data analytics platform geared for both professional data scientists and mid-level staffers who want a self-service option. The application has an intuitive drag and drop interface as well as a classic spreadsheet-style interface. Zoho Analytics is geared for organizations that want to provide actionable data analytics insight to staffers at every level.
+
+----
+
+## Cases study
+
+### Salesforce
+
+Salesforce, the king of SaaS, became a software vendor when it announced plans to purchase Tableau Systems, a data visualization firm that has expanded from its original mission to include Big Data research. It offers visualization of data from any source, from Hadoop to Excel files. Salesforce has its own Big Data tools in joined reports, which lets customers compare different data sets in the hopes of getting insights from customer data.
+
+----
+
+## Cases study
+
+### IBM
+
+IBM supports Big Data analytics through a number of databases, including DB2, Informix, and InfoSphere. It also has popular analytics applications such as Cognos and SPSS. In terms of pure Big Data, IBM has its own Hadoop distribution, Stream Computing to perform real-time data processing, IBM BigInsights for Apache Hadoop, and IBM BigInsights on Cloud offering Hadoop as a service through IBM Cloud.
+
+----
+
+## Cases study
+
+### HP Enterprise
+
+HP Enterprise’s main Big Data product is Vertica Analytics Platform, designed to manage a large volume of structured data with fast query performance on Hadoop and SQL Analytics. It also has Vertica Advanced Analytics for deployment across multiple clouds, commodity hardware, and on any Hadoop distribution system. HPE also has HAVEn, a Big Data platform available on demand focused on machine learning.
+
+HPE has a number of hardware products, including HPE Moonshot, the ultra-converged workload servers, the HPE Apollo 4000 purpose-built server for Big Data, analytics and object storage. HPE ConvergedSystem is designed for SAP HANA workloads and HPE 3PAR StoreServ 20000 stores analyzed data, addressing existing workload demands and future growth.
+
+----
+
+## Cases study
+
+### SAP
+
+SAP's main Big Data tool is its HANA in-memory relational database that works with Hadoop. HANA is a traditional row-and-column database, but it can perform advanced analytics, like predictive analytics, spatial data processing, text analytics, text search, streaming analytics, and graph data processing and has ETL (Extract, Transform, and Load) capabilities. SAP also offers data warehousing to manage all of your data from a single platform, cloud services, as well as data management tools for governance, orchestration, cleansing, and storage.
+
+----
+
+## Cases study
+
+### Oracle
+
+Oracle has a dedicated Big Data Appliance server preloaded and configured with a number of Oracle software products. This includes Oracle Autonomous Data Warehouse, Oracle NoSQL Database, Apache Hadoop, Oracle Data Integrator with Application Adapter for Hadoop, and Oracle Loader for Hadoop. It also has a number of on-premises and cloud-based analytics products as well as integration platforms and streaming analytics to handle data as it comes in.
+
+Apache
+The Apache Hadoop software library remains the framework for Big Data although many vendors have taken the framework and built their own proprietary and unique functions on it. The base system provides an outline to do your own customization and is designed to scale up from a single server to thousands. Apache also offers Spark, which does in-memory, real-time processing. Apache also offers Storm, a real-time, fault-tolerant processing system designed to run parallel calculations that run across a cluster of machines.
+
+Microsoft
+Microsoft's Big Data strategy – helped by its Azure cloud platform – is fairly broad and has grown fast. It has a partnership with Hortonworks and offers the HDInsights tool based for analyzing structured and unstructured data on Hortonworks Data Platform. Microsoft also offers the iTrend platform for dynamic reporting of campaigns, brands and individual products.
+SQL Server 2016 comes with a connector to Hadoop for Big Data processing, and Microsoft recently acquired Revolution Analytics, which made the only Big Data analytics platform written in R, a programming language for building Big Data apps without requiring the skills of a data scientist.
+
+Amazon Web Services
+Amazon Web Services offers an array of Big Data products, the main one being the Hadoop-based Elastic MapReduce (EMR), plus Athena for basic database analytics, Kinesis and Storm for real-time analytics, and a number of databases, including DynamoDB Big Data database, Redshift, and NoSQL.
+Naturally, AWS benefits greatly in the data market from its overwhelming cloud presence. Many clients turn to their existing cloud provider to purchase Big Data services, which create an enormous natural funnel for AWS.
+
+Google
+Google continues to expand on its Big Data analytics offerings, starting with BigQuery, a cloud-based analytics platform for quickly analyzing very large datasets. BigQuery is serverless, so there is no infrastructure to manage and you don't need a database administrator, it uses a pay-as-you-go model.
+Google also offers Dataflow, a real time data processing service, Dataproc, a Hadoop/Spark-based service, Pub/Sub to connect your services to Google messaging, and Genomics, which is focused on genomic sciences.
+
+Cloudera
+Cloudera recently merged with Hortonworks, in a marriage of the two largest Hadoop providers. While both focused on the Hadoop market they took different approaches. Hortonworks targeted more technical users and took a pure open source approach, while Cloudera went for the IT market and offered some proprietary tools. Combined, the firm says it will offer a broad spectrum of Hadoop products.
+
+----
+
+## Références
+
+For more content about business model: 
+
+https://www.feedough.com/what-is-a-business-model/
+
--- a/slides/04-gouvernance.md
+++ b/slides/04-gouvernance.md
@ -0,0 +1,20 @@
+<!--
+theme: default
+paginate: true
+footer: Glenn Rolland © 2020
+
+_backgroundColor: #662d91
+_color: white
+-->
+
+# Gestion de projets _data_
+
+### Gouvernance
+
+> Glenn Y. Rolland 
+> <glenux@glenux.net>
+
+---
+
+
+
--- a/slides/05-reglementation.md
+++ b/slides/05-reglementation.md
@ -0,0 +1,24 @@
+<!--
+theme: default
+paginate: true
+footer: Glenn Rolland © 2020
+
+_backgroundColor: #662d91
+_color: white
+-->
+
+# Gestion de projets _data_
+
+### Règlementation
+
+> Glenn Y. Rolland 
+> <glenux@glenux.net>
+
+---
+
+## Références
+
+* https://www.economie.gouv.fr/files/files/directions_services/dgccrf/documentation/fiches_pratiques/fiches/RGPD-septembre-2018.pdf
+* https://www.economie.gouv.fr/files/files/directions_services/cge/e-privacy.pdf
+* https://www.associations.gouv.fr/IMG/pdf/fiche_pratique_rgpd.pdf
+* https://solidarites-sante.gouv.fr/IMG/pdf/dgos_memento_ssi_131117.pdf
--- a/slides/_references.md
+++ b/slides/_references.md
@ -0,0 +1,37 @@
+
+## Références
+
+* GOOD: https://www.cigref.fr/wp/wp-content/uploads/2015/11/CIGREF-Economie-donnees-perso-Enjeux-business-ethique-2015.pdf
+* GOOD: https://hal.archives-ouvertes.fr/hal-01821836/document
+* GOOD: https://infolabs.io/sites/default/files/livret3gt_gourvernancevf_weba4.pdf
+* GOOD: https://www.cigref.fr/wp/wp-content/uploads/2014/10/CIGREF-Enjeux-business-donnees-2014.pdf
+* GOOD: https://www.ecologique-solidaire.gouv.fr/sites/default/files/SGD%20-%20Feuille%20de%20route.pdf
+* GOOD: https://www.etalab.gouv.fr/wp-content/uploads/2018/04/RapportAGD_2016-2017_web.pdf
+* GOOD: https://www.modernisation.gouv.fr/sites/default/files/rapport_agd_decembre2015.pdf
+
+* READ: https://syntec-numerique.fr/sites/default/files/Documents/2018_05_23_note_de_synthese_grand_debat_de_la_donnee_du_15_mai.pdf
+* READ: https://www.economie.gouv.fr/files/files/PDF/rapport-taskforce_fr.pdf
+* [READ. La Tribune : Mener à bien un projet data : une route encore semée d'embûches![Flag: url](flags/flag-url.png)](https://www.latribune.fr/opinions/tribunes/mener-a-bien-un-projet-data-une-route-encore-semee-d-embuches-792583.html)
+* [Data Analytics Post : CHEF DE PROJET DATA : L’EXPERT BUSINESS DE L’ENTREPRISE![Flag: url](flags/flag-url.png)](https://dataanalyticspost.com/fiche-metier/chef-de-projet-data/)
+* [Op Team : Quelle gestion de projet pour le BIG DATA![Flag: url](flags/flag-url.png)](https://www.opteam.fr/blog/quelle-gestion-de-projet-pour-le-big-data)
+* [PLB : Formation Big Data : Concevoir et piloter un projet Big Data![Flag: url](flags/flag-url.png)](https://www.plb.fr/formation/aide-%C3%A0-la-d%C3%A9cision/formation-gestion-projet-big-data,31-700375.php)
+* [READ. Chefdentreprise.com : PME : les 5 étapes clés pour réussir un projet data![Flag: url](flags/flag-url.png)](https://www.chefdentreprise.com/)
+* ROI
+* PME
+* [READ. BusinessDecisions : Data Science et IA : comment bien cadrer vos projets d’entreprise ?![Flag: url](flags/flag-url.png)](https://fr.blog.businessdecision.com/data-science-ia-cadrer-projets-entreprise/)
+* https://www.s-h.fr/la-data-analytics/
+
+
+## Other topics
+
+  * Data visualisation
+  * DATA vs Business intelligence
+  * Big DATA
+  * Data Steward
+
+* * *
+
+/home/warbrain/src/Glenux/teaching-mgmt-data/slides/intro.html | 2020-04-08 |
+[vym 2.6.11](http://www.insilmaril.de/vym)  
+---|---|---
+
--- a/slides/_z-index.md
+++ b/slides/_z-index.md
--- a/slides/images/1600x900?data,analysis
+++ b/slides/images/1600x900?data,analysis
--- a/slides/images/bg_business_question.jpg
+++ b/slides/images/bg_business_question.jpg
--- a/slides/images/bg_data_analysis.jpg
+++ b/slides/images/bg_data_analysis.jpg
--- a/slides/images/bg_data_collection.jpg
+++ b/slides/images/bg_data_collection.jpg
--- a/slides/images/bg_data_evaluation.jpg
+++ b/slides/images/bg_data_evaluation.jpg
--- a/slides/images/bg_data_hub.jpg
+++ b/slides/images/bg_data_hub.jpg
--- a/slides/images/bg_production.jpg
+++ b/slides/images/bg_production.jpg
--- a/slides/images/bg_production_1.jpg
+++ b/slides/images/bg_production_1.jpg
--- a/slides/intro.md
+++ b/slides/intro.md
@ -1,165 +0,0 @@
-# Gestion de projet data - Introduction
-
-## Définition
-
-  * Latin DATUM, DATA |  Du latin data (« choses données (au pluriel) »)  
-  
-data \da.ta\ féminin  
-(Philosophie) Se dit de faits connus dans le domaine scientifique et servant
-de  
-départ à des recherches futures. (corrélatif de desiderata)  
-Données.  
-Dans le cadre de l'option à 1,99€/20Mo, la data sera-t-elle décomptée par  
-paliers de 1Mo ? 100Ko ? 20Ko ? 10Ko ? 1Ko ? — (Forum LesMobiles.com)  
-Et si Uber, le premier d’entre eux, y investit (et au sens plein du terme,  
-puisqu’elle se dit prête « à voir ses recettes s’effriter dans un premier
-temps  
-»), c’est parce que ses data confirment un raccourcissement du trajet moyen
-des  
-courses réalisées par les chauffeurs. — (Olivier Haralambon , « Un vélo  
-électrique pour tous ? » sur LEquipe.fr. Mis en ligne le 11 septembre 2018)  
---|---  
-    * ce qui est donné
-    * un fait
-    * une information
-  * A quoi sert la data
-    * à des machines
-    * in fine, à d'autres humains
-
-## Contexte
-
-  * Dans une entreprise capitaliste on veut de la croissance
-    * Vendre plus cher
-    * Vendre plus
-      * Elargir le marché (croissance horizontale)
-      * Mieux cibler sa prospection
-        * connaitre le consommateur
-    * Payer moins cher les ressources
-    * Etre plus efficace / ressource
-    * Produire plus / ressource
-      * Acquérir de nouvelles compétences (croissance verticale)
-  * De plus en plus de projet data
-    * De plus en plus d’entreprises du secteur optent pour des stratégies data-driven et se lancent dans un marathon de projets Data Science et Intelligence artificielle, espérant ainsi profiter des avantages des nouvelles technologies et de la donnée.
-    * Quelle est la meilleure approche pour réussir un projet Data Science ou Intelligence artificielle ?
-    * Quels sont les acteurs nécessaires aux changements ?
-    * Comment se déclinent les différentes étapes de conception et de déploiement de projets dans le temps ?
-  * De plus en plus de demande pour les compétences data
-    * Data scientist
-    * data analyst
-    * data engineer
-    * ...tout le monde peut inclure de l'analyse data dans sa pratique professionnelle.
-
-## Enjeux de la data et de son analyse
-
-  * Analyse de données
-    * = être capable de collecter, organiser, nettoyer, manipuler, décortiquer, analyser et visualiser des données internes ou externes, qualitatives ou quantitatives, que chaque entreprise a à sa disposition
-  * Nouvelle forme de capital (valeur + levier de pouvoir)
-  * Information
-    * = Valeur
-    * = Influence
-    * = Temps d'avance
-  * Analyse de données
-    * Information... qui produit de l'information
-  * => Levier de pouvoir
-  * => Nouvelle forme de capital
-
-## Différents types de projets data
-
-  * Les usages sont innombrables.
-  * Objectifs concrets
-    * l’automatisation des processus
-    * l’analyse des insights (soit pour comprendre l’existant, détecter des patterns ou prédire des événements)
-    * l’amélioration du niveau de service et l’engagement vis-à-vis de l’utilisateur final.
-  * Trois grandes classes
-    * 1\. Robotic Process Automation |  Le Robotic Process Automation (RPA) est la forme de l’IA la plus facile et la  
-moins coûteuse à mettre en place. En général, elle porte ses fruits à court  
-terme et son ROI est remarquable. Toutefois, malgré la facilité de sa mise en  
-place et ses bénéfices considérables, de nombreuses entreprises ont encore du  
-chemin à faire dans ce domaine.  
---|---  
-      * Le transfert de données et des emails collectés dans divers systèmes d’information pour mettre à jour les bases de données clients ou les opportunités détectées ;
-      * Le rapprochement et contrôle des factures et commandes afin de rendre plus robuste les processus comptables ;
-      * La lecture et analyse des contrats et documents légaux pour extraire des contraintes ou anomalies possibles.
-    * 2\. Analyse de données |  La deuxième forme la plus commune et connue de l’IA et de la Data Science est  
-l’analyse de l’information et l’extraction de la valeur depuis un vaste volume  
-de données (Big Data) pour des fins descriptives ou prédictives. Par exemple :  
-  
-Les techniques les plus développées de Machine Learning, dites de Deep
-Learning,  
-permettent de réaliser des fonctions comme la reconnaissance vocale ou d’image  
-ou encore du [Natural Language  
-Processing](https://fr.blog.businessdecision.com/replay-data-science-5-text-
-mining-nlp/) (NLP).  
---|---  
-      * Faire de la maintenance prédictive sur les chaines d’industrie
-      * Identifier les fraudes possibles dans les systèmes bancaires ou d’assurance ou les systèmes de santé
-      * Automatiser le ciblage clientèle lors des campagnes marketing
-      * Fournir aux assureurs des modèles plus précis sur les potentiels clients
-    * Engagement et prise de décision |  La troisième forme consiste à engager l’utilisateur final (employé ou client)  
-dans un processus d’interaction avec la machine afin de récolter de  
-l’information ou de fournir un service.  
-  
-La richesse des fonctions que peuvent s’offrir les organisations est très  
-attractive. Toutefois, la mise en place de projets d’Intelligence Artificielle  
-est confrontée à plusieurs obstacles de natures différentes :
-organisationnelle,  
-financière, technologique ou stratégique.  
---|---  
-      * Les [agents conversationnels](https://fr.blog.businessdecision.com/chatbot-agent-conversationnel-experience-client/) (chatbots) intelligents qui sont sollicités 24/7 et qui couvrent une panoplie de services dépendant du niveau d’apprentissage du robot.
-      * Les [moteurs de recommandation](https://fr.blog.businessdecision.com/moteur-de-recommandation-temps-reel-le-graal-du-marketing-digital/) qui orientent l’utilisateur dans ses choix de services ou produits
-
-## Limites et enjeux actuels
-
-  * Initiative complexe
-    * En terme de RH
-    * En terme de processus
-    * En terme de technologies
-  * Manque de recul
-    * Des modeles difficilements industrialisables
-      * Encore en POC
-      * Pas de méthodes sur la partie OPS
-  * Approche centrée sur la technologie
-  * Collecte
-    * capable de ratisser tres large mais..
-    * quelle est la qualité de la donnée ?
-      * pertinente ou déchet ?
-  * Chaine opérationnelle
-    * Organisation non mobilisée
-    * Faible collaboration liées aux différences culturelles
-      * Vision transverse aux différentsmétiers
-    * Quels temps de réactions
-      * entre la collecte
-      * le traitement
-      * et l'action
-  * Vision à 360° et humanisme
-    * La machine ne fait pas de prise en compte globale
-      * L'analyse du contexte, une vision à 360° autour de la donnée, importe tout autant que cette dernière
-  * Risque juridique
-    * données perosnnelles dans les modeles (RGPD)
-    * a qui appartient le modele entrainé sur la base de données d'un tiers (propriété intellectuelle / industrielle)
-
-## Références
-
-  * [READ. La Tribune : Mener à bien un projet data : une route encore semée d'embûches![Flag: url](flags/flag-url.png)](https://www.latribune.fr/opinions/tribunes/mener-a-bien-un-projet-data-une-route-encore-semee-d-embuches-792583.html)
-  * [Data Analytics Post : CHEF DE PROJET DATA : L’EXPERT BUSINESS DE L’ENTREPRISE![Flag: url](flags/flag-url.png)](https://dataanalyticspost.com/fiche-metier/chef-de-projet-data/)
-  * [Op Team : Quelle gestion de projet pour le BIG DATA![Flag: url](flags/flag-url.png)](https://www.opteam.fr/blog/quelle-gestion-de-projet-pour-le-big-data)
-  * [PLB : Formation Big Data : Concevoir et piloter un projet Big Data![Flag: url](flags/flag-url.png)](https://www.plb.fr/formation/aide-%C3%A0-la-d%C3%A9cision/formation-gestion-projet-big-data,31-700375.php)
-  * [READ. Chefdentreprise.com : PME : les 5 étapes clés pour réussir un projet data![Flag: url](flags/flag-url.png)](https://www.chefdentreprise.com/)
-    * ROI
-    * PME
-  * [READ. BusinessDecisions : Data Science et IA : comment bien cadrer vos projets d’entreprise ?![Flag: url](flags/flag-url.png)](https://fr.blog.businessdecision.com/data-science-ia-cadrer-projets-entreprise/)
-  * https://www.s-h.fr/la-data-analytics/
-
-## Other topics
-
-  * Data visualisation
-  * DATA vs Business intelligence
-  * Big DATA
-  * Data Steward
-
-* * *
-
-/home/warbrain/src/Glenux/teaching-mgmt-data/slides/intro.html | 2020-04-08 |
-[vym 2.6.11](http://www.insilmaril.de/vym)  
---|---|---
-