Partenariat et Accréditation

Formation en partenariat avec Dauphine CEREMADE

 

L'Université Paris-Dauphine est accréditée

Programme

 

La formation comprend un volume horaire de 300 heures de cours à l’exclusion du temps consacré aux évaluations. Certains cours se tiendront en anglais.

Possibilité de rentrer directement en module 2 ou 3.

 

Module 1 : Les bases de la statistique

 

Ce module offre une remise à niveau en statistique. Les auditeurs doivent posséder un bon niveau en mathématiques pour pouvoir se familiariser avec « la culture de la donnée » qui est prodiguée par ce module. Le concept de modélisation aléatoire est tout d’abord introduit et les techniques élémentaires de la statistique sont présentées. Le cadre du modèle linéaire gaussien permet de formuler de manière élémentaire de nombreuses situations concrètes et illustre simplement la résolution de problématiques élémentaires. Enfin, une mise en pratique informatique à l’aide du logiciel R est enseignée. Ce logiciel de statistique, également langage de programmation, est gratuit, très bien documenté et d'apprentissage aisé. Disposant d'une bibliothèque très vaste de fonctions statistiques, il a essaimé très largement en data science. Il possède toutes les caractéristiques modernes d’un logiciel de programmation avancé pour le traitement statistique de données.

 

Les titulaires d’un diplôme de niveau bac + 4 sanctionnant un bon niveau en modélisation aléatoire, en probabilité et en statistique pourront être dispensés de ce module.

 

  • Remise à niveau en probabilités
  • Estimation classique, tests, régions de confiance
  • Modèle linéaire gaussien
  • Mise en pratique statistique sous le logiciel R

 

Module 2 : Statistique avancée

 

Ce module décline les outils mathématiques et statistiques qui permettent d’envisager le traitement transversal de nombreuses problématiques. L’objectif est de présenter un très large panorama des techniques modernes à la fois sur les plans méthodologiques et pratiques. Ce module offrira aux auditeurs le bagage complet d’un statisticien à travers la palette très large des méthodologies enseignées. Au-delà de son contenu inévitablement technique, notre ambition est d’apporter une bonne compréhension de ces outils afin de pouvoir les manipuler avec aisance dans un cadre professionnel. Les techniques enseignées seront illustrées sur logiciel.

 

Les auditeurs dispensés du Module 1 pourront se voir offrir une formation accélérée au logiciel R sur proposition des co-directeurs de la formation.

 

  • Choix de modèles
  • Modèles linéaires généralisés
  • Régression non-paramétrique
  • Analyse de données et techniques de scoring
  • Bases de données sous SQL
  • Données fonctionnelles
  • Valeurs extrêmes
  • Modèles de survie
  • Approche bayésienne
  • Algorithmes bayésiens
  • Séries temporelles
  • R avancé
  • Python
  • Mini projets
  • Données manquantes

 

Module 3 : Apprentissage et big data

 

Ce module est essentiellement dévolu à la thématique du big data qui recouvre toutes les problématiques pour lesquelles les volumes des données sont tels que celles-ci ne peuvent être gérées par les approches classiques. Les techniques idoines sont celles de l’apprentissage statistique qui se situe à l’interface de l’informatique et des statistiques. Le cours d’apprentissage est complété par des méthodologies avancées d’optimisation, et de statistique pour la sélection parcimonieuse de variables dans le contexte de la grande dimension ou pour les réseaux. Enfin, ce module met l’accent sur des applications en marketing, en actuariat et en finance. La formation devrait naturellement attirer des anciens Dauphinois issus de ces disciplines très largement présentes dans les formations de Dauphine, et qui souhaitent acquérir un bagage solide de data scientist. Cette intuition est corroborée par la très forte demande des entreprises de ces secteurs confrontées aux problématiques des big data.

 

  • Estimation en grandes dimensions
  • Optimisation et mise en pratique sous Hadoop et Spark
  • Apprentissage supervisé
  • Graphes
  • Deep learning
  • Classification non supervisé
  • Ethique et protection des données
  • Calcul parallèle
  • Cloud computing
  • Visualisation des données
  • Mise en pratique marketing
  • Mise en pratique actuariat
  • Case studies in Finance

 

Ces 300 heures de cours prévoient un ensemble de conférences notamment pour aborder des sujets connexes comme par exemple les aspects juridiques (questions liées à l’open data), de politique publique ou de traitement journalistique des données. Aucun frais supplémentaire ne sera demandé pour la participation à ces séminaires non-obligatoires.

Contact

Responsables de la formation
M. Robin Ryder
Maître de Conférences en mathématiques appliquées
Université Paris-Dauphine

 

Contact
Anne-Cécile Chauveau
Tél. 01 72 60 52 54
big-data@dauphine.fr 

 

Université Paris-Dauphine
Place du Maréchal de Lattre de Tassigny
75 775 Paris Cedex 16

Actualités

Prochaine rentrée
Mars 2018

 

Inscriptions
Veuillez contacter
big-data@dauphine.fr