Nos tutelles

CNRS Université de Toulouse

 

Le réseau des MSH

Réseau national des MSH

Rechercher



Langue            

Réseaux sociaux

Actualités Appels à Projets


Téléchargez la dernière Newsletter
du Service Partenariat et Valorisation
de la MSHS-T :






Accueil du site > Accueil > Actualités

Semaine DATA-SHS
Traiter et analyser des données
en sciences humaines et sociales

9 - 13 décembre 2019

Semaine DATA-SHS Traiter et analyser des données en sciences humaines et sociales

Dans le cadre de sa plateforme universitaire de données PUD-T, la Maison des Sciences de l’Homme et de la Société de Toulouse (MSHS-T, USR 3114) organise du 9 au 13 décembre 2019 une semaine « Data SHS », qui aura pour thématique générale « Traiter et analyser des données en sciences humaines et sociales ».

Cette semaine, inscrite dans le plan national de formations de la TGIR Progedo, propose une série de présentations et d’ateliers pratiques d’initiation aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.
Ces ateliers ont un double objectif : présenter en détails les fondements théoriques des méthodes d’analyse et de représentation de données SHS et expliciter les moyens de leur mise en oeuvre pratique.
Le but est de permettre aux participants d’adapter ces méthodes à leurs propres travaux, de façon la plus autonome possible.

Ouvert à toutes et à tous !
Inscription obligatoire : https://sem-data-shs.sciencesconf.org/registration

Lieu : Maison des Sciences de l’Homme et de la Société de Toulouse
Maison de la Recherche

Université Toulouse Jean Jaurès

PRÉSENTATIONS ET ATELIERS MÉTHODOLOGIQUES

- Comprendre la nature des enquêtes
- Panorama des différentes sources de données
- Prise en main des données d’enquêtes
- La recherche face au règlement général de protection des données (RGPD)
- La recherche sur les thématiques de santé et société
- L’importance du cadre théorique pour analyser les données
- Réflexions sur les données massives et ses nouveaux outils d’analyse
- Analyse lexicométrique Cartographie et exploration de flux



Pré programme

La Semaine « data SHS » est accessible à toutes et tous.

Les sessions ne nécessitent aucun prérequis en méthodes quantitatives sauf indication du contraire.
Pour les ateliers, un ordinateur portable est fortement conseillé. Pour chaque atelier les logiciels et autres matériels à télécharger et installer avant la session sont indiqués ci-dessous.


Lundi 9 décembre

9h-12h
Session 1 : Conférence suivi d’un atelier.
La collecte des données : du recensement au sondage.
Intervenants : Jean-Louis Guy (Sciences Po Toulouse, TSE) et Quentin Jammes (alumni TSE-ENSAE)

Prérequis : Venir avec un ordinateur portable avec R installé.
Pour cela, vous pouvez suivreles instructions ici et/ou visionner cette : vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable : ici

14h-17h
Session 2 : Table ronde
Comment collecter des données personnelles dans le respect de la réglementation ?

Résumé : Après une présentation des bases de la nouvelle réglementation sur la protection des données, nous discuterons de comment procéder pour qu’un projet de recherche requérant la collecte d’informations personnelles respecte la réglementation. Qui sont les différents acteurs pouvant accompagner le chercheur dans cette voie ? Des témoignages de projets de recherche ayant suivi ce processus ouvriront de riches discussions entre les différents intervenants et les participants.

Intervenantes : Jessica Eynard (IDP, UT1), Jérôme Vaysse (DSI-UT2J), Sophie Estrémé (DAR-UT2J), Sophie Corre (Pôle Informatique, MSHS-T), Marjolaine Huot-Royer (IFERISS), Charlotte Bruneau (CRESCO, UPS)



Mardi 10 décembre

9h-12h
Session 3 : Conférences
Présentation des principales sources de données en SHS.

Résumé : Cette session présente les principales bases de données mobilisables pour des analyses quantitatives en SHS. Nous nous concentrerons sur les bases de données disponibles par l’intermédiaire de la TGIR PROGEDO à partir du portail d’accès Quetelet-PROGEDO-Diffusion (QPD), et en particulier celles de l’ADISP qui diffuse les bases de données issues de la statistique publique (INSEE, DARES, DREES, etc).
Ce portail donne par exemple accès aux recensements (1962–2015) et aux enquêtes emploi (1968–2018), mais aussi à des enquêtes d’opinion parmi lesquelles celles de l’ISSP et du CREDOC. Nous passerons aussi en revue les bases de données socio-politiques disponibles par l’intermédiaire du CDSP (Science-Po) et démographiques (INED), elles aussi disponibles par l’intermédiaire du portail QPD.
Enfin, nous ferons un rapide tour d’horizon de datagouv, datafrance, et des autres bases de références (IPUMS, CEPII, ILO, PWT, etc). La marche à suivre pour accéder aux données sera détaillée.

Intervenant : Victor Gay (TSE, IAST)

Pré-requis : Les participants seront invités à signaler à l’avance leurs domaines d’intérêt afin d’orienter la session et la rendre la plus utile possible.

Generations and Gender Programme (GGP) : thèmes, méthodologie, données et perspectives pour l’avenir.

Résumé : Cette présentation vise à fournir une vue d’ensemble de « Generations and Gender Programme » (GGP), une infrastructure de recherche internationale qui fournit des données comparatives d’enquêtes et une base de données contextuelles, pour l’étude des causes et des conséquences des changements démographiques.
Après un aperçu de l’historique de GGP, la présentation détaille les thèmes de recherche de GGP, la méthodologie et le questionnaire de l’enquête, ainsi que les données disponibles et leur outil d’exploration en ligne.
La présentation décrit également les caractéristiques du nouveau round d’enquête à partir de 2020. Elle termine avec un aperçu de la base de données contextuelles de GGP.

Intervenante : Arianna Caporali (INED)

14h-17h
Session 4 : Atelier
Prise en main des données d’enquêtes.

Résumé : Cette session présente un ensemble de bonnes pratiques pour la prise en main et la gestion de bases de données. Nous commencerons par discuter les problématiques de crédibilité, de réplicabilité, et de transparence qui affectent la recherche actuelle.
Ensuite, nous passerons en revue un certain nombre de principes de documentation du processus de recherche (le « workflow »), par exemple la documentation des sources, la gestion des données manquantes, la catégorisation des variables, les problèmes d’échantillonnages et d’agrégation, ou encore les procédures de recoupement entre bases de données. Nous mettrons tout cela en pratique à travers un exemple tiré d’une base diffusée par l’ADISP.
La session se déroulera sur le logiciel STATA mais les principes présentés sont généraux et s’appliquent quel que soit le logiciel utilisé. Les participants sont invités à télécharger STATA (voir lien ci-dessous) et la base de données avant la session. Celle-ci sera mise à disposition à la fin de la session 3.

Intervenant : Victor Gay (TSE, IAST)
Prérequis : avoir assister à la session 3 du matin.
Venir avec un ordinateur portable avec Stata installé.
Une version d’essai est disponible : ici
Pour les personnes utilisant d’autres logiciels, cette partie constituera une démonstration des principes à appliquer pour toute prise en main de données et reste valable quel que soit le logiciel utilisé.


Mercredi 11 décembre

9h30-12h
Session 5 : Conférences

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Cadres conceptuelles et théoriques dans l’analyse quantitative : l’exemple de l’approche biographique.
Intervenante : Michelle Kelly-Irving, (INSERM, UMR-1027)
Les nouvelles pratiques liées au big data en santé : enjeux sociétaux et impact au regard des inégalités sociales de santé.

Résumé : L’intérêt du big data en santé tient avant tout au chaînage, au croisement ou à l’enrichissement de données qui ont usuellement vocation d’être cloisonnées, produites en des unités de lieu et de temps très diverses et nombreuses, et au traitement de ces données qui ne se limite pas aux techniques classiques prédominantes en biomédecine.
De ce fait, le Big Data en santé génère de très fortes attentes et espoirs pour une meilleure compréhension de la santé et une meilleure prise en charge au bénéfice de tous.
Néanmoins certains verrous et enjeux persistent et constituent de véritables freins voire de véritables risques pour parvenir à exploiter au mieux et au bénéfice de tous le développement du Big Data en santé.
La présentation sera l’occasion d’expliciter certains de ces freins/risques dans le champ de l’analyse des inégalités sociales de santé et notamment la problématique du périmètre du big data en santé, celle de la notion de données et d’algorithmes ou encore celle du contrôle/maitrise des données et de leur utilisation pour la lutte contre les inégalités sociales de santé.

Intervenant : Cyrille Delpierre, (INSERM, UMR-1027)

Que faire et penser des algorithmes d’identification automatique de réseaux de causalité ?

Résumé : Une des recherches centrales des sciences est l’identification de schémas explicatifs du monde, en particulier, de relations de causalité entre plusieurs événements ou observations d’intérêt.
L’utilisation des statistiques ou à tout le moins, d’une prise en compte des fluctuations ou du hasard dans la manière de rendre compte des observations et des expériences a été une étape importante dans l’histoire des sciences et l’identification de causes, et met paradoxalement en tension le concept de causalité. Une traduction de cette tension réside dans la dualité entre prédiction et explication, qui peuvent à la fois être liés et de poursuite antagoniste.
La dualité prédire/expliquer chère à René Thom est réactualisée par la généralisation des observations disponibles (numérisation de nombreux aspects du monde et de la vie) et par les techniques utilisées pour les explorer - qu’on les appelle Machine Learning, intelligence artificielle, algorithmes...
Parmi les nombreux algorithmes existants, certains se proposent d’identifier à partir de données observationnelles, les structures et réseaux d’interdépendances entre événements, voire d’en dégager des réseaux complets ou incomplets de causalité - en réalité, de causalité informationnelle.
La promesse est donc conséquente : étant donné des observations, nous pourrions en déduire une structure empirique permettant l’action efficace et quantifiée en probabilités sur les phénomènes observés. De tels algorithmes permettraient tant d’expliquer, que de prédire.
Nous proposons dans cet atelier de poser les principes de ces algorithmes d’identification automatique de réseaux (ici, les réseaux bayésiens) et d’en discuter les limites.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)

14h-17h
Session 6 : Atelier

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Etude de causalité sous Spe3dLab

Résumé : Suite à l’introduction du matin sur les algorithmes d’identification automatique de réseaux de causalité, nous proposons d’examiner des cas pratiques et de manipuler 2 algorithmes dans ces différentes dimensions, sur des données réelles (fournies).
Les cas s’approcheront via l’utilisation d’une plateforme dédiée à ce type d’analyses, Spe3dLab, qui ne nécessite pas d’installation autre que de disposer d’un navigateur internet (de préférence Firefox) et d’une connexion internet (les identifiants seront fournis lors de la session). Cette plateforme s’adresse à des personnes qui ne sont pas spécialistes en statistiques ou mathématiques.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)
Prérequis : avoir assister à la session 5 du matin. Venir avec un ordinateur portable connecté à internet (réseaux disponibles à la MdR : eduroam et wifi UT2J). Installation du navigateur Firefox conseillée.



Jeudi 12 décembre

Session 7 : Conférence suivi d’un atelier.

9h-12h
Introduction à la lexicométrie.
Intervenant : Pascal Marchand (LERASS, UPS)

14h-17h Formation au logiciel libre IRaMuteQ.
Intervenant : Pierre Ratinaud (LERASS, UPS)

Prérequis : Installer le logiciel libre IRaMuteQ sur son ordinateur portable.


Vendredi 13 décembre

Session 8 : Conférence et atelier.

9h-12h
Utiliser un logiciel SIG pour visualiser et construire une carte thématique à partir de données INSEE.

Résumé : Cet atelier est une initiation aux Système d’Information Géographique qui s’adresse à toute personne souhaitant réaliser une carte thématique avec des données quantitatives et/ou qualitatives. Cet atelier comportera une partie théorique et une partie pratique avec des exemples d’utilisation et de manipulation des données. Nous utiliserons le logiciel libre SIG QGIS très utilisé en géomatique et en cartographie.
Intervenante : Najla Touati (LISST- UMR5193, UT2J)

Prérequis : bases statistiques et familiarité avec les outils informatiques. Venir avec son ordinateur portable en ayant installé QGIS à télécharger : ici

14h-17h
Introduction à l’exploration et la représentation de flux à l’échelle mondiale : l’exemple du commerce international et des collaborations scientifiques entre villes.

Résumé : Cet atelier vise à initier les participants à la visualisation interactive de données relationnelles. Des notions de base en analyse de réseaux, en cartographie automatique et en sémiologie graphique y seront introduites. Nous prendrons l’exemple de programmes de recherches en cours sur les flux internationaux de déchets et sur les collaborations scientifiques mondiales.
Après la présentation des notions de base, nous ferons la démonstration de deux plateformes web : la plateforme Arabesque pour cartographier des flux et la plateforme Netscity pour traiter des données issues de l’activité scientifique. Dans une seconde partie, les utilisateurs visualiseront des données de flux à l’aide du package R ‘VisNetwork’. Nous finirons par une présentation du prototype d’exploration visuelle NETMAP qui s’appuie sur la version web de VisNetwork et nous partagerons des ressources utiles pour approfondir ces méthodes et techniques.

Intervenant.e.s : Laurent Jégou (LISST- UMR5193, UT2J) et Marion Maisonobe (Géographie-Cités, UMR 8504)

Prérequis : aucun.
Venir avec un ordinateur portable avec R installé ; pour l’installer vous pouvez suivre les instructions décrites ici et/ou sur cette vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable ici






Contact : (contenu des ateliers, inscriptions et organisation)
Jean-Luc Demonsant (MSHS-T) - jean-luc.demonsant@univ-toulouse.fr


Cette semaine, s’inscrit dans le plan national de formations de la TGIR Progedo, elle propose une série d’interventions relatives aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.

La TGIR Progedo et le RnMSH sont partenaires de cette semaine de formation et d’information autour de l’utilisation des données en sciences humaines et sociales.
La « semaine DATA SHS », se déroulera de manière concomitante du 9 au 13 décembre prochains au sein de dix Maisons de Sciences de l’Homme qui mobilisent leurs Plateformes Universitaires de Données (PUD).

Les PUD participantes sont celles implantées dans les MSH suivantes :

  • La MSH-T à Toulouse
  • La MMSH à Aix-en-Provence
  • La MRSH à Caen
  • La MSH à Dijon
  • La MAE à Nanterre
  • La MSH Alpes à Grenoble
  • La MESHS à Lille
  • La MSH LSE à Lyon
  • La MSH Ange-Guépin à Nantes
  • La MISHA à Strasbourg

Pré programme

La Semaine « data SHS » est accessible à toutes et tous.

Les sessions ne nécessitent aucun prérequis en méthodes quantitatives sauf indication du contraire.
Pour les ateliers, un ordinateur portable est fortement conseillé. Pour chaque atelier les logiciels et autres matériels à télécharger et installer avant la session sont indiqués ci-dessous.


Lundi 9 décembre

9h-12h
Session 1 : Conférence suivi d’un atelier.
La collecte des données : du recensement au sondage.
Intervenants : Jean-Louis Guy (Sciences Po Toulouse, TSE) et Quentin Jammes (alumni TSE-ENSAE)

Prérequis : Venir avec un ordinateur portable avec R installé.
Pour cela, vous pouvez suivreles instructions ici et/ou visionner cette : vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable : ici

14h-17h
Session 2 : Table ronde
Comment collecter des données personnelles dans le respect de la réglementation ?

Résumé : Après une présentation des bases de la nouvelle réglementation sur la protection des données, nous discuterons de comment procéder pour qu’un projet de recherche requérant la collecte d’informations personnelles respecte la réglementation. Qui sont les différents acteurs pouvant accompagner le chercheur dans cette voie ? Des témoignages de projets de recherche ayant suivi ce processus ouvriront de riches discussions entre les différents intervenants et les participants.

Intervenantes : Jessica Eynard (IDP, UT1), Jérôme Vaysse (DSI-UT2J), Sophie Estrémé (DAR-UT2J), Sophie Corre (Pôle Informatique, MSHS-T), Marjolaine Huot-Royer (IFERISS), Charlotte Bruneau (CRESCO, UPS)



Mardi 10 décembre

9h-12h
Session 3 : Conférences
Présentation des principales sources de données en SHS.

Résumé : Cette session présente les principales bases de données mobilisables pour des analyses quantitatives en SHS. Nous nous concentrerons sur les bases de données disponibles par l’intermédiaire de la TGIR PROGEDO à partir du portail d’accès Quetelet-PROGEDO-Diffusion (QPD), et en particulier celles de l’ADISP qui diffuse les bases de données issues de la statistique publique (INSEE, DARES, DREES, etc).
Ce portail donne par exemple accès aux recensements (1962–2015) et aux enquêtes emploi (1968–2018), mais aussi à des enquêtes d’opinion parmi lesquelles celles de l’ISSP et du CREDOC. Nous passerons aussi en revue les bases de données socio-politiques disponibles par l’intermédiaire du CDSP (Science-Po) et démographiques (INED), elles aussi disponibles par l’intermédiaire du portail QPD.
Enfin, nous ferons un rapide tour d’horizon de datagouv, datafrance, et des autres bases de références (IPUMS, CEPII, ILO, PWT, etc). La marche à suivre pour accéder aux données sera détaillée.

Intervenant : Victor Gay (TSE, IAST)

Pré-requis : Les participants seront invités à signaler à l’avance leurs domaines d’intérêt afin d’orienter la session et la rendre la plus utile possible.

Generations and Gender Programme (GGP) : thèmes, méthodologie, données et perspectives pour l’avenir.

Résumé : Cette présentation vise à fournir une vue d’ensemble de « Generations and Gender Programme » (GGP), une infrastructure de recherche internationale qui fournit des données comparatives d’enquêtes et une base de données contextuelles, pour l’étude des causes et des conséquences des changements démographiques.
Après un aperçu de l’historique de GGP, la présentation détaille les thèmes de recherche de GGP, la méthodologie et le questionnaire de l’enquête, ainsi que les données disponibles et leur outil d’exploration en ligne.
La présentation décrit également les caractéristiques du nouveau round d’enquête à partir de 2020. Elle termine avec un aperçu de la base de données contextuelles de GGP.

Intervenante : Arianna Caporali (INED)

14h-17h
Session 4 : Atelier
Prise en main des données d’enquêtes.

Résumé : Cette session présente un ensemble de bonnes pratiques pour la prise en main et la gestion de bases de données. Nous commencerons par discuter les problématiques de crédibilité, de réplicabilité, et de transparence qui affectent la recherche actuelle.
Ensuite, nous passerons en revue un certain nombre de principes de documentation du processus de recherche (le « workflow »), par exemple la documentation des sources, la gestion des données manquantes, la catégorisation des variables, les problèmes d’échantillonnages et d’agrégation, ou encore les procédures de recoupement entre bases de données. Nous mettrons tout cela en pratique à travers un exemple tiré d’une base diffusée par l’ADISP.
La session se déroulera sur le logiciel STATA mais les principes présentés sont généraux et s’appliquent quel que soit le logiciel utilisé. Les participants sont invités à télécharger STATA (voir lien ci-dessous) et la base de données avant la session. Celle-ci sera mise à disposition à la fin de la session 3.

Intervenant : Victor Gay (TSE, IAST)
Prérequis : avoir assister à la session 3 du matin.
Venir avec un ordinateur portable avec Stata installé.
Une version d’essai est disponible : ici
Pour les personnes utilisant d’autres logiciels, cette partie constituera une démonstration des principes à appliquer pour toute prise en main de données et reste valable quel que soit le logiciel utilisé.


Mercredi 11 décembre

9h30-12h
Session 5 : Conférences

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Cadres conceptuelles et théoriques dans l’analyse quantitative : l’exemple de l’approche biographique.
Intervenante : Michelle Kelly-Irving, (INSERM, UMR-1027)
Les nouvelles pratiques liées au big data en santé : enjeux sociétaux et impact au regard des inégalités sociales de santé.

Résumé : L’intérêt du big data en santé tient avant tout au chaînage, au croisement ou à l’enrichissement de données qui ont usuellement vocation d’être cloisonnées, produites en des unités de lieu et de temps très diverses et nombreuses, et au traitement de ces données qui ne se limite pas aux techniques classiques prédominantes en biomédecine.
De ce fait, le Big Data en santé génère de très fortes attentes et espoirs pour une meilleure compréhension de la santé et une meilleure prise en charge au bénéfice de tous.
Néanmoins certains verrous et enjeux persistent et constituent de véritables freins voire de véritables risques pour parvenir à exploiter au mieux et au bénéfice de tous le développement du Big Data en santé.
La présentation sera l’occasion d’expliciter certains de ces freins/risques dans le champ de l’analyse des inégalités sociales de santé et notamment la problématique du périmètre du big data en santé, celle de la notion de données et d’algorithmes ou encore celle du contrôle/maitrise des données et de leur utilisation pour la lutte contre les inégalités sociales de santé.

Intervenant : Cyrille Delpierre, (INSERM, UMR-1027)

Que faire et penser des algorithmes d’identification automatique de réseaux de causalité ?

Résumé : Une des recherches centrales des sciences est l’identification de schémas explicatifs du monde, en particulier, de relations de causalité entre plusieurs événements ou observations d’intérêt.
L’utilisation des statistiques ou à tout le moins, d’une prise en compte des fluctuations ou du hasard dans la manière de rendre compte des observations et des expériences a été une étape importante dans l’histoire des sciences et l’identification de causes, et met paradoxalement en tension le concept de causalité. Une traduction de cette tension réside dans la dualité entre prédiction et explication, qui peuvent à la fois être liés et de poursuite antagoniste.
La dualité prédire/expliquer chère à René Thom est réactualisée par la généralisation des observations disponibles (numérisation de nombreux aspects du monde et de la vie) et par les techniques utilisées pour les explorer - qu’on les appelle Machine Learning, intelligence artificielle, algorithmes...
Parmi les nombreux algorithmes existants, certains se proposent d’identifier à partir de données observationnelles, les structures et réseaux d’interdépendances entre événements, voire d’en dégager des réseaux complets ou incomplets de causalité - en réalité, de causalité informationnelle.
La promesse est donc conséquente : étant donné des observations, nous pourrions en déduire une structure empirique permettant l’action efficace et quantifiée en probabilités sur les phénomènes observés. De tels algorithmes permettraient tant d’expliquer, que de prédire.
Nous proposons dans cet atelier de poser les principes de ces algorithmes d’identification automatique de réseaux (ici, les réseaux bayésiens) et d’en discuter les limites.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)

14h-17h
Session 6 : Atelier

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Etude de causalité sous Spe3dLab

Résumé : Suite à l’introduction du matin sur les algorithmes d’identification automatique de réseaux de causalité, nous proposons d’examiner des cas pratiques et de manipuler 2 algorithmes dans ces différentes dimensions, sur des données réelles (fournies).
Les cas s’approcheront via l’utilisation d’une plateforme dédiée à ce type d’analyses, Spe3dLab, qui ne nécessite pas d’installation autre que de disposer d’un navigateur internet (de préférence Firefox) et d’une connexion internet (les identifiants seront fournis lors de la session). Cette plateforme s’adresse à des personnes qui ne sont pas spécialistes en statistiques ou mathématiques.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)
Prérequis : avoir assister à la session 5 du matin. Venir avec un ordinateur portable connecté à internet (réseaux disponibles à la MdR : eduroam et wifi UT2J). Installation du navigateur Firefox conseillée.



Jeudi 12 décembre

Session 7 : Conférence suivi d’un atelier.

9h-12h
Introduction à la lexicométrie.
Intervenant : Pascal Marchand (LERASS, UPS)

14h-17h Formation au logiciel libre IRaMuteQ.
Intervenant : Pierre Ratinaud (LERASS, UPS)

Prérequis : Installer le logiciel libre IRaMuteQ sur son ordinateur portable.


Vendredi 13 décembre

Session 8 : Conférence et atelier.

9h-12h
Utiliser un logiciel SIG pour visualiser et construire une carte thématique à partir de données INSEE.

Résumé : Cet atelier est une initiation aux Système d’Information Géographique qui s’adresse à toute personne souhaitant réaliser une carte thématique avec des données quantitatives et/ou qualitatives. Cet atelier comportera une partie théorique et une partie pratique avec des exemples d’utilisation et de manipulation des données. Nous utiliserons le logiciel libre SIG QGIS très utilisé en géomatique et en cartographie.
Intervenante : Najla Touati (LISST- UMR5193, UT2J)

Prérequis : bases statistiques et familiarité avec les outils informatiques. Venir avec son ordinateur portable en ayant installé QGIS à télécharger : ici

14h-17h
Introduction à l’exploration et la représentation de flux à l’échelle mondiale : l’exemple du commerce international et des collaborations scientifiques entre villes.

Résumé : Cet atelier vise à initier les participants à la visualisation interactive de données relationnelles. Des notions de base en analyse de réseaux, en cartographie automatique et en sémiologie graphique y seront introduites. Nous prendrons l’exemple de programmes de recherches en cours sur les flux internationaux de déchets et sur les collaborations scientifiques mondiales.
Après la présentation des notions de base, nous ferons la démonstration de deux plateformes web : la plateforme Arabesque pour cartographier des flux et la plateforme Netscity pour traiter des données issues de l’activité scientifique. Dans une seconde partie, les utilisateurs visualiseront des données de flux à l’aide du package R ‘VisNetwork’. Nous finirons par une présentation du prototype d’exploration visuelle NETMAP qui s’appuie sur la version web de VisNetwork et nous partagerons des ressources utiles pour approfondir ces méthodes et techniques.

Intervenant.e.s : Laurent Jégou (LISST- UMR5193, UT2J) et Marion Maisonobe (Géographie-Cités, UMR 8504)

Prérequis : aucun.
Venir avec un ordinateur portable avec R installé ; pour l’installer vous pouvez suivre les instructions décrites ici et/ou sur cette vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable ici






Contact : (contenu des ateliers, inscriptions et organisation)
Jean-Luc Demonsant (MSHS-T) - jean-luc.demonsant@univ-toulouse.fr


Cette semaine, s’inscrit dans le plan national de formations de la TGIR Progedo, elle propose une série d’interventions relatives aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.

La TGIR Progedo et le RnMSH sont partenaires de cette semaine de formation et d’information autour de l’utilisation des données en sciences humaines et sociales.
La « semaine DATA SHS », se déroulera de manière concomitante du 9 au 13 décembre prochains au sein de dix Maisons de Sciences de l’Homme qui mobilisent leurs Plateformes Universitaires de Données (PUD).

Les PUD participantes sont celles implantées dans les MSH suivantes :

  • La MSH-T à Toulouse
  • La MMSH à Aix-en-Provence
  • La MRSH à Caen
  • La MSH à Dijon
  • La MAE à Nanterre
  • La MSH Alpes à Grenoble
  • La MESHS à Lille
  • La MSH LSE à Lyon
  • La MSH Ange-Guépin à Nantes
  • La MISHA à Strasbourg

Pré programme

La Semaine « data SHS » est accessible à toutes et tous.

Les sessions ne nécessitent aucun prérequis en méthodes quantitatives sauf indication du contraire.
Pour les ateliers, un ordinateur portable est fortement conseillé. Pour chaque atelier les logiciels et autres matériels à télécharger et installer avant la session sont indiqués ci-dessous.


Lundi 9 décembre

9h-12h
Session 1 : Conférence suivi d’un atelier.
La collecte des données : du recensement au sondage.
Intervenants : Jean-Louis Guy (Sciences Po Toulouse, TSE) et Quentin Jammes (alumni TSE-ENSAE)

Prérequis : Venir avec un ordinateur portable avec R installé.
Pour cela, vous pouvez suivreles instructions ici et/ou visionner cette : vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable : ici

14h-17h
Session 2 : Table ronde
Comment collecter des données personnelles dans le respect de la réglementation ?

Résumé : Après une présentation des bases de la nouvelle réglementation sur la protection des données, nous discuterons de comment procéder pour qu’un projet de recherche requérant la collecte d’informations personnelles respecte la réglementation. Qui sont les différents acteurs pouvant accompagner le chercheur dans cette voie ? Des témoignages de projets de recherche ayant suivi ce processus ouvriront de riches discussions entre les différents intervenants et les participants.

Intervenantes : Jessica Eynard (IDP, UT1), Jérôme Vaysse (DSI-UT2J), Sophie Estrémé (DAR-UT2J), Sophie Corre (Pôle Informatique, MSHS-T), Marjolaine Huot-Royer (IFERISS), Charlotte Bruneau (CRESCO, UPS)



Mardi 10 décembre

9h-12h
Session 3 : Conférences
Présentation des principales sources de données en SHS.

Résumé : Cette session présente les principales bases de données mobilisables pour des analyses quantitatives en SHS. Nous nous concentrerons sur les bases de données disponibles par l’intermédiaire de la TGIR PROGEDO à partir du portail d’accès Quetelet-PROGEDO-Diffusion (QPD), et en particulier celles de l’ADISP qui diffuse les bases de données issues de la statistique publique (INSEE, DARES, DREES, etc).
Ce portail donne par exemple accès aux recensements (1962–2015) et aux enquêtes emploi (1968–2018), mais aussi à des enquêtes d’opinion parmi lesquelles celles de l’ISSP et du CREDOC. Nous passerons aussi en revue les bases de données socio-politiques disponibles par l’intermédiaire du CDSP (Science-Po) et démographiques (INED), elles aussi disponibles par l’intermédiaire du portail QPD.
Enfin, nous ferons un rapide tour d’horizon de datagouv, datafrance, et des autres bases de références (IPUMS, CEPII, ILO, PWT, etc). La marche à suivre pour accéder aux données sera détaillée.

Intervenant : Victor Gay (TSE, IAST)

Pré-requis : Les participants seront invités à signaler à l’avance leurs domaines d’intérêt afin d’orienter la session et la rendre la plus utile possible.

Generations and Gender Programme (GGP) : thèmes, méthodologie, données et perspectives pour l’avenir.

Résumé : Cette présentation vise à fournir une vue d’ensemble de « Generations and Gender Programme » (GGP), une infrastructure de recherche internationale qui fournit des données comparatives d’enquêtes et une base de données contextuelles, pour l’étude des causes et des conséquences des changements démographiques.
Après un aperçu de l’historique de GGP, la présentation détaille les thèmes de recherche de GGP, la méthodologie et le questionnaire de l’enquête, ainsi que les données disponibles et leur outil d’exploration en ligne.
La présentation décrit également les caractéristiques du nouveau round d’enquête à partir de 2020. Elle termine avec un aperçu de la base de données contextuelles de GGP.

Intervenante : Arianna Caporali (INED)

14h-17h
Session 4 : Atelier
Prise en main des données d’enquêtes.

Résumé : Cette session présente un ensemble de bonnes pratiques pour la prise en main et la gestion de bases de données. Nous commencerons par discuter les problématiques de crédibilité, de réplicabilité, et de transparence qui affectent la recherche actuelle.
Ensuite, nous passerons en revue un certain nombre de principes de documentation du processus de recherche (le « workflow »), par exemple la documentation des sources, la gestion des données manquantes, la catégorisation des variables, les problèmes d’échantillonnages et d’agrégation, ou encore les procédures de recoupement entre bases de données. Nous mettrons tout cela en pratique à travers un exemple tiré d’une base diffusée par l’ADISP.
La session se déroulera sur le logiciel STATA mais les principes présentés sont généraux et s’appliquent quel que soit le logiciel utilisé. Les participants sont invités à télécharger STATA (voir lien ci-dessous) et la base de données avant la session. Celle-ci sera mise à disposition à la fin de la session 3.

Intervenant : Victor Gay (TSE, IAST)
Prérequis : avoir assister à la session 3 du matin.
Venir avec un ordinateur portable avec Stata installé.
Une version d’essai est disponible : ici
Pour les personnes utilisant d’autres logiciels, cette partie constituera une démonstration des principes à appliquer pour toute prise en main de données et reste valable quel que soit le logiciel utilisé.


Mercredi 11 décembre

9h30-12h
Session 5 : Conférences

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Cadres conceptuelles et théoriques dans l’analyse quantitative : l’exemple de l’approche biographique.
Intervenante : Michelle Kelly-Irving, (INSERM, UMR-1027)
Les nouvelles pratiques liées au big data en santé : enjeux sociétaux et impact au regard des inégalités sociales de santé.

Résumé : L’intérêt du big data en santé tient avant tout au chaînage, au croisement ou à l’enrichissement de données qui ont usuellement vocation d’être cloisonnées, produites en des unités de lieu et de temps très diverses et nombreuses, et au traitement de ces données qui ne se limite pas aux techniques classiques prédominantes en biomédecine.
De ce fait, le Big Data en santé génère de très fortes attentes et espoirs pour une meilleure compréhension de la santé et une meilleure prise en charge au bénéfice de tous.
Néanmoins certains verrous et enjeux persistent et constituent de véritables freins voire de véritables risques pour parvenir à exploiter au mieux et au bénéfice de tous le développement du Big Data en santé.
La présentation sera l’occasion d’expliciter certains de ces freins/risques dans le champ de l’analyse des inégalités sociales de santé et notamment la problématique du périmètre du big data en santé, celle de la notion de données et d’algorithmes ou encore celle du contrôle/maitrise des données et de leur utilisation pour la lutte contre les inégalités sociales de santé.

Intervenant : Cyrille Delpierre, (INSERM, UMR-1027)

Que faire et penser des algorithmes d’identification automatique de réseaux de causalité ?

Résumé : Une des recherches centrales des sciences est l’identification de schémas explicatifs du monde, en particulier, de relations de causalité entre plusieurs événements ou observations d’intérêt.
L’utilisation des statistiques ou à tout le moins, d’une prise en compte des fluctuations ou du hasard dans la manière de rendre compte des observations et des expériences a été une étape importante dans l’histoire des sciences et l’identification de causes, et met paradoxalement en tension le concept de causalité. Une traduction de cette tension réside dans la dualité entre prédiction et explication, qui peuvent à la fois être liés et de poursuite antagoniste.
La dualité prédire/expliquer chère à René Thom est réactualisée par la généralisation des observations disponibles (numérisation de nombreux aspects du monde et de la vie) et par les techniques utilisées pour les explorer - qu’on les appelle Machine Learning, intelligence artificielle, algorithmes...
Parmi les nombreux algorithmes existants, certains se proposent d’identifier à partir de données observationnelles, les structures et réseaux d’interdépendances entre événements, voire d’en dégager des réseaux complets ou incomplets de causalité - en réalité, de causalité informationnelle.
La promesse est donc conséquente : étant donné des observations, nous pourrions en déduire une structure empirique permettant l’action efficace et quantifiée en probabilités sur les phénomènes observés. De tels algorithmes permettraient tant d’expliquer, que de prédire.
Nous proposons dans cet atelier de poser les principes de ces algorithmes d’identification automatique de réseaux (ici, les réseaux bayésiens) et d’en discuter les limites.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)

14h-17h
Session 6 : Atelier

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Etude de causalité sous Spe3dLab

Résumé : Suite à l’introduction du matin sur les algorithmes d’identification automatique de réseaux de causalité, nous proposons d’examiner des cas pratiques et de manipuler 2 algorithmes dans ces différentes dimensions, sur des données réelles (fournies).
Les cas s’approcheront via l’utilisation d’une plateforme dédiée à ce type d’analyses, Spe3dLab, qui ne nécessite pas d’installation autre que de disposer d’un navigateur internet (de préférence Firefox) et d’une connexion internet (les identifiants seront fournis lors de la session). Cette plateforme s’adresse à des personnes qui ne sont pas spécialistes en statistiques ou mathématiques.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)
Prérequis : avoir assister à la session 5 du matin. Venir avec un ordinateur portable connecté à internet (réseaux disponibles à la MdR : eduroam et wifi UT2J). Installation du navigateur Firefox conseillée.



Jeudi 12 décembre

Session 7 : Conférence suivi d’un atelier.

9h-12h
Introduction à la lexicométrie.
Intervenant : Pascal Marchand (LERASS, UPS)

14h-17h Formation au logiciel libre IRaMuteQ.
Intervenant : Pierre Ratinaud (LERASS, UPS)

Prérequis : Installer le logiciel libre IRaMuteQ sur son ordinateur portable.


Vendredi 13 décembre

Session 8 : Conférence et atelier.

9h-12h
Utiliser un logiciel SIG pour visualiser et construire une carte thématique à partir de données INSEE.

Résumé : Cet atelier est une initiation aux Système d’Information Géographique qui s’adresse à toute personne souhaitant réaliser une carte thématique avec des données quantitatives et/ou qualitatives. Cet atelier comportera une partie théorique et une partie pratique avec des exemples d’utilisation et de manipulation des données. Nous utiliserons le logiciel libre SIG QGIS très utilisé en géomatique et en cartographie.
Intervenante : Najla Touati (LISST- UMR5193, UT2J)

Prérequis : bases statistiques et familiarité avec les outils informatiques. Venir avec son ordinateur portable en ayant installé QGIS à télécharger : ici

14h-17h
Introduction à l’exploration et la représentation de flux à l’échelle mondiale : l’exemple du commerce international et des collaborations scientifiques entre villes.

Résumé : Cet atelier vise à initier les participants à la visualisation interactive de données relationnelles. Des notions de base en analyse de réseaux, en cartographie automatique et en sémiologie graphique y seront introduites. Nous prendrons l’exemple de programmes de recherches en cours sur les flux internationaux de déchets et sur les collaborations scientifiques mondiales.
Après la présentation des notions de base, nous ferons la démonstration de deux plateformes web : la plateforme Arabesque pour cartographier des flux et la plateforme Netscity pour traiter des données issues de l’activité scientifique. Dans une seconde partie, les utilisateurs visualiseront des données de flux à l’aide du package R ‘VisNetwork’. Nous finirons par une présentation du prototype d’exploration visuelle NETMAP qui s’appuie sur la version web de VisNetwork et nous partagerons des ressources utiles pour approfondir ces méthodes et techniques.

Intervenant.e.s : Laurent Jégou (LISST- UMR5193, UT2J) et Marion Maisonobe (Géographie-Cités, UMR 8504)

Prérequis : aucun.
Venir avec un ordinateur portable avec R installé ; pour l’installer vous pouvez suivre les instructions décrites ici et/ou sur cette vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable ici






Contact : (contenu des ateliers, inscriptions et organisation)
Jean-Luc Demonsant (MSHS-T) - jean-luc.demonsant@univ-toulouse.fr


Cette semaine, s’inscrit dans le plan national de formations de la TGIR Progedo, elle propose une série d’interventions relatives aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.

La TGIR Progedo et le RnMSH sont partenaires de cette semaine de formation et d’information autour de l’utilisation des données en sciences humaines et sociales.
La « semaine DATA SHS », se déroulera de manière concomitante du 9 au 13 décembre prochains au sein de dix Maisons de Sciences de l’Homme qui mobilisent leurs Plateformes Universitaires de Données (PUD).

Les PUD participantes sont celles implantées dans les MSH suivantes :

  • La MSH-T à Toulouse
  • La MMSH à Aix-en-Provence
  • La MRSH à Caen
  • La MSH à Dijon
  • La MAE à Nanterre
  • La MSH Alpes à Grenoble
  • La MESHS à Lille
  • La MSH LSE à Lyon
  • La MSH Ange-Guépin à Nantes
  • La MISHA à Strasbourg

Pré programme

La Semaine « data SHS » est accessible à toutes et tous.

Les sessions ne nécessitent aucun prérequis en méthodes quantitatives sauf indication du contraire.
Pour les ateliers, un ordinateur portable est fortement conseillé. Pour chaque atelier les logiciels et autres matériels à télécharger et installer avant la session sont indiqués ci-dessous.


Lundi 9 décembre

9h-12h
Session 1 : Conférence suivi d’un atelier.
La collecte des données : du recensement au sondage.
Intervenants : Jean-Louis Guy (Sciences Po Toulouse, TSE) et Quentin Jammes (alumni TSE-ENSAE)

Prérequis : Venir avec un ordinateur portable avec R installé.
Pour cela, vous pouvez suivreles instructions ici et/ou visionner cette : vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable : ici

14h-17h
Session 2 : Table ronde
Comment collecter des données personnelles dans le respect de la réglementation ?

Résumé : Après une présentation des bases de la nouvelle réglementation sur la protection des données, nous discuterons de comment procéder pour qu’un projet de recherche requérant la collecte d’informations personnelles respecte la réglementation. Qui sont les différents acteurs pouvant accompagner le chercheur dans cette voie ? Des témoignages de projets de recherche ayant suivi ce processus ouvriront de riches discussions entre les différents intervenants et les participants.

Intervenantes : Jessica Eynard (IDP, UT1), Jérôme Vaysse (DSI-UT2J), Sophie Estrémé (DAR-UT2J), Sophie Corre (Pôle Informatique, MSHS-T), Marjolaine Huot-Royer (IFERISS), Charlotte Bruneau (CRESCO, UPS)



Mardi 10 décembre

9h-12h
Session 3 : Conférences
Présentation des principales sources de données en SHS.

Résumé : Cette session présente les principales bases de données mobilisables pour des analyses quantitatives en SHS. Nous nous concentrerons sur les bases de données disponibles par l’intermédiaire de la TGIR PROGEDO à partir du portail d’accès Quetelet-PROGEDO-Diffusion (QPD), et en particulier celles de l’ADISP qui diffuse les bases de données issues de la statistique publique (INSEE, DARES, DREES, etc).
Ce portail donne par exemple accès aux recensements (1962–2015) et aux enquêtes emploi (1968–2018), mais aussi à des enquêtes d’opinion parmi lesquelles celles de l’ISSP et du CREDOC. Nous passerons aussi en revue les bases de données socio-politiques disponibles par l’intermédiaire du CDSP (Science-Po) et démographiques (INED), elles aussi disponibles par l’intermédiaire du portail QPD.
Enfin, nous ferons un rapide tour d’horizon de datagouv, datafrance, et des autres bases de références (IPUMS, CEPII, ILO, PWT, etc). La marche à suivre pour accéder aux données sera détaillée.

Intervenant : Victor Gay (TSE, IAST)

Pré-requis : Les participants seront invités à signaler à l’avance leurs domaines d’intérêt afin d’orienter la session et la rendre la plus utile possible.

Generations and Gender Programme (GGP) : thèmes, méthodologie, données et perspectives pour l’avenir.

Résumé : Cette présentation vise à fournir une vue d’ensemble de « Generations and Gender Programme » (GGP), une infrastructure de recherche internationale qui fournit des données comparatives d’enquêtes et une base de données contextuelles, pour l’étude des causes et des conséquences des changements démographiques.
Après un aperçu de l’historique de GGP, la présentation détaille les thèmes de recherche de GGP, la méthodologie et le questionnaire de l’enquête, ainsi que les données disponibles et leur outil d’exploration en ligne.
La présentation décrit également les caractéristiques du nouveau round d’enquête à partir de 2020. Elle termine avec un aperçu de la base de données contextuelles de GGP.

Intervenante : Arianna Caporali (INED)

14h-17h
Session 4 : Atelier
Prise en main des données d’enquêtes.

Résumé : Cette session présente un ensemble de bonnes pratiques pour la prise en main et la gestion de bases de données. Nous commencerons par discuter les problématiques de crédibilité, de réplicabilité, et de transparence qui affectent la recherche actuelle.
Ensuite, nous passerons en revue un certain nombre de principes de documentation du processus de recherche (le « workflow »), par exemple la documentation des sources, la gestion des données manquantes, la catégorisation des variables, les problèmes d’échantillonnages et d’agrégation, ou encore les procédures de recoupement entre bases de données. Nous mettrons tout cela en pratique à travers un exemple tiré d’une base diffusée par l’ADISP.
La session se déroulera sur le logiciel STATA mais les principes présentés sont généraux et s’appliquent quel que soit le logiciel utilisé. Les participants sont invités à télécharger STATA (voir lien ci-dessous) et la base de données avant la session. Celle-ci sera mise à disposition à la fin de la session 3.

Intervenant : Victor Gay (TSE, IAST)
Prérequis : avoir assister à la session 3 du matin.
Venir avec un ordinateur portable avec Stata installé.
Une version d’essai est disponible : ici
Pour les personnes utilisant d’autres logiciels, cette partie constituera une démonstration des principes à appliquer pour toute prise en main de données et reste valable quel que soit le logiciel utilisé.


Mercredi 11 décembre

9h30-12h
Session 5 : Conférences

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Cadres conceptuelles et théoriques dans l’analyse quantitative : l’exemple de l’approche biographique.
Intervenante : Michelle Kelly-Irving, (INSERM, UMR-1027)
Les nouvelles pratiques liées au big data en santé : enjeux sociétaux et impact au regard des inégalités sociales de santé.

Résumé : L’intérêt du big data en santé tient avant tout au chaînage, au croisement ou à l’enrichissement de données qui ont usuellement vocation d’être cloisonnées, produites en des unités de lieu et de temps très diverses et nombreuses, et au traitement de ces données qui ne se limite pas aux techniques classiques prédominantes en biomédecine.
De ce fait, le Big Data en santé génère de très fortes attentes et espoirs pour une meilleure compréhension de la santé et une meilleure prise en charge au bénéfice de tous.
Néanmoins certains verrous et enjeux persistent et constituent de véritables freins voire de véritables risques pour parvenir à exploiter au mieux et au bénéfice de tous le développement du Big Data en santé.
La présentation sera l’occasion d’expliciter certains de ces freins/risques dans le champ de l’analyse des inégalités sociales de santé et notamment la problématique du périmètre du big data en santé, celle de la notion de données et d’algorithmes ou encore celle du contrôle/maitrise des données et de leur utilisation pour la lutte contre les inégalités sociales de santé.

Intervenant : Cyrille Delpierre, (INSERM, UMR-1027)

Que faire et penser des algorithmes d’identification automatique de réseaux de causalité ?

Résumé : Une des recherches centrales des sciences est l’identification de schémas explicatifs du monde, en particulier, de relations de causalité entre plusieurs événements ou observations d’intérêt.
L’utilisation des statistiques ou à tout le moins, d’une prise en compte des fluctuations ou du hasard dans la manière de rendre compte des observations et des expériences a été une étape importante dans l’histoire des sciences et l’identification de causes, et met paradoxalement en tension le concept de causalité. Une traduction de cette tension réside dans la dualité entre prédiction et explication, qui peuvent à la fois être liés et de poursuite antagoniste.
La dualité prédire/expliquer chère à René Thom est réactualisée par la généralisation des observations disponibles (numérisation de nombreux aspects du monde et de la vie) et par les techniques utilisées pour les explorer - qu’on les appelle Machine Learning, intelligence artificielle, algorithmes...
Parmi les nombreux algorithmes existants, certains se proposent d’identifier à partir de données observationnelles, les structures et réseaux d’interdépendances entre événements, voire d’en dégager des réseaux complets ou incomplets de causalité - en réalité, de causalité informationnelle.
La promesse est donc conséquente : étant donné des observations, nous pourrions en déduire une structure empirique permettant l’action efficace et quantifiée en probabilités sur les phénomènes observés. De tels algorithmes permettraient tant d’expliquer, que de prédire.
Nous proposons dans cet atelier de poser les principes de ces algorithmes d’identification automatique de réseaux (ici, les réseaux bayésiens) et d’en discuter les limites.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)

14h-17h
Session 6 : Atelier

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Etude de causalité sous Spe3dLab

Résumé : Suite à l’introduction du matin sur les algorithmes d’identification automatique de réseaux de causalité, nous proposons d’examiner des cas pratiques et de manipuler 2 algorithmes dans ces différentes dimensions, sur des données réelles (fournies).
Les cas s’approcheront via l’utilisation d’une plateforme dédiée à ce type d’analyses, Spe3dLab, qui ne nécessite pas d’installation autre que de disposer d’un navigateur internet (de préférence Firefox) et d’une connexion internet (les identifiants seront fournis lors de la session). Cette plateforme s’adresse à des personnes qui ne sont pas spécialistes en statistiques ou mathématiques.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)
Prérequis : avoir assister à la session 5 du matin. Venir avec un ordinateur portable connecté à internet (réseaux disponibles à la MdR : eduroam et wifi UT2J). Installation du navigateur Firefox conseillée.



Jeudi 12 décembre

Session 7 : Conférence suivi d’un atelier.

9h-12h
Introduction à la lexicométrie.
Intervenant : Pascal Marchand (LERASS, UPS)

14h-17h Formation au logiciel libre IRaMuteQ.
Intervenant : Pierre Ratinaud (LERASS, UPS)

Prérequis : Installer le logiciel libre IRaMuteQ sur son ordinateur portable.


Vendredi 13 décembre

Session 8 : Conférence et atelier.

9h-12h
Utiliser un logiciel SIG pour visualiser et construire une carte thématique à partir de données INSEE.

Résumé : Cet atelier est une initiation aux Système d’Information Géographique qui s’adresse à toute personne souhaitant réaliser une carte thématique avec des données quantitatives et/ou qualitatives. Cet atelier comportera une partie théorique et une partie pratique avec des exemples d’utilisation et de manipulation des données. Nous utiliserons le logiciel libre SIG QGIS très utilisé en géomatique et en cartographie.
Intervenante : Najla Touati (LISST- UMR5193, UT2J)

Prérequis : bases statistiques et familiarité avec les outils informatiques. Venir avec son ordinateur portable en ayant installé QGIS à télécharger : ici

14h-17h
Introduction à l’exploration et la représentation de flux à l’échelle mondiale : l’exemple du commerce international et des collaborations scientifiques entre villes.

Résumé : Cet atelier vise à initier les participants à la visualisation interactive de données relationnelles. Des notions de base en analyse de réseaux, en cartographie automatique et en sémiologie graphique y seront introduites. Nous prendrons l’exemple de programmes de recherches en cours sur les flux internationaux de déchets et sur les collaborations scientifiques mondiales.
Après la présentation des notions de base, nous ferons la démonstration de deux plateformes web : la plateforme Arabesque pour cartographier des flux et la plateforme Netscity pour traiter des données issues de l’activité scientifique. Dans une seconde partie, les utilisateurs visualiseront des données de flux à l’aide du package R ‘VisNetwork’. Nous finirons par une présentation du prototype d’exploration visuelle NETMAP qui s’appuie sur la version web de VisNetwork et nous partagerons des ressources utiles pour approfondir ces méthodes et techniques.

Intervenant.e.s : Laurent Jégou (LISST- UMR5193, UT2J) et Marion Maisonobe (Géographie-Cités, UMR 8504)

Prérequis : aucun.
Venir avec un ordinateur portable avec R installé ; pour l’installer vous pouvez suivre les instructions décrites ici et/ou sur cette vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable ici






Contact : (contenu des ateliers, inscriptions et organisation)
Jean-Luc Demonsant (MSHS-T) - jean-luc.demonsant@univ-toulouse.fr


Cette semaine, s’inscrit dans le plan national de formations de la TGIR Progedo, elle propose une série d’interventions relatives aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.

La TGIR Progedo et le RnMSH sont partenaires de cette semaine de formation et d’information autour de l’utilisation des données en sciences humaines et sociales.
La « semaine DATA SHS », se déroulera de manière concomitante du 9 au 13 décembre prochains au sein de dix Maisons de Sciences de l’Homme qui mobilisent leurs Plateformes Universitaires de Données (PUD).

Les PUD participantes sont celles implantées dans les MSH suivantes :

  • La MSH-T à Toulouse
  • La MMSH à Aix-en-Provence
  • La MRSH à Caen
  • La MSH à Dijon
  • La MAE à Nanterre
  • La MSH Alpes à Grenoble
  • La MESHS à Lille
  • La MSH LSE à Lyon
  • La MSH Ange-Guépin à Nantes
  • La MISHA à Strasbourg

Pré programme

La Semaine « data SHS » est accessible à toutes et tous.

Les sessions ne nécessitent aucun prérequis en méthodes quantitatives sauf indication du contraire.
Pour les ateliers, un ordinateur portable est fortement conseillé. Pour chaque atelier les logiciels et autres matériels à télécharger et installer avant la session sont indiqués ci-dessous.


Lundi 9 décembre

9h-12h
Session 1 : Conférence suivi d’un atelier.
La collecte des données : du recensement au sondage.
Intervenants : Jean-Louis Guy (Sciences Po Toulouse, TSE) et Quentin Jammes (alumni TSE-ENSAE)

Prérequis : Venir avec un ordinateur portable avec R installé.
Pour cela, vous pouvez suivreles instructions ici et/ou visionner cette : vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable : ici

14h-17h
Session 2 : Table ronde
Comment collecter des données personnelles dans le respect de la réglementation ?

Résumé : Après une présentation des bases de la nouvelle réglementation sur la protection des données, nous discuterons de comment procéder pour qu’un projet de recherche requérant la collecte d’informations personnelles respecte la réglementation. Qui sont les différents acteurs pouvant accompagner le chercheur dans cette voie ? Des témoignages de projets de recherche ayant suivi ce processus ouvriront de riches discussions entre les différents intervenants et les participants.

Intervenantes : Jessica Eynard (IDP, UT1), Jérôme Vaysse (DSI-UT2J), Sophie Estrémé (DAR-UT2J), Sophie Corre (Pôle Informatique, MSHS-T), Marjolaine Huot-Royer (IFERISS), Charlotte Bruneau (CRESCO, UPS)



Mardi 10 décembre

9h-12h
Session 3 : Conférences
Présentation des principales sources de données en SHS.

Résumé : Cette session présente les principales bases de données mobilisables pour des analyses quantitatives en SHS. Nous nous concentrerons sur les bases de données disponibles par l’intermédiaire de la TGIR PROGEDO à partir du portail d’accès Quetelet-PROGEDO-Diffusion (QPD), et en particulier celles de l’ADISP qui diffuse les bases de données issues de la statistique publique (INSEE, DARES, DREES, etc).
Ce portail donne par exemple accès aux recensements (1962–2015) et aux enquêtes emploi (1968–2018), mais aussi à des enquêtes d’opinion parmi lesquelles celles de l’ISSP et du CREDOC. Nous passerons aussi en revue les bases de données socio-politiques disponibles par l’intermédiaire du CDSP (Science-Po) et démographiques (INED), elles aussi disponibles par l’intermédiaire du portail QPD.
Enfin, nous ferons un rapide tour d’horizon de datagouv, datafrance, et des autres bases de références (IPUMS, CEPII, ILO, PWT, etc). La marche à suivre pour accéder aux données sera détaillée.

Intervenant : Victor Gay (TSE, IAST)

Pré-requis : Les participants seront invités à signaler à l’avance leurs domaines d’intérêt afin d’orienter la session et la rendre la plus utile possible.

Generations and Gender Programme (GGP) : thèmes, méthodologie, données et perspectives pour l’avenir.

Résumé : Cette présentation vise à fournir une vue d’ensemble de « Generations and Gender Programme » (GGP), une infrastructure de recherche internationale qui fournit des données comparatives d’enquêtes et une base de données contextuelles, pour l’étude des causes et des conséquences des changements démographiques.
Après un aperçu de l’historique de GGP, la présentation détaille les thèmes de recherche de GGP, la méthodologie et le questionnaire de l’enquête, ainsi que les données disponibles et leur outil d’exploration en ligne.
La présentation décrit également les caractéristiques du nouveau round d’enquête à partir de 2020. Elle termine avec un aperçu de la base de données contextuelles de GGP.

Intervenante : Arianna Caporali (INED)

14h-17h
Session 4 : Atelier
Prise en main des données d’enquêtes.

Résumé : Cette session présente un ensemble de bonnes pratiques pour la prise en main et la gestion de bases de données. Nous commencerons par discuter les problématiques de crédibilité, de réplicabilité, et de transparence qui affectent la recherche actuelle.
Ensuite, nous passerons en revue un certain nombre de principes de documentation du processus de recherche (le « workflow »), par exemple la documentation des sources, la gestion des données manquantes, la catégorisation des variables, les problèmes d’échantillonnages et d’agrégation, ou encore les procédures de recoupement entre bases de données. Nous mettrons tout cela en pratique à travers un exemple tiré d’une base diffusée par l’ADISP.
La session se déroulera sur le logiciel STATA mais les principes présentés sont généraux et s’appliquent quel que soit le logiciel utilisé. Les participants sont invités à télécharger STATA (voir lien ci-dessous) et la base de données avant la session. Celle-ci sera mise à disposition à la fin de la session 3.

Intervenant : Victor Gay (TSE, IAST)
Prérequis : avoir assister à la session 3 du matin.
Venir avec un ordinateur portable avec Stata installé.
Une version d’essai est disponible : ici
Pour les personnes utilisant d’autres logiciels, cette partie constituera une démonstration des principes à appliquer pour toute prise en main de données et reste valable quel que soit le logiciel utilisé.


Mercredi 11 décembre

9h30-12h
Session 5 : Conférences

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Cadres conceptuelles et théoriques dans l’analyse quantitative : l’exemple de l’approche biographique.
Intervenante : Michelle Kelly-Irving, (INSERM, UMR-1027)
Les nouvelles pratiques liées au big data en santé : enjeux sociétaux et impact au regard des inégalités sociales de santé.

Résumé : L’intérêt du big data en santé tient avant tout au chaînage, au croisement ou à l’enrichissement de données qui ont usuellement vocation d’être cloisonnées, produites en des unités de lieu et de temps très diverses et nombreuses, et au traitement de ces données qui ne se limite pas aux techniques classiques prédominantes en biomédecine.
De ce fait, le Big Data en santé génère de très fortes attentes et espoirs pour une meilleure compréhension de la santé et une meilleure prise en charge au bénéfice de tous.
Néanmoins certains verrous et enjeux persistent et constituent de véritables freins voire de véritables risques pour parvenir à exploiter au mieux et au bénéfice de tous le développement du Big Data en santé.
La présentation sera l’occasion d’expliciter certains de ces freins/risques dans le champ de l’analyse des inégalités sociales de santé et notamment la problématique du périmètre du big data en santé, celle de la notion de données et d’algorithmes ou encore celle du contrôle/maitrise des données et de leur utilisation pour la lutte contre les inégalités sociales de santé.

Intervenant : Cyrille Delpierre, (INSERM, UMR-1027)

Que faire et penser des algorithmes d’identification automatique de réseaux de causalité ?

Résumé : Une des recherches centrales des sciences est l’identification de schémas explicatifs du monde, en particulier, de relations de causalité entre plusieurs événements ou observations d’intérêt.
L’utilisation des statistiques ou à tout le moins, d’une prise en compte des fluctuations ou du hasard dans la manière de rendre compte des observations et des expériences a été une étape importante dans l’histoire des sciences et l’identification de causes, et met paradoxalement en tension le concept de causalité. Une traduction de cette tension réside dans la dualité entre prédiction et explication, qui peuvent à la fois être liés et de poursuite antagoniste.
La dualité prédire/expliquer chère à René Thom est réactualisée par la généralisation des observations disponibles (numérisation de nombreux aspects du monde et de la vie) et par les techniques utilisées pour les explorer - qu’on les appelle Machine Learning, intelligence artificielle, algorithmes...
Parmi les nombreux algorithmes existants, certains se proposent d’identifier à partir de données observationnelles, les structures et réseaux d’interdépendances entre événements, voire d’en dégager des réseaux complets ou incomplets de causalité - en réalité, de causalité informationnelle.
La promesse est donc conséquente : étant donné des observations, nous pourrions en déduire une structure empirique permettant l’action efficace et quantifiée en probabilités sur les phénomènes observés. De tels algorithmes permettraient tant d’expliquer, que de prédire.
Nous proposons dans cet atelier de poser les principes de ces algorithmes d’identification automatique de réseaux (ici, les réseaux bayésiens) et d’en discuter les limites.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)

14h-17h
Session 6 : Atelier

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Etude de causalité sous Spe3dLab

Résumé : Suite à l’introduction du matin sur les algorithmes d’identification automatique de réseaux de causalité, nous proposons d’examiner des cas pratiques et de manipuler 2 algorithmes dans ces différentes dimensions, sur des données réelles (fournies).
Les cas s’approcheront via l’utilisation d’une plateforme dédiée à ce type d’analyses, Spe3dLab, qui ne nécessite pas d’installation autre que de disposer d’un navigateur internet (de préférence Firefox) et d’une connexion internet (les identifiants seront fournis lors de la session). Cette plateforme s’adresse à des personnes qui ne sont pas spécialistes en statistiques ou mathématiques.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)
Prérequis : avoir assister à la session 5 du matin. Venir avec un ordinateur portable connecté à internet (réseaux disponibles à la MdR : eduroam et wifi UT2J). Installation du navigateur Firefox conseillée.



Jeudi 12 décembre

Session 7 : Conférence suivi d’un atelier.

9h-12h
Introduction à la lexicométrie.
Intervenant : Pascal Marchand (LERASS, UPS)

14h-17h Formation au logiciel libre IRaMuteQ.
Intervenant : Pierre Ratinaud (LERASS, UPS)

Prérequis : Installer le logiciel libre IRaMuteQ sur son ordinateur portable.


Vendredi 13 décembre

Session 8 : Conférence et atelier.

9h-12h
Utiliser un logiciel SIG pour visualiser et construire une carte thématique à partir de données INSEE.

Résumé : Cet atelier est une initiation aux Système d’Information Géographique qui s’adresse à toute personne souhaitant réaliser une carte thématique avec des données quantitatives et/ou qualitatives. Cet atelier comportera une partie théorique et une partie pratique avec des exemples d’utilisation et de manipulation des données. Nous utiliserons le logiciel libre SIG QGIS très utilisé en géomatique et en cartographie.
Intervenante : Najla Touati (LISST- UMR5193, UT2J)

Prérequis : bases statistiques et familiarité avec les outils informatiques. Venir avec son ordinateur portable en ayant installé QGIS à télécharger : ici

14h-17h
Introduction à l’exploration et la représentation de flux à l’échelle mondiale : l’exemple du commerce international et des collaborations scientifiques entre villes.

Résumé : Cet atelier vise à initier les participants à la visualisation interactive de données relationnelles. Des notions de base en analyse de réseaux, en cartographie automatique et en sémiologie graphique y seront introduites. Nous prendrons l’exemple de programmes de recherches en cours sur les flux internationaux de déchets et sur les collaborations scientifiques mondiales.
Après la présentation des notions de base, nous ferons la démonstration de deux plateformes web : la plateforme Arabesque pour cartographier des flux et la plateforme Netscity pour traiter des données issues de l’activité scientifique. Dans une seconde partie, les utilisateurs visualiseront des données de flux à l’aide du package R ‘VisNetwork’. Nous finirons par une présentation du prototype d’exploration visuelle NETMAP qui s’appuie sur la version web de VisNetwork et nous partagerons des ressources utiles pour approfondir ces méthodes et techniques.

Intervenant.e.s : Laurent Jégou (LISST- UMR5193, UT2J) et Marion Maisonobe (Géographie-Cités, UMR 8504)

Prérequis : aucun.
Venir avec un ordinateur portable avec R installé ; pour l’installer vous pouvez suivre les instructions décrites ici et/ou sur cette vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable ici






Contact : (contenu des ateliers, inscriptions et organisation)
Jean-Luc Demonsant (MSHS-T) - jean-luc.demonsant@univ-toulouse.fr


Cette semaine, s’inscrit dans le plan national de formations de la TGIR Progedo, elle propose une série d’interventions relatives aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.

La TGIR Progedo et le RnMSH sont partenaires de cette semaine de formation et d’information autour de l’utilisation des données en sciences humaines et sociales.
La « semaine DATA SHS », se déroulera de manière concomitante du 9 au 13 décembre prochains au sein de dix Maisons de Sciences de l’Homme qui mobilisent leurs Plateformes Universitaires de Données (PUD).

Les PUD participantes sont celles implantées dans les MSH suivantes :

  • La MSH-T à Toulouse
  • La MMSH à Aix-en-Provence
  • La MRSH à Caen
  • La MSH à Dijon
  • La MAE à Nanterre
  • La MSH Alpes à Grenoble
  • La MESHS à Lille
  • La MSH LSE à Lyon
  • La MSH Ange-Guépin à Nantes
  • La MISHA à Strasbourg


Pré programme

La Semaine « data SHS » est accessible à toutes et tous.

Les sessions ne nécessitent aucun prérequis en méthodes quantitatives sauf indication du contraire.
Pour les ateliers, un ordinateur portable est fortement conseillé. Pour chaque atelier les logiciels et autres matériels à télécharger et installer avant la session sont indiqués ci-dessous.


Lundi 9 décembre

9h-12h
Session 1 : Conférence suivi d’un atelier.
La collecte des données : du recensement au sondage.
Intervenants : Jean-Louis Guy (Sciences Po Toulouse, TSE) et Quentin Jammes (alumni TSE-ENSAE)

Prérequis : Venir avec un ordinateur portable avec R installé.
Pour cela, vous pouvez suivreles instructions ici et/ou visionner cette : vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable : ici

14h-17h
Session 2 : Table ronde
Comment collecter des données personnelles dans le respect de la réglementation ?

Résumé : Après une présentation des bases de la nouvelle réglementation sur la protection des données, nous discuterons de comment procéder pour qu’un projet de recherche requérant la collecte d’informations personnelles respecte la réglementation. Qui sont les différents acteurs pouvant accompagner le chercheur dans cette voie ? Des témoignages de projets de recherche ayant suivi ce processus ouvriront de riches discussions entre les différents intervenants et les participants.

Intervenantes : Jessica Eynard (IDP, UT1), Jérôme Vaysse (DSI-UT2J), Sophie Estrémé (DAR-UT2J), Sophie Corre (Pôle Informatique, MSHS-T), Marjolaine Huot-Royer (IFERISS), Charlotte Bruneau (CRESCO, UPS)



Mardi 10 décembre

9h-12h
Session 3 : Conférences
Présentation des principales sources de données en SHS.

Résumé : Cette session présente les principales bases de données mobilisables pour des analyses quantitatives en SHS. Nous nous concentrerons sur les bases de données disponibles par l’intermédiaire de la TGIR PROGEDO à partir du portail d’accès Quetelet-PROGEDO-Diffusion (QPD), et en particulier celles de l’ADISP qui diffuse les bases de données issues de la statistique publique (INSEE, DARES, DREES, etc).
Ce portail donne par exemple accès aux recensements (1962–2015) et aux enquêtes emploi (1968–2018), mais aussi à des enquêtes d’opinion parmi lesquelles celles de l’ISSP et du CREDOC. Nous passerons aussi en revue les bases de données socio-politiques disponibles par l’intermédiaire du CDSP (Science-Po) et démographiques (INED), elles aussi disponibles par l’intermédiaire du portail QPD.
Enfin, nous ferons un rapide tour d’horizon de datagouv, datafrance, et des autres bases de références (IPUMS, CEPII, ILO, PWT, etc). La marche à suivre pour accéder aux données sera détaillée.

Intervenant : Victor Gay (TSE, IAST)

Pré-requis : Les participants seront invités à signaler à l’avance leurs domaines d’intérêt afin d’orienter la session et la rendre la plus utile possible.

Generations and Gender Programme (GGP) : thèmes, méthodologie, données et perspectives pour l’avenir.

Résumé : Cette présentation vise à fournir une vue d’ensemble de « Generations and Gender Programme » (GGP), une infrastructure de recherche internationale qui fournit des données comparatives d’enquêtes et une base de données contextuelles, pour l’étude des causes et des conséquences des changements démographiques.
Après un aperçu de l’historique de GGP, la présentation détaille les thèmes de recherche de GGP, la méthodologie et le questionnaire de l’enquête, ainsi que les données disponibles et leur outil d’exploration en ligne.
La présentation décrit également les caractéristiques du nouveau round d’enquête à partir de 2020. Elle termine avec un aperçu de la base de données contextuelles de GGP.

Intervenante : Arianna Caporali (INED)

14h-17h
Session 4 : Atelier
Prise en main des données d’enquêtes.

Résumé : Cette session présente un ensemble de bonnes pratiques pour la prise en main et la gestion de bases de données. Nous commencerons par discuter les problématiques de crédibilité, de réplicabilité, et de transparence qui affectent la recherche actuelle.
Ensuite, nous passerons en revue un certain nombre de principes de documentation du processus de recherche (le « workflow »), par exemple la documentation des sources, la gestion des données manquantes, la catégorisation des variables, les problèmes d’échantillonnages et d’agrégation, ou encore les procédures de recoupement entre bases de données. Nous mettrons tout cela en pratique à travers un exemple tiré d’une base diffusée par l’ADISP.
La session se déroulera sur le logiciel STATA mais les principes présentés sont généraux et s’appliquent quel que soit le logiciel utilisé. Les participants sont invités à télécharger STATA (voir lien ci-dessous) et la base de données avant la session. Celle-ci sera mise à disposition à la fin de la session 3.

Intervenant : Victor Gay (TSE, IAST)
Prérequis : avoir assister à la session 3 du matin.
Venir avec un ordinateur portable avec Stata installé.
Une version d’essai est disponible : ici
Pour les personnes utilisant d’autres logiciels, cette partie constituera une démonstration des principes à appliquer pour toute prise en main de données et reste valable quel que soit le logiciel utilisé.


Mercredi 11 décembre

9h30-12h
Session 5 : Conférences

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Cadres conceptuelles et théoriques dans l’analyse quantitative : l’exemple de l’approche biographique.
Intervenante : Michelle Kelly-Irving, (INSERM, UMR-1027)
Les nouvelles pratiques liées au big data en santé : enjeux sociétaux et impact au regard des inégalités sociales de santé.

Résumé : L’intérêt du big data en santé tient avant tout au chaînage, au croisement ou à l’enrichissement de données qui ont usuellement vocation d’être cloisonnées, produites en des unités de lieu et de temps très diverses et nombreuses, et au traitement de ces données qui ne se limite pas aux techniques classiques prédominantes en biomédecine.
De ce fait, le Big Data en santé génère de très fortes attentes et espoirs pour une meilleure compréhension de la santé et une meilleure prise en charge au bénéfice de tous.
Néanmoins certains verrous et enjeux persistent et constituent de véritables freins voire de véritables risques pour parvenir à exploiter au mieux et au bénéfice de tous le développement du Big Data en santé.
La présentation sera l’occasion d’expliciter certains de ces freins/risques dans le champ de l’analyse des inégalités sociales de santé et notamment la problématique du périmètre du big data en santé, celle de la notion de données et d’algorithmes ou encore celle du contrôle/maitrise des données et de leur utilisation pour la lutte contre les inégalités sociales de santé.

Intervenant : Cyrille Delpierre, (INSERM, UMR-1027)

Que faire et penser des algorithmes d’identification automatique de réseaux de causalité ?

Résumé : Une des recherches centrales des sciences est l’identification de schémas explicatifs du monde, en particulier, de relations de causalité entre plusieurs événements ou observations d’intérêt.
L’utilisation des statistiques ou à tout le moins, d’une prise en compte des fluctuations ou du hasard dans la manière de rendre compte des observations et des expériences a été une étape importante dans l’histoire des sciences et l’identification de causes, et met paradoxalement en tension le concept de causalité. Une traduction de cette tension réside dans la dualité entre prédiction et explication, qui peuvent à la fois être liés et de poursuite antagoniste.
La dualité prédire/expliquer chère à René Thom est réactualisée par la généralisation des observations disponibles (numérisation de nombreux aspects du monde et de la vie) et par les techniques utilisées pour les explorer - qu’on les appelle Machine Learning, intelligence artificielle, algorithmes...
Parmi les nombreux algorithmes existants, certains se proposent d’identifier à partir de données observationnelles, les structures et réseaux d’interdépendances entre événements, voire d’en dégager des réseaux complets ou incomplets de causalité - en réalité, de causalité informationnelle.
La promesse est donc conséquente : étant donné des observations, nous pourrions en déduire une structure empirique permettant l’action efficace et quantifiée en probabilités sur les phénomènes observés. De tels algorithmes permettraient tant d’expliquer, que de prédire.
Nous proposons dans cet atelier de poser les principes de ces algorithmes d’identification automatique de réseaux (ici, les réseaux bayésiens) et d’en discuter les limites.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)

14h-17h
Session 6 : Atelier

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Etude de causalité sous Spe3dLab

Résumé : Suite à l’introduction du matin sur les algorithmes d’identification automatique de réseaux de causalité, nous proposons d’examiner des cas pratiques et de manipuler 2 algorithmes dans ces différentes dimensions, sur des données réelles (fournies).
Les cas s’approcheront via l’utilisation d’une plateforme dédiée à ce type d’analyses, Spe3dLab, qui ne nécessite pas d’installation autre que de disposer d’un navigateur internet (de préférence Firefox) et d’une connexion internet (les identifiants seront fournis lors de la session). Cette plateforme s’adresse à des personnes qui ne sont pas spécialistes en statistiques ou mathématiques.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)
Prérequis : avoir assister à la session 5 du matin. Venir avec un ordinateur portable connecté à internet (réseaux disponibles à la MdR : eduroam et wifi UT2J). Installation du navigateur Firefox conseillée.



Jeudi 12 décembre

Session 7 : Conférence suivi d’un atelier.

9h-12h
Introduction à la lexicométrie.
Intervenant : Pascal Marchand (LERASS, UPS)

14h-17h Formation au logiciel libre IRaMuteQ.
Intervenant : Pierre Ratinaud (LERASS, UPS)

Prérequis : Installer le logiciel libre IRaMuteQ sur son ordinateur portable.


Vendredi 13 décembre

Session 8 : Conférence et atelier.

9h-12h
Utiliser un logiciel SIG pour visualiser et construire une carte thématique à partir de données INSEE.

Résumé : Cet atelier est une initiation aux Système d’Information Géographique qui s’adresse à toute personne souhaitant réaliser une carte thématique avec des données quantitatives et/ou qualitatives. Cet atelier comportera une partie théorique et une partie pratique avec des exemples d’utilisation et de manipulation des données. Nous utiliserons le logiciel libre SIG QGIS très utilisé en géomatique et en cartographie.
Intervenante : Najla Touati (LISST- UMR5193, UT2J)

Prérequis : bases statistiques et familiarité avec les outils informatiques. Venir avec son ordinateur portable en ayant installé QGIS à télécharger : ici

14h-17h
Introduction à l’exploration et la représentation de flux à l’échelle mondiale : l’exemple du commerce international et des collaborations scientifiques entre villes.

Résumé : Cet atelier vise à initier les participants à la visualisation interactive de données relationnelles. Des notions de base en analyse de réseaux, en cartographie automatique et en sémiologie graphique y seront introduites. Nous prendrons l’exemple de programmes de recherches en cours sur les flux internationaux de déchets et sur les collaborations scientifiques mondiales.
Après la présentation des notions de base, nous ferons la démonstration de deux plateformes web : la plateforme Arabesque pour cartographier des flux et la plateforme Netscity pour traiter des données issues de l’activité scientifique. Dans une seconde partie, les utilisateurs visualiseront des données de flux à l’aide du package R ‘VisNetwork’. Nous finirons par une présentation du prototype d’exploration visuelle NETMAP qui s’appuie sur la version web de VisNetwork et nous partagerons des ressources utiles pour approfondir ces méthodes et techniques.

Intervenant.e.s : Laurent Jégou (LISST- UMR5193, UT2J) et Marion Maisonobe (Géographie-Cités, UMR 8504)

Prérequis : aucun.
Venir avec un ordinateur portable avec R installé ; pour l’installer vous pouvez suivre les instructions décrites ici et/ou sur cette vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable ici






Contact : (contenu des ateliers, inscriptions et organisation)
Jean-Luc Demonsant (MSHS-T) - jean-luc.demonsant@univ-toulouse.fr


Cette semaine, s’inscrit dans le plan national de formations de la TGIR Progedo, elle propose une série d’interventions relatives aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.

La TGIR Progedo et le RnMSH sont partenaires de cette semaine de formation et d’information autour de l’utilisation des données en sciences humaines et sociales.
La « semaine DATA SHS », se déroulera de manière concomitante du 9 au 13 décembre prochains au sein de dix Maisons de Sciences de l’Homme qui mobilisent leurs Plateformes Universitaires de Données (PUD).

Les PUD participantes sont celles implantées dans les MSH suivantes :

  • La MSH-T à Toulouse
  • La MMSH à Aix-en-Provence
  • La MRSH à Caen
  • La MSH à Dijon
  • La MAE à Nanterre
  • La MSH Alpes à Grenoble
  • La MESHS à Lille
  • La MSH LSE à Lyon
  • La MSH Ange-Guépin à Nantes
  • La MISHA à Strasbourg


Pré programme

La Semaine « data SHS » est accessible à toutes et tous.

Les sessions ne nécessitent aucun prérequis en méthodes quantitatives sauf indication du contraire.
Pour les ateliers, un ordinateur portable est fortement conseillé. Pour chaque atelier les logiciels et autres matériels à télécharger et installer avant la session sont indiqués ci-dessous.

Lundi 9 décembre

9h-12h
Session 1 : Conférence suivi d’un atelier.
La collecte des données : du recensement au sondage.
Intervenants : Jean-Louis Guy (Sciences Po Toulouse, TSE) et Quentin Jammes (alumni TSE-ENSAE)

Prérequis : Venir avec un ordinateur portable avec R installé.
Pour cela, vous pouvez suivreles instructions ici et/ou visionner cette : vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable : ici

14h-17h
Session 2 : Table ronde
Comment collecter des données personnelles dans le respect de la réglementation ?

Résumé : Après une présentation des bases de la nouvelle réglementation sur la protection des données, nous discuterons de comment procéder pour qu’un projet de recherche requérant la collecte d’informations personnelles respecte la réglementation. Qui sont les différents acteurs pouvant accompagner le chercheur dans cette voie ? Des témoignages de projets de recherche ayant suivi ce processus ouvriront de riches discussions entre les différents intervenants et les participants.

Intervenantes : Jessica Eynard (IDP, UT1), Jérôme Vaysse (DSI-UT2J), Sophie Estrémé (DAR-UT2J), Sophie Corre (Pôle Informatique, MSHS-T), Marjolaine Huot-Royer (IFERISS), Charlotte Bruneau (CRESCO, UPS)



Mardi 10 décembre

9h-12h
Session 3 : Conférences
Présentation des principales sources de données en SHS.

Résumé : Cette session présente les principales bases de données mobilisables pour des analyses quantitatives en SHS. Nous nous concentrerons sur les bases de données disponibles par l’intermédiaire de la TGIR PROGEDO à partir du portail d’accès Quetelet-PROGEDO-Diffusion (QPD), et en particulier celles de l’ADISP qui diffuse les bases de données issues de la statistique publique (INSEE, DARES, DREES, etc).
Ce portail donne par exemple accès aux recensements (1962–2015) et aux enquêtes emploi (1968–2018), mais aussi à des enquêtes d’opinion parmi lesquelles celles de l’ISSP et du CREDOC. Nous passerons aussi en revue les bases de données socio-politiques disponibles par l’intermédiaire du CDSP (Science-Po) et démographiques (INED), elles aussi disponibles par l’intermédiaire du portail QPD.
Enfin, nous ferons un rapide tour d’horizon de datagouv, datafrance, et des autres bases de références (IPUMS, CEPII, ILO, PWT, etc). La marche à suivre pour accéder aux données sera détaillée.

Intervenant : Victor Gay (TSE, IAST)

Pré-requis : Les participants seront invités à signaler à l’avance leurs domaines d’intérêt afin d’orienter la session et la rendre la plus utile possible.

Generations and Gender Programme (GGP) : thèmes, méthodologie, données et perspectives pour l’avenir.

Résumé : Cette présentation vise à fournir une vue d’ensemble de « Generations and Gender Programme » (GGP), une infrastructure de recherche internationale qui fournit des données comparatives d’enquêtes et une base de données contextuelles, pour l’étude des causes et des conséquences des changements démographiques.
Après un aperçu de l’historique de GGP, la présentation détaille les thèmes de recherche de GGP, la méthodologie et le questionnaire de l’enquête, ainsi que les données disponibles et leur outil d’exploration en ligne.
La présentation décrit également les caractéristiques du nouveau round d’enquête à partir de 2020. Elle termine avec un aperçu de la base de données contextuelles de GGP.

Intervenante : Arianna Caporali (INED)

14h-17h
Session 4 : Atelier
Prise en main des données d’enquêtes.

Résumé : Cette session présente un ensemble de bonnes pratiques pour la prise en main et la gestion de bases de données. Nous commencerons par discuter les problématiques de crédibilité, de réplicabilité, et de transparence qui affectent la recherche actuelle.
Ensuite, nous passerons en revue un certain nombre de principes de documentation du processus de recherche (le « workflow »), par exemple la documentation des sources, la gestion des données manquantes, la catégorisation des variables, les problèmes d’échantillonnages et d’agrégation, ou encore les procédures de recoupement entre bases de données. Nous mettrons tout cela en pratique à travers un exemple tiré d’une base diffusée par l’ADISP.
La session se déroulera sur le logiciel STATA mais les principes présentés sont généraux et s’appliquent quel que soit le logiciel utilisé. Les participants sont invités à télécharger STATA (voir lien ci-dessous) et la base de données avant la session. Celle-ci sera mise à disposition à la fin de la session 3.

Intervenant : Victor Gay (TSE, IAST)
Prérequis : avoir assister à la session 3 du matin.
Venir avec un ordinateur portable avec Stata installé.
Une version d’essai est disponible : ici
Pour les personnes utilisant d’autres logiciels, cette partie constituera une démonstration des principes à appliquer pour toute prise en main de données et reste valable quel que soit le logiciel utilisé.


Mercredi 11 décembre

9h30-12h
Session 5 : Conférences

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Cadres conceptuelles et théoriques dans l’analyse quantitative : l’exemple de l’approche biographique.
Intervenante : Michelle Kelly-Irving, (INSERM, UMR-1027)
Les nouvelles pratiques liées au big data en santé : enjeux sociétaux et impact au regard des inégalités sociales de santé.

Résumé : L’intérêt du big data en santé tient avant tout au chaînage, au croisement ou à l’enrichissement de données qui ont usuellement vocation d’être cloisonnées, produites en des unités de lieu et de temps très diverses et nombreuses, et au traitement de ces données qui ne se limite pas aux techniques classiques prédominantes en biomédecine.
De ce fait, le Big Data en santé génère de très fortes attentes et espoirs pour une meilleure compréhension de la santé et une meilleure prise en charge au bénéfice de tous.
Néanmoins certains verrous et enjeux persistent et constituent de véritables freins voire de véritables risques pour parvenir à exploiter au mieux et au bénéfice de tous le développement du Big Data en santé.
La présentation sera l’occasion d’expliciter certains de ces freins/risques dans le champ de l’analyse des inégalités sociales de santé et notamment la problématique du périmètre du big data en santé, celle de la notion de données et d’algorithmes ou encore celle du contrôle/maitrise des données et de leur utilisation pour la lutte contre les inégalités sociales de santé.

Intervenant : Cyrille Delpierre, (INSERM, UMR-1027)

Que faire et penser des algorithmes d’identification automatique de réseaux de causalité ?

Résumé : Une des recherches centrales des sciences est l’identification de schémas explicatifs du monde, en particulier, de relations de causalité entre plusieurs événements ou observations d’intérêt.
L’utilisation des statistiques ou à tout le moins, d’une prise en compte des fluctuations ou du hasard dans la manière de rendre compte des observations et des expériences a été une étape importante dans l’histoire des sciences et l’identification de causes, et met paradoxalement en tension le concept de causalité. Une traduction de cette tension réside dans la dualité entre prédiction et explication, qui peuvent à la fois être liés et de poursuite antagoniste.
La dualité prédire/expliquer chère à René Thom est réactualisée par la généralisation des observations disponibles (numérisation de nombreux aspects du monde et de la vie) et par les techniques utilisées pour les explorer - qu’on les appelle Machine Learning, intelligence artificielle, algorithmes...
Parmi les nombreux algorithmes existants, certains se proposent d’identifier à partir de données observationnelles, les structures et réseaux d’interdépendances entre événements, voire d’en dégager des réseaux complets ou incomplets de causalité - en réalité, de causalité informationnelle.
La promesse est donc conséquente : étant donné des observations, nous pourrions en déduire une structure empirique permettant l’action efficace et quantifiée en probabilités sur les phénomènes observés. De tels algorithmes permettraient tant d’expliquer, que de prédire.
Nous proposons dans cet atelier de poser les principes de ces algorithmes d’identification automatique de réseaux (ici, les réseaux bayésiens) et d’en discuter les limites.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)

14h-17h
Session 6 : Atelier

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Etude de causalité sous Spe3dLab

Résumé : Suite à l’introduction du matin sur les algorithmes d’identification automatique de réseaux de causalité, nous proposons d’examiner des cas pratiques et de manipuler 2 algorithmes dans ces différentes dimensions, sur des données réelles (fournies).
Les cas s’approcheront via l’utilisation d’une plateforme dédiée à ce type d’analyses, Spe3dLab, qui ne nécessite pas d’installation autre que de disposer d’un navigateur internet (de préférence Firefox) et d’une connexion internet (les identifiants seront fournis lors de la session). Cette plateforme s’adresse à des personnes qui ne sont pas spécialistes en statistiques ou mathématiques.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)
Prérequis : avoir assister à la session 5 du matin. Venir avec un ordinateur portable connecté à internet (réseaux disponibles à la MdR : eduroam et wifi UT2J). Installation du navigateur Firefox conseillée.



Jeudi 12 décembre

Session 7 : Conférence suivi d’un atelier.

9h-12h
Introduction à la lexicométrie.
Intervenant : Pascal Marchand (LERASS, UPS)

14h-17h Formation au logiciel libre IRaMuteQ.
Intervenant : Pierre Ratinaud (LERASS, UPS)

Prérequis : Installer le logiciel libre IRaMuteQ sur son ordinateur portable.


Vendredi 13 décembre

Session 8 : Conférence et atelier.

9h-12h
Utiliser un logiciel SIG pour visualiser et construire une carte thématique à partir de données INSEE.

Résumé : Cet atelier est une initiation aux Système d’Information Géographique qui s’adresse à toute personne souhaitant réaliser une carte thématique avec des données quantitatives et/ou qualitatives. Cet atelier comportera une partie théorique et une partie pratique avec des exemples d’utilisation et de manipulation des données. Nous utiliserons le logiciel libre SIG QGIS très utilisé en géomatique et en cartographie.
Intervenante : Najla Touati (LISST- UMR5193, UT2J)

Prérequis : bases statistiques et familiarité avec les outils informatiques. Venir avec son ordinateur portable en ayant installé QGIS à télécharger : ici

14h-17h
Introduction à l’exploration et la représentation de flux à l’échelle mondiale : l’exemple du commerce international et des collaborations scientifiques entre villes.

Résumé : Cet atelier vise à initier les participants à la visualisation interactive de données relationnelles. Des notions de base en analyse de réseaux, en cartographie automatique et en sémiologie graphique y seront introduites. Nous prendrons l’exemple de programmes de recherches en cours sur les flux internationaux de déchets et sur les collaborations scientifiques mondiales.
Après la présentation des notions de base, nous ferons la démonstration de deux plateformes web : la plateforme Arabesque pour cartographier des flux et la plateforme Netscity pour traiter des données issues de l’activité scientifique. Dans une seconde partie, les utilisateurs visualiseront des données de flux à l’aide du package R ‘VisNetwork’. Nous finirons par une présentation du prototype d’exploration visuelle NETMAP qui s’appuie sur la version web de VisNetwork et nous partagerons des ressources utiles pour approfondir ces méthodes et techniques.

Intervenant.e.s : Laurent Jégou (LISST- UMR5193, UT2J) et Marion Maisonobe (Géographie-Cités, UMR 8504)

Prérequis : aucun.
Venir avec un ordinateur portable avec R installé ; pour l’installer vous pouvez suivre les instructions décrites ici et/ou sur cette vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable ici






Contact : (contenu des ateliers, inscriptions et organisation)
Jean-Luc Demonsant (MSHS-T) - jean-luc.demonsant@univ-toulouse.fr


Cette semaine, s’inscrit dans le plan national de formations de la TGIR Progedo, elle propose une série d’interventions relatives aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.

La TGIR Progedo et le RnMSH sont partenaires de cette semaine de formation et d’information autour de l’utilisation des données en sciences humaines et sociales.
La « semaine DATA SHS », se déroulera de manière concomitante du 9 au 13 décembre prochains au sein de dix Maisons de Sciences de l’Homme qui mobilisent leurs Plateformes Universitaires de Données (PUD).

Les PUD participantes sont celles implantées dans les MSH suivantes :

  • La MSH-T à Toulouse
  • La MMSH à Aix-en-Provence
  • La MRSH à Caen
  • La MSH à Dijon
  • La MAE à Nanterre
  • La MSH Alpes à Grenoble
  • La MESHS à Lille
  • La MSH LSE à Lyon
  • La MSH Ange-Guépin à Nantes
  • La MISHA à Strasbourg


Pré programme

La Semaine « data SHS » est accessible à toutes et tous.

Les sessions ne nécessitent aucun prérequis en méthodes quantitatives sauf indication du contraire.
Pour les ateliers, un ordinateur portable est fortement conseillé. Pour chaque atelier les logiciels et autres matériels à télécharger et installer avant la session sont indiqués ci-dessous.


Lundi 9 décembre

9h-12h
Session 1 : Conférence suivi d’un atelier.
La collecte des données : du recensement au sondage.
Intervenants : Jean-Louis Guy (Sciences Po Toulouse, TSE) et Quentin Jammes (alumni TSE-ENSAE)

Prérequis : Venir avec un ordinateur portable avec R installé.
Pour cela, vous pouvez suivreles instructions ici et/ou visionner cette : vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable : ici

14h-17h
Session 2 : Table ronde
Comment collecter des données personnelles dans le respect de la réglementation ?

Résumé : Après une présentation des bases de la nouvelle réglementation sur la protection des données, nous discuterons de comment procéder pour qu’un projet de recherche requérant la collecte d’informations personnelles respecte la réglementation. Qui sont les différents acteurs pouvant accompagner le chercheur dans cette voie ? Des témoignages de projets de recherche ayant suivi ce processus ouvriront de riches discussions entre les différents intervenants et les participants.

Intervenantes : Jessica Eynard (IDP, UT1), Jérôme Vaysse (DSI-UT2J), Sophie Estrémé (DAR-UT2J), Sophie Corre (Pôle Informatique, MSHS-T), Marjolaine Huot-Royer (IFERISS), Charlotte Bruneau (CRESCO, UPS)



Mardi 10 décembre

9h-12h
Session 3 : Conférences
Présentation des principales sources de données en SHS.

Résumé : Cette session présente les principales bases de données mobilisables pour des analyses quantitatives en SHS. Nous nous concentrerons sur les bases de données disponibles par l’intermédiaire de la TGIR PROGEDO à partir du portail d’accès Quetelet-PROGEDO-Diffusion (QPD), et en particulier celles de l’ADISP qui diffuse les bases de données issues de la statistique publique (INSEE, DARES, DREES, etc).
Ce portail donne par exemple accès aux recensements (1962–2015) et aux enquêtes emploi (1968–2018), mais aussi à des enquêtes d’opinion parmi lesquelles celles de l’ISSP et du CREDOC. Nous passerons aussi en revue les bases de données socio-politiques disponibles par l’intermédiaire du CDSP (Science-Po) et démographiques (INED), elles aussi disponibles par l’intermédiaire du portail QPD.
Enfin, nous ferons un rapide tour d’horizon de datagouv, datafrance, et des autres bases de références (IPUMS, CEPII, ILO, PWT, etc). La marche à suivre pour accéder aux données sera détaillée.

Intervenant : Victor Gay (TSE, IAST)

Pré-requis : Les participants seront invités à signaler à l’avance leurs domaines d’intérêt afin d’orienter la session et la rendre la plus utile possible.

Generations and Gender Programme (GGP) : thèmes, méthodologie, données et perspectives pour l’avenir.

Résumé : Cette présentation vise à fournir une vue d’ensemble de « Generations and Gender Programme » (GGP), une infrastructure de recherche internationale qui fournit des données comparatives d’enquêtes et une base de données contextuelles, pour l’étude des causes et des conséquences des changements démographiques.
Après un aperçu de l’historique de GGP, la présentation détaille les thèmes de recherche de GGP, la méthodologie et le questionnaire de l’enquête, ainsi que les données disponibles et leur outil d’exploration en ligne.
La présentation décrit également les caractéristiques du nouveau round d’enquête à partir de 2020. Elle termine avec un aperçu de la base de données contextuelles de GGP.

Intervenante : Arianna Caporali (INED)

14h-17h
Session 4 : Atelier
Prise en main des données d’enquêtes.

Résumé : Cette session présente un ensemble de bonnes pratiques pour la prise en main et la gestion de bases de données. Nous commencerons par discuter les problématiques de crédibilité, de réplicabilité, et de transparence qui affectent la recherche actuelle.
Ensuite, nous passerons en revue un certain nombre de principes de documentation du processus de recherche (le « workflow »), par exemple la documentation des sources, la gestion des données manquantes, la catégorisation des variables, les problèmes d’échantillonnages et d’agrégation, ou encore les procédures de recoupement entre bases de données. Nous mettrons tout cela en pratique à travers un exemple tiré d’une base diffusée par l’ADISP.
La session se déroulera sur le logiciel STATA mais les principes présentés sont généraux et s’appliquent quel que soit le logiciel utilisé. Les participants sont invités à télécharger STATA (voir lien ci-dessous) et la base de données avant la session. Celle-ci sera mise à disposition à la fin de la session 3.

Intervenant : Victor Gay (TSE, IAST)
Prérequis : avoir assister à la session 3 du matin.
Venir avec un ordinateur portable avec Stata installé.
Une version d’essai est disponible : ici
Pour les personnes utilisant d’autres logiciels, cette partie constituera une démonstration des principes à appliquer pour toute prise en main de données et reste valable quel que soit le logiciel utilisé.


Mercredi 11 décembre

9h30-12h
Session 5 : Conférences

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Cadres conceptuelles et théoriques dans l’analyse quantitative : l’exemple de l’approche biographique.
Intervenante : Michelle Kelly-Irving, (INSERM, UMR-1027)
Les nouvelles pratiques liées au big data en santé : enjeux sociétaux et impact au regard des inégalités sociales de santé.

Résumé : L’intérêt du big data en santé tient avant tout au chaînage, au croisement ou à l’enrichissement de données qui ont usuellement vocation d’être cloisonnées, produites en des unités de lieu et de temps très diverses et nombreuses, et au traitement de ces données qui ne se limite pas aux techniques classiques prédominantes en biomédecine.
De ce fait, le Big Data en santé génère de très fortes attentes et espoirs pour une meilleure compréhension de la santé et une meilleure prise en charge au bénéfice de tous.
Néanmoins certains verrous et enjeux persistent et constituent de véritables freins voire de véritables risques pour parvenir à exploiter au mieux et au bénéfice de tous le développement du Big Data en santé.
La présentation sera l’occasion d’expliciter certains de ces freins/risques dans le champ de l’analyse des inégalités sociales de santé et notamment la problématique du périmètre du big data en santé, celle de la notion de données et d’algorithmes ou encore celle du contrôle/maitrise des données et de leur utilisation pour la lutte contre les inégalités sociales de santé.

Intervenant : Cyrille Delpierre, (INSERM, UMR-1027)

Que faire et penser des algorithmes d’identification automatique de réseaux de causalité ?

Résumé : Une des recherches centrales des sciences est l’identification de schémas explicatifs du monde, en particulier, de relations de causalité entre plusieurs événements ou observations d’intérêt.
L’utilisation des statistiques ou à tout le moins, d’une prise en compte des fluctuations ou du hasard dans la manière de rendre compte des observations et des expériences a été une étape importante dans l’histoire des sciences et l’identification de causes, et met paradoxalement en tension le concept de causalité. Une traduction de cette tension réside dans la dualité entre prédiction et explication, qui peuvent à la fois être liés et de poursuite antagoniste.
La dualité prédire/expliquer chère à René Thom est réactualisée par la généralisation des observations disponibles (numérisation de nombreux aspects du monde et de la vie) et par les techniques utilisées pour les explorer - qu’on les appelle Machine Learning, intelligence artificielle, algorithmes...
Parmi les nombreux algorithmes existants, certains se proposent d’identifier à partir de données observationnelles, les structures et réseaux d’interdépendances entre événements, voire d’en dégager des réseaux complets ou incomplets de causalité - en réalité, de causalité informationnelle.
La promesse est donc conséquente : étant donné des observations, nous pourrions en déduire une structure empirique permettant l’action efficace et quantifiée en probabilités sur les phénomènes observés. De tels algorithmes permettraient tant d’expliquer, que de prédire.
Nous proposons dans cet atelier de poser les principes de ces algorithmes d’identification automatique de réseaux (ici, les réseaux bayésiens) et d’en discuter les limites.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)

14h-17h
Session 6 : Atelier

Session complète. Vous pouvez vous inscire sur la liste d’attente.


Etude de causalité sous Spe3dLab

Résumé : Suite à l’introduction du matin sur les algorithmes d’identification automatique de réseaux de causalité, nous proposons d’examiner des cas pratiques et de manipuler 2 algorithmes dans ces différentes dimensions, sur des données réelles (fournies).
Les cas s’approcheront via l’utilisation d’une plateforme dédiée à ce type d’analyses, Spe3dLab, qui ne nécessite pas d’installation autre que de disposer d’un navigateur internet (de préférence Firefox) et d’une connexion internet (les identifiants seront fournis lors de la session). Cette plateforme s’adresse à des personnes qui ne sont pas spécialistes en statistiques ou mathématiques.

Intervenant : Thomas Lefèvre, (IRIS-EHESS, UP13)
Prérequis : avoir assister à la session 5 du matin. Venir avec un ordinateur portable connecté à internet (réseaux disponibles à la MdR : eduroam et wifi UT2J). Installation du navigateur Firefox conseillée.



Jeudi 12 décembre

Session 7 : Conférence suivi d’un atelier.

9h-12h
Introduction à la lexicométrie.
Intervenant : Pascal Marchand (LERASS, UPS)

14h-17h Formation au logiciel libre IRaMuteQ.
Intervenant : Pierre Ratinaud (LERASS, UPS)

Prérequis : Installer le logiciel libre IRaMuteQ sur son ordinateur portable.


Vendredi 13 décembre

Session 8 : Conférence et atelier.

9h-12h
Utiliser un logiciel SIG pour visualiser et construire une carte thématique à partir de données INSEE.

Résumé : Cet atelier est une initiation aux Système d’Information Géographique qui s’adresse à toute personne souhaitant réaliser une carte thématique avec des données quantitatives et/ou qualitatives. Cet atelier comportera une partie théorique et une partie pratique avec des exemples d’utilisation et de manipulation des données. Nous utiliserons le logiciel libre SIG QGIS très utilisé en géomatique et en cartographie.
Intervenante : Najla Touati (LISST- UMR5193, UT2J)

Prérequis : bases statistiques et familiarité avec les outils informatiques. Venir avec son ordinateur portable en ayant installé QGIS à télécharger : ici

14h-17h
Introduction à l’exploration et la représentation de flux à l’échelle mondiale : l’exemple du commerce international et des collaborations scientifiques entre villes.

Résumé : Cet atelier vise à initier les participants à la visualisation interactive de données relationnelles. Des notions de base en analyse de réseaux, en cartographie automatique et en sémiologie graphique y seront introduites. Nous prendrons l’exemple de programmes de recherches en cours sur les flux internationaux de déchets et sur les collaborations scientifiques mondiales.
Après la présentation des notions de base, nous ferons la démonstration de deux plateformes web : la plateforme Arabesque pour cartographier des flux et la plateforme Netscity pour traiter des données issues de l’activité scientifique. Dans une seconde partie, les utilisateurs visualiseront des données de flux à l’aide du package R ‘VisNetwork’. Nous finirons par une présentation du prototype d’exploration visuelle NETMAP qui s’appuie sur la version web de VisNetwork et nous partagerons des ressources utiles pour approfondir ces méthodes et techniques.

Intervenant.e.s : Laurent Jégou (LISST- UMR5193, UT2J) et Marion Maisonobe (Géographie-Cités, UMR 8504)

Prérequis : aucun.
Venir avec un ordinateur portable avec R installé ; pour l’installer vous pouvez suivre les instructions décrites ici et/ou sur cette vidéo
Après avoir installé R, veuillez installer R Studio téléchargeable ici






Contact : (contenu des ateliers, inscriptions et organisation)
Jean-Luc Demonsant (MSHS-T) - jean-luc.demonsant@univ-toulouse.fr


Cette semaine, s’inscrit dans le plan national de formations de la TGIR Progedo, elle propose une série d’interventions relatives aux méthodes de traitement et d’analyse de données en sciences humaines et sociales.

La TGIR Progedo et le RnMSH sont partenaires de cette semaine de formation et d’information autour de l’utilisation des données en sciences humaines et sociales.
La « semaine DATA SHS », se déroulera de manière concomitante du 9 au 13 décembre prochains au sein de dix Maisons de Sciences de l’Homme qui mobilisent leurs Plateformes Universitaires de Données (PUD).

Les PUD participantes sont celles implantées dans les MSH suivantes :

  • La MSH-T à Toulouse
  • La MMSH à Aix-en-Provence
  • La MRSH à Caen
  • La MSH à Dijon
  • La MAE à Nanterre
  • La MSH Alpes à Grenoble
  • La MESHS à Lille
  • La MSH LSE à Lyon
  • La MSH Ange-Guépin à Nantes
  • La MISHA à Strasbourg