Conférence France

Analyse réseaux complexes — Jour 2

Collecte de données – Marie-Pierre Bès; Guillaume Favre; Claire Lemercier

Guillaume Favre

Types de collecte: questionnaires sur les relations; questionnaires sociométriques; expérimentation; entretiens: narrations qualifiées; traces de pratique ou sources écries; observations: plus rare?

Exemples:

  • Héran (1988) sociologue français sur les égoréseaux
  • ISSP 1986, 2001, 2017 dans “social networks”
  • Panel ELLIPSS – capital social des individus
  • Grossetti (2005, 2007) dans social networks – avec générateurs de noms (champs pré-populés avec options de type à choix multiples)
  • American Global Social Survey de McPherson et al en 2006
    • Résultats controversés (Fisher 2009, Wang…….

Marie Pierre Bès

Classes d’informations ou de questionnaires ou d’approches théoriques

Claire Lemercier

Utilisation des “traces” comme source. Les traces peuvent être des documents (d’archive, images, vidéos, etc.), des médias sociaux, …

Idée: extraire les juris de thèse à partir de la page de couverture <- travail à faire ->

Le potentiel est infini quand on explore les sources: à condition d’être spécifique sur les relations ou types de liens que nous allons explorer (parfois, être exhaustif étourdit et distrait)

Coda: quelle population étudier: toujours se demander à propos de quoi on veut et on a les moyens d’être systématique

Analyser un système urbain à partir de son réseau viaire et de son réseau parcellaire – Claire Lagesse & Cécile Rivals

Claire: Morphologies des villes – extraire le réseau de rues – sommets aux intersections – rues les arcs

Cécile: parcelles de terres (arpenteurs) – relations mitoyennes sont les arcs et les parcelles sont les noeuds

Claire: univers de la théorie des graphes: regarder les relations des réseaux des voies et des parcelles

Cécile: exemple des sources historiques : plan et registre fiscal du 18e et 19e siècle – avant, on perd les plans mais on a les Compoix et les Terriers – registres fonciers où l’on peut obtenir les réseaux parcellaires.

Représentation des sources historiques dans une base de données – reconstitution de cartes à la main (travail de moine)

Registres fiscaux: base de données Tercomp : matrice d’adjacence des parcelles: graphe d’adjascence des parcelles: comparer pour ….. [trop rapide]

Analyse de corpus de décisions juridiques : quel apport de la science des réseaux ? – Fabien Tarissan

Voir les publications de Fabien Tarissan.

Création du Cour pénale internationale (CPI) en 2002 et premier jugement en 2012. Masse importante de documents; procédures longues et complexes; chaînes de décisions techniques; pas de recueil de jurisprudence.

Réseau dirigé; acyclique; statique; biparti (articles de loi et jugements)

Toutes les décisions: http://www.legal-tools.org

Questions de la science du réseau: quelle place pour les réseaux juridiques; interprétation des métriques habituelles; nouveau schémas relations/modèles; structure biparties et unimodal

Juridiques, entre autre: modèles droit civil et common law

Analyse statique

Distribution des degrés

Pour l’interprétation des impacts juridiques, voir: 

“réutiliser des métriques classiques, connues”

Évolution de l’importance au cours du temps (CJUE)

Comment tenir compte du temps?

Graphe orienté acyclique (CAG)

Temps versus degré: les décisions récentes ont moins d’occasion d’être citées; les décisions importantes continuent d’être citées au cours du temps

Deux variations proposées:

  • Au lieu du degré entrant on regarde le degré relatif: relie le nombre de citations au nombre de citations possibles; valeur entre 1 et 0
  • Longévité: distance temporelle moyenne séparant deux décisions

Quand on regarde le degré relatif: on constate des décisions que les juristes n’ont pas nécessairement relevé mais pertinente pour le cas

Longévité moyenne: les décision procédurale importante qui n’est pas commentée par les juristes

AUTRE ÉTUDE
Est-ce que la citation reflète l’importance réelle; est-ce que les métriques réseaux……… [trop vite]

Exploiter les structures uni- et biparties

Inférer le contenu d’une décision: comment identifier les décisions dont la citation d’un article de loi ne concerne pas la cause principale?

Regarder le sous-graphe de l’égoréseau dirigé autour de la décision cible pour identifier les articles cités par les décision subséquentes. Définir le profil d’un jugement

Mesurer la polyvalence: cristalliser un raisonnement juridique particulier plutôt que son “sujet” en droit ou son domaine juridique == regarder aussi les PARAGRAPHES importants, polyvalents en plus des jugements

Formes des réseaux personnels sur Facebook – Raphaël Charbier

Application AlgoPol

Les 30 graphlets de taille 5 ou moins sans îlots – la couleur représente la centralité des petits réseaux – analyse de l’émergence de ces structures dans l’égoportrait d’un réseau d’ami d’un participant à une étude de ses données d’amis sur Facebook, associé à la CNIL.

Table ronde : Sources et réseaux : quels enjeux interdisciplinaires ?

Discussion sur les perspectives épistémologiques et herméneutiques des participants de la matinée.

Atelier de l’après-midi: Gephi, Cytoscape, R

Gephy – Fabien Tarissan

Importer les données; aller dans Layout et choisir l’algorithme de visualisation “ForceAtlas2” – jouer avec les paramètres

Demander la distribution des degrés sous Statistics > Network overview ; aussi Betweenness, Eccentricity Distribution

À chaque fois que l’on demande des données à Gephy via ce menu, le logiciel ajoute des colonnes de données à la Data Table (table de données sur les noeuds et sur les liens)

Ensuite, export table en CSV

Comment importer les données? File > Open. Mais, il faut préparer le fichier avant. Le plus simple, c’est une liste de liens (deux sommets liés). Ceci dit, le graph résultant n’aura pas beaucoup de détail.

Cytoscape

Introduction rapide

RStudio

Pour aller plus loin : http://kateto.net/network-visualization
Traduit en français ici : https://arshs.hypotheses.org/403

Conférence France

Analyse réseaux complexes — Jour 1

J’ai l’énorme privilège de participer à l’École thématique CNRS sur l’Analyse de réseaux et complexité. Voici quelques notes.

Pierre Mercklé – Introduction à l’analyse en réseaux

Surtout, la perspective sociologique des réseaux sociaux [personnels], son histoire et son émergence:

Pierre Bourdieux, La Distinction 1979 p.140-141; Raisons pratiques

Blogue: mondegeonumérique.wordpress.com Thierry Joliveau

John Scott, 2012, Social Network Analysis: A Handbook, Sage, p.12

Freeman, Development of Social Network Analysis: a Study in the Sociology of Science, Empirical Press, 2004, p.131

Moreno, Who Shall Survive, 1934

John Barnes, Classes sociales et réseaux dans une Île de Norvège, Réseaux, 2013 [1954], p.217 : pour une distinction terminologique entre web et réseau, “tisser” et réseau social, réseau informel, points reliés par des lignes

S. Milgram, 1967, “the small world problem” Psychology Today, 1, pp. 62-67

Merklé, Sociologie des réseaux sociaux, Paris, La Découverte

Bertrand Jouve – Introduction à l’analyse des réseaux complexes

“Ce que j’ai envie de faire”  “comme matheu” : s’attacher à comprendre la structure et sa dynamique, en mesurant, en construisant des modèles qui les reproduisent: variables pertinentes, dépendances…

1. Introduction

Mathématicien et physicien: apportent des outils différents

Math sont moyens pour simplifier un problème avec des outils génériques: approche formelle suppose des hypothèses même bien cachées derrière des équations

Un système complexe est constitué de nombreuses entités dont les interactions conduisent à l’apparition d’un comportement global dit “émergeant” qui peut être expliqué en considérant uniquement les propriétés individuelles de ses constituants. Nécessité d’identifier: des interactions multi-échelles, des boucles de rétroaction, des bifurcations, des phénomènes en cascade.

Par ailleurs,

Réseau complexe: système complexe dont les interactions interindividuelles sont dyadiques

Et

Réseau social (complexe) : réseau complexe dont les interactions sont régies par des liens sociaux

(Green & Sadedin, 2014)

(Alan Kirman)

Les SHS [sciences humaines et sociales], SDV [science de la vie], SPI [sciences pour ingénieurs] abordent différemment le traitement de la complexité ;  l’objectif doit maintenant être de construire la continuité des concepts, méthodes et outils sur des objets partagés.

L’objet est de comprendre les logiques qui sous-tendent la dynamique du réseau et d’en construire un modèle simplifié

Que doit-on disposer pour étudier un réseau cokmplexe

  1. Identifier et décrire l’hétérogénéité des noeuds (sommets, vertex)
  2. Identifier et décrire la diversité des interactions entre les noeuds
  3. Analyser la structure du réseau et identifier les échelles perfinentes
  4. Caractériser la dynamique et les logiques qui la sous-tend

(3) et (4) sont fortement liés: la structure des interactions entre les individus est une contrainte importante sur la dynamique et donc l’existence de comportement émergents du système. (épidémies)

2. Réseaux complexes

  • Ce qui nous intéresse c’est quand la structure globale d’un réseau observé s’écarte d’une structure “classique” , appelé modèle nul
  • Un modèle nul est un ensemble de graphes qui ont le même nombre de sommets que le graphe étudié et qui conservent un certain nombre de caractéristiques locales (degré, clustering, …)
  • Il faut donc être capable de produire des graphes avec ces propriétés voulues
  • et de les comparer au graphe initial (en général, on vérifie seulement si la propriété globale est conservée)

Donc, on se trouve à générer une multitude de graphes ayant les mêmes propriétés pour les sommets afin de voir si notre graphe est “surprenant” ou non. Il s’agit de

  • “modèles de référence” ou graphes élémentaires:
  • réseau réguliers; graph Erdos-Rényi (nombre de sommets fixés, les arêtes sont tirées indépendamment suivant une loi uniforme de paramètre p) dans ce cas, on obtient une distribution des probabilités des degrés.
  • The configuraiton model: nombre de sommets fixés, distribution de degrés fixés [Fosdick, 2018, SIAM]

3. Des modèles statistiques des réseaux sociaux

En fixant de plu en plus de contraintes sur les modèles nuls, on va in fine basculer dans une autre logique qui est de chercher un modèle statistique générique qui explique assez bien l’observation qu’on a. On s’intéresse au codage, dans le modèle, de configuration récurrentes (ie. dépendances dans des données relationnelles)

[il saute le reste de la partie 3 et blitz la partie 4]

4. Quid des modèles génériques?

Small world, scale free, …

Watts-Strogatz model

Barabasi model

5. Big data

bertrand stigler sur canal-u.tv

On fouille pour trouver ce qu’on cherche – La data Science doit servir la science (des concepts).

Atelier 1 – Claire Lemercier

Format du fichier “classique” en réseau: entité 1 + entité 2 + lien + source

Deux inspirations:

  • réfléchir aux classes distinctes d’entités au-delà du classique personne, place, temps, objet. Pour mes recherches, je crois que les liens sémantiques en droit sont très pertinents
  • explorer et chercher le moment “woah hoo” donc, viser l’itération d’hypothèses ou de versions de réseaux sans trop s’embêter avec la conceptualisation théorique de l’approche. Peut-être une approche inductive en amont.

Suggestions de lecture personnelles par Claire pour l’idée de l’analyse en réseau du droit :

Atelier 2 – Guillaume Cabanac et Gilles Hubert

Récupération de données bibliographiques du web.

  1. Données par tabulation: base bibliographique Web of Science tout est payant, sauf si votre institution est abonné; limite de 500 notices à la fois; téléchargement et utilisation de la fonction de “text to columns” de votre tableur préféré; utiliser l’outil Voyant Tools pour traiter rapidement le corpus rapidement.
  2.  Données structurées JSON, outil http://www.altmetric.com : permet de générer certaines de mesures de popularité pour un article scientifique selon une certaine quantité de sources de données; permet d’interroger le système via l’API selon le DOI d’un article; utilisation de “./jq” pour interroger l’arbre JSON pour les données que l’on désire dans le schéma
  3. “Web scraping” (sic) ou moissonnage ou aspirateur de site web. Structure des pages: Document Object Model; idée: demander à archive.org d’indexer une page web pour avoir un permalien afin de publier celui-ci comme source dans une bibliographie d’un article; visualisation des chercheurs dans un labo de recherche oeuvrant dans divers thèmes et axes avec Gephi

Question de la salle:

 

CultureLibre.ca Logiciel à code source libre

Cours ouvert sur Weka

Cet automne, je vais plonger dans l’univers des algorithmes apprenants et des données massives par le biais de ce cours en-ligne ouvert traitant de Weka. Il s’agit d’un logiciel à code source libre développé par une université en Nouvelle-Zélande. Weka semble être exactement le genre d’outil qui devrait figurer dans la trousse du bibliothécaire (post)moderne…

Si vous êtes dans la région de Montréal, on pourrait tenir des sessions de co-étude une fois par semaine, contactez-moi si ça vous intéresse !

Olivier Charbonneau

Culture libre.ca est le fruit des efforts de recherche d'Olivier Charbonneau, bibliothécaire titulaire et chercheur à l'Université Concordia. Cliquez ici pour accéder directement à une brève note biographique.

Twitter