Hommage à Jean-Paul Benzécri.

Ancien élève de l’École normale supérieure (1950) ( né à Oran en 1932  ) et fondateur de l’école française d’analyse des données dans les années 1960-1990, Jean-Paul Benzécri a développé des outils statistiques,

Jean-Paul Benzécri

notamment l’analyse factorielle des correspondances qui permet de traiter de grandes masses de données afin de visualiser et de hiérarchiser l’information.

Au départ une question de linguistique?

L’analyse des correspondances, méthode statistique permettant d’analyser et de décrire graphiquement de manière synthétique de grandes tables de contingences, c’est-à-dire de tableaux dans lesquels à l’intersection d’une ligne est d’une colonne on trouve le nombre d’individus de la populations ayant à la fois la caractéristique de la ligne et celle de la colonne.

En opposition à Noam Chomsky, qui pense qu’il est impossible à partir d’un corpus (un recueil de textes, 10’000 pages) d’une langue inconnue d’en déterminer la syntaxe et la sémantique inductivement (s’élever par une méthode explicitement formulée des faits aux lois qui les régissent), des linguistes et des statisticiens travaillèrent conjointement pour prouver à Chomsky qu’il avait tort.
Admettons qu’on ait déjà réussi à séparer les phonèmes et les mots, et qu’on essaie de déterminer la grammaire (syntaxe) et le sens (sémantique) de ces mots.

On va analyser des tableaux tels que le suivant.
Soit I un ensemble fini de noms (les lignes du tableau),
J un ensemble fini de verbes (les colonnes du tableau) :
à l’intersection de la ligne i et de la colonne j
on inscrit le nombre k(i,j) de fois que dans un certain corpus le nom i a été trouvé sujet du verbe j.

Si k(i,j)= ­ 0, alors le verbe j est un contexte permis pour le nom i et vice et versa (c’est comme ça que les linguistes distributionnaliste disent que la phrase est grammaticalement correcte).

On peut mesurer l’importance relative pour un nom i du contexte j par le quotient f(i,j)=k(i,j)/k(i) avec k(i) le total de la ligne i. La suite des nombres f(i,j) caractérisant l’affinité d’un nom donné i avec tous les verbes j sera appelé profil de i.

Deux noms seront synonymes s’ils ont le même profil.
En effet, deux êtres qui courent, chantent et toussent avec la même fréquence ne peuvent que se ressembler.
Pratiquement, nous ne rencontrerons jamais deux profils exactement similaires, aussi se pose à nous le problème de la représentation spatiale de l’ensemble des profils.
Jean-Paul Benzécri choisit un critère qu’il nomme principe d’équivalence distributionnelle pour déterminer la formule de la distance entre deux profils.
En effet, il pose que si deux noms i et i’ sont synonymes distributionnels (i.e.    ont le même profil) alors si on remplace les deux lignes i et i” par une nouvelle ligne i”’ somme des deux précédentes, la distance entre deux verbes j et j’ ne doit pas être modifiée.
Donc si fourmilier et tamanoir admettent la même distribution,
on doit pouvoir les identifier et n’inscrire plus qu’une ligne pour les deux dans notre tableau.
L’essentiel, c’est l’idée qu’en analyse des correspondances, de la même manière que le sens d’un mot apparait par son contexte,
le sens d’une réponse ou d’une caractéristique apparaitra par les associations révélées par l’analyse

Aspects Formels

La formalisation, ou approche formelle de la statistique consiste à  ancrer directement les méthodes statistiques sur les structures mathématiques.
Dans cette approche, les notions statistiques sont formalisées
en tant que concepts d’une théorie mathématique constituée,
comme la théorie des ensembles ou l’algèbre linéaire.
La  théorie mathématique peut dès lors être utilisée directement pour poser et résoudre les problèmes statistiques et développer les procédures.
En bref, les structures commandent les procédures!

  • En statistique, il est d’usage  de distinguer selon leur visée,  statistique descriptive  (les conclusions ne vont pas au delà des données)
  • et inférence statistique (les conclusions vont au delà des données); mais  au niveau des procédures, la distinction reste toujours “informelle” .

Une  procédure descriptive est une procédure qui ne dépend pas de la taille des données;
une statistique descriptive est une statistique qui peut être  obtenue par une procédure descriptive.

Les méthodes exploratoires multidimensionnelles recouvrent un grand nombre de techniques qui ont pour objectif de décrire et synthétiser l’information contenue dans de vastes tableaux de données.

Nuage de Points

Au départ, les données se présentent sous forme de grands tableaux rectangulaires, notés X.
Les lignes (i=1,…,n) du tableau représentent les n individus, les sujets enquêtés par exemple, et les colonnes (j=1,…m) les m variables qui peuvent être des mesures, des caractéristiques ou
encore des notes relevées sur les individus.
Afin de comprendre le principe des méthodes de statistique exploratoire multidimensionnelle, il est utile de représenter de façon géométrique l’ensemble des n individus ( n lignes)
et l’ensemble des m variables ( m colonnes) comme deux nuages de points , chacun des deux ensembles étant décrit par l’autre.
On définit alors, pour les deux nuages, des distances entre les points-lignes et entre points-colonnes qui traduisent les associations statistiques entre les individus (lignes) et entre les variables (colonnes).

Exemple en sémiométrie

La sémiométrie cherche à comprendre le sens en fonction des sensibilités que les mots dégagent.
C’est une sorte de technique projective qui dégage la dimension latente des comportements étudiés à l’insu des interviewés car le questionnaire utilisé n’a à priori, aucun rapport avec le problème étudié et les interviewés répondent en ignorant l’utilisation qui sera faite de leurs réponses.
La Sémiométrie mesure les sensibilités.
Derrière les attitudes et les comportements des individus, des sensibilités s’expriment : curiosité et ouverture à l’innovation, distanciation et esprit critique, tradition et respect des convenances…
Ces sensibilités, liées à la fois à l’expérience affective et à l’apprentissage culturel, sont enfouies au plus profond de ceux qui les portent.
La Sémiométrie éclaire ainsi les valeurs associées à la consommation d’un produit, l’image d’une marque, la lecture d’un titre, l’audience d’une émission…
La mesure effectuée repose sur un processus statistique (Analyse en Composantes Principales, tests de significativité) et permet donc de formuler des conclusions fiables et opérationnelles.
(exemple de  Lebart Ludovic  /  Directeur de recherches C.N.R.S. (R) )TELECOM-ParisTech, Statistique Exploratoire Multidimensionnelle visualisation et inférence en fouille de données] , 4ème ed. L.Lebart, M. Piron, A. Morineau. Dunod, 2006. )

semio1Dans le cas de la sémiométrie, un mot (variable) est un point dont les coordonnées sont les notes données par les n individus (répondants):
le nuage des m mots se situe dans un espace à n dimensions.
De même, un individu est un point dont les coordonnées sont les notes attribuées aux m mots ;
le nuage des n individus se trouve dans un espace à m dimensions.
On peut dès lors visualiser le nuage des points-mot si on ne considère que 2 individus (par exemple les individus R04 et R08) car 2 dimensions rendent possible un graphique sur un plan.
Le nuage des points-mots est construit dans l’espace des individus, ici à partir seulement de deux individus, R04 et R08

semio2_nuage
De la même façon, le nuage des 12 répondants est construit dans
l’espace des variables, ici à partir de deux mots, Morale et Sensuel ,
c’est- à-dire dans un espace de deux dimensions

semio3_nuage

Pour chacun des nuages est représenté le point moyen appelé aussi centre de gravité . Il s’agit de G pour le centre de gravité des notes attribuées par les répondants et de G’ pour celui des répondants ayant notés les deux mots retenus.

Principe et méthodes d’analyse

S’il est toujours possible de calculer des distances entre les lignes et des distances entre les colonnes d’un tableau X , il n’est pas possible de les visualiser de façon immédiate (les représentations géométriques associées impliquant en général des espaces à plus de deux ou trois dimensions) : il est nécessaire de procéder à des transformations et des approximations pour en obtenir une représentation plane.
Les tableaux de distances associés à ces représentations géométriques (simples dans leur principe, mais complexes en raison du grand nombre de dimensions des espaces concernés) peuvent être décrits par les deux grandes familles de méthodes que sont les méthodes factorielles et la classification.

  • La première consiste à rechercher les directions principales selon lesquelles les points s’écartent le plus du point moyen.
  • La seconde consiste à rechercher des groupes ou classes d’individus qui soient les plus homogènes possibles

semio4_nuage

Il y a deux types de méthodes en statistique multidimensionnelle :

-les méthodes factorielles, qui consistent à projeter le nuage de points sur un sous-espace, en perdant le moins d’information possible ;

-les méthodes de classification, qui tentent de regrouper les points.

Les méthodes factorielles regroupent trois techniques fondamentales :

  • l’analyse en composantes principales (plusieurs variables quantitatives),
  • l’analyse des correspondances (deux variables qualitatives, représentées par un tableau de contingences)
  • et l’analyse des correspondances multiples (plus de deux variables qualitatives).

L’analyse des données est une famille de méthodes statistiques dont les principales caractéristiques sont d’être multidimensionnelles et descriptives.
L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes.
On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données ainsi qu’à en tirer une information statistique qui sert à décrire de façon plus succincte les principales informations contenues dans ces données.
On peut aussi chercher à classer les données en différents sous groupes plus homogènes.

Benzécri et Bourdieu

L’analyse factorielle permet de faire surgir la structure des données,
la façon dont chaque variable se situe par rapport aux autres,
de manière différentielle et relationnelle.

La sociologie structurale de type bourdieusien, et Bourdieu lui-même, en ont fait un outil de représentation puissant, au service de leurs thèses : l’outil permettait de mettre au jour la structure multidimensionnelle et relationnelle du champ étudié.

Ainsi, dans le deuxième chapitre de La Distinction (p. 109-187),
intitulé « L’espace social et ses transformations », Bourdieu recourt dès le départ à l’analyse factorielle des correspondances multiples
pour expliciter sa conception de l’espace social. Quand il explique ce qu’entraîne la création de classes d’individus, il raisonne à partir d’un modèle fondé sur la description d’individus par des variables, et se réfère à J.-P. Benzécri, le fondateur et le promoteur de l’analyse factorielle des correspondances en France.
Il utilise l’analyse factorielle pour critiquer les dérives qu’entraîne l’usage de certaines catégories en statistique. Il est intéressant de constater qu’il mobilise de la sorte un outil statistique pour mettre en cause certaines catégorisations qui étaient largement utilisées par d’autres statistiques.
Par exemple, il interroge la classification des variables, réparties traditionnellement en variables dépendantes
– celles qui sont liées au phénomène que l’on cherche à expliquer – et variables dites indépendantes, qui ne dépendraient donc pas de ce phénomène.
Les relations singulières entre une variable dépendante (telle l’opinion politique) et des variables dites indépendantes comme le sexe, l’âge et la religion, ou même le niveau d’instruction, les revenus et la profession, tendent à dissimuler le système complet
des relations qui constituent le véritable principe de la force et de la forme spécifiques des effets enregistrés dans telle corrélation particulière. La plus indépendante des variables « indépendantes » cache tout un réseau de relations statistiques qui sont présentes, souterrainement, dans la relation qu’elle entretient avec telle opinion ou pratique. Là encore, au lieu de demander à la technologie statistique de résoudre un problème qu’elle ne peut que déplacer,
il faut, par une analyse des divisions et des variations qu’introduisent, au sein de la classe découpée par la variable principale, les différentes variables secondaires (sexe, âge, etc.), s’interroger sur tout ce qui, présent dans la définition réelle de la classe, n’est pas consciemment pris en compte dans la définition nominale, celle que résume le nom employé pour la désigner et,
par conséquent, dans l’interprétation des relations dans lesquelles on la fait entrer.

On retrouve donc dans cet extrait la variable principale qui permet de définir la classe et que Benzécri appelait α, et les variables secondaires, notées β et γ par Benzécri et qui pourraient
définir des sous-classes. L’ACM a permis à Bourdieu de mettre au jour tout le « réseau de relations statistiques » qui existe entre les variables dépendantes et indépendantes.
L’usage qu’il fait de l’ACM montre en quoi les classifications construites a priori présagent déjà d’un découpage du monde qui masque des relations « souterraines », des corrélations entre variables a priori indépendantes mais qui, dans les faits, apparaissent liées, ce que met en évidence l’ACM.
Ce refus de réduire le monde social à des classes préconstruites fut une des grandes prises de position de Pierre Bourdieu à travers son usage des statistiques.
Son utilisation de l’analyse factorielle des correspondances multiples fut créatrice et l’aida dans sa critique de la statistique « officielle » (dans le sens où les institutions officielles utilisaient cette statistique pour justifier des décisions politiques par exemple)
jusque-là en vigueur24. Il dut d’ailleurs essuyer plusieurs critiques à ce sujet. Ainsi, le graphique bien connu de La Distinction, qui représente l’espace social dans les années 197025, n’est pas une analyse factorielle au sens propre :
il s’agit d’une reconstruction manuelle à partir d’un ensemble d’analyses factorielles partielles.
La principale critique (outre le repérage d’erreurs ponctuelles) fut qu’il n’utilisait la statistique que pour confirmer des idées qu’il s’était déjà forgées. Nous suivons Michel Gollac lorsqu’il prend la défense de Bourdieu en disant que « la statistique sans idées [est] généralement sans résultat » et en soulignant que « les ACM menées postérieurement à la publication de son graphique par Bourdieu [ont] systématiquement confirmé la structure qu’il pronostiquait». Le graphique de La Distinction est ainsi un « résumé » de son
analyse : cet usage correspond bien, à notre sens, à la manière dont procède l’ACM par rapport aux tableaux de données.
En quelque sorte, Bourdieu s’approprie le langage graphique de l’ACM pour exposer son propos d’une autre manière que par des mots.

L’usage qu’a fait Bourdieu de l’analyse factorielle est donc d’offrir une synthèse d’un travail de recherche, résumé visuel et efficace, qui permet l’appréhension quasi immédiate par le lecteur – après un travail d’interprétation, comme tout graphique – d’un grand nombre de données et surtout des relations qu’elles entretiennent.
Il s’agit là d’un des avantages principaux de la méthode, que Bourdieu a su très bien exploiter : le graphique fait apparaître « une concentration de l’ensemble des possibles» d’un espace social particulier, en soulignant que chaque pratique ne prend sens que par rapport aux autres.
Finalement, la meilleure expression pour qualifier l’utilisation par Bourdieu de l’analyse factorielle est que celle-ci lui permettait de raisonner « toutes choses égales réunies » (par opposition à d’autres méthodes, par exemple les régressions linéaires, qui fonctionnent « toutes choses égales par ailleurs »
– c’est-à-dire des méthodes où l’on teste la validité de l’explication d’un phénomène à partir de la modalisation de ce phénomène et de la permutation une à la fois d’une des variables explicatives du phénomène).

Bibliographie

  • L’Analyse des données. Tome 1 : la Taxinomie, Dunod, 1973, 615 p 
  • L’Analyse des données. Tome 2 : l’Analyse des correspondances, Dunod, 1973, 619 p 
  • Histoire et préhistoire de l’analyse des données, Dunod, 1982
  • L’Analyse des données. Leçons sur l’analyse factorielle et la reconnaissance des formes et travaux, Dunod, 1982
  • Linguistique et lexicologie, Dunod, 2007 [ré-édition]
  • Pratique de l’analyse des données,
    • Tome I : Analyse des correspondances, exposé élémentaire, Dunod (1983)
    • Tome II : Abrégé théorique, études de cas modèles, Dunod (1980).
    • Tome V : Economie, Dunod (1987).
  • Revue Les Cahiers de l’analyse des données, Gauthier-Villars, Dunod, 1976-1994.
  • Correspondence analysis handbook, Marcel Dekker (1992).
  • Statistique Exploratoire Multidimensionnelle, [Visualisation et Inférence en Fouille de Données]
    (L.Lebart, M. Piron, A. Morineau,) Dunod, 2006 (4ème edition, refondue [new version]), 480p.
  • La Sémiométrie
    (L.Lebart, M. Piron, J.-F. Steiner) Dunod, 2003, 240p. Télécharger /  (format pdf)
  • Rouanet H. , Ackermann W. , Le Roux B. The geometric analysis of questionnaires : the lesson of Bourdieu’s La Distinction.
    Bulletin de Méthodologie sociologique, 65, 5-18
  • Rouanet H. , Lebaron F. , Le Hay V. , Ackermann W. , Le Roux B.
    Régression et Analyse géométrique des données :
    réflexions et suggestions, Mathématiques et Sciences Humaines, p. 13-45
  • Björn-Olav Dozo Données biographiques et données relationnelles [Texte intégral]
    Notes théoriques pour une utilisation complémentaire des outils quantitatifs
    Paru dans COnTEXTES, 3 | 2008

A titre jubilatoire on trouve dans ce site dans la partie MULTIPLE CORRESPONDENCE ANALYSIS
puis Locate yourself
le nuage des individus du “Taste Example” et on peut télécharger le fichier excel des données
et le programme  vous pose 4 questions et vous localise dans le nuage de données!
[Le programme locate_yourself a été écrit par François Denord avec le logiciel libre super macro. Il permet de vous situer dans le nuage des individus du “Taste Example”.
Pour ce faire :

  1. Télécharger le programme locate_yourself.
  2. Télécharger le fichier Excel du nuage des individus dans le même répertoire que le programme .
    ATTENTION: ce fichier ne doit pas être modifié.
  3. Double-cliquez sur le fichier “Locate_yourself_17.02.exe” et répondez aux 4 questions.]

One thought on “Hommage à J.P Benzécri

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.