Modes de traitement de la complexité
Types homogènes calculés et/ou Classes significatives construites[1]
Réflexions épistémologiques sur
les modes de traitement de la complexité
appliqués à des indicateurs de pratiques multidimensionnels
Jacques Jenny, in les Cahiers de l’IRESCO, Mars 1989
(n° spécial « Enquêtes statistiques et Indicateurs de Pratiques Familiales »)
Dans les débats méthodologiques la distinction fondamentale entre les conceptions de l’analyse statistique dite « fréquentiste » d’une part et dite « intuitionniste » d’autre part est souvent masquée au profit de distinctions secondaires d’ordre technique, portant par exemple sur le choix de telle ou telle métrique au sein d’une même famille de méthodes. Or cette distinction est capitale parce qu’elle concerne la manière de traiter les relations dialectiques entre les « prénotions » et les « notions » produites par la recherche.
Au lieu de postuler l’illusoire « tabula rasa » benzécriste, l’approche intuitionniste oblige le chercheur à expliciter sa représentation du phénomène étudié, voire ses modèles d’organisation de la complexité, en fonction des grilles de lecture et des systèmes d’interprétation du « réel » qu’il ne peut pas ne pas avoir (même s’il se refuse à en prendre conscience).
Au lieu de lui fournir UNE représentation graphique préfabriquée, unidimensionnelle (le Dendogramme de la C.A.H. par ex.) ou spectrale (les diagrammes bifactoriels de l’A.F.C.) ou réductionniste (les graphes des associations du premier ordre du TRI-DEUX ou le tableau de BURT, par ex.), l’approche intuitionniste oblige le chercheur à investir ses connaissances nuancées (et « vivantes », pourrait-on dire à l’instar du philosophe Michel HENRY, dénonciateur des formes de connaissance « Barbares ») du domaine étudié dans une série de lectures PLURIELLES de la réalité, à expérimenter en fonction des multiples points de vue que sa problématique de recherche l’invite à adopter.
Cette distinction fondamentale, le statisticien Etienne HALPHEN (un peu oublié, hélas!) l’appliquait en 1947, au cours d’un Colloque du CNRS sur le Calcul des Probabilités, à l’examen critique des problèmes de l’estimation probabiliste et de l’échantillonnage. Dans une perspective qui évoque le paradigme ethno-méthodologique contemporain (l’ »intuition intellectuelle objective » n’est-elle pas cette faculté d’appréhension du monde dont jouit tout être humain « à toutes fins pratiques » ?), HALPHEN dénonce le mépris de certains statisticiens pour les connaissances pratiques de leurs « clients », experts dans leur domaine d’intervention, et propose d’y substituer une attitude de recherche conjointe et pragmatique – associant le « flair » du statisticien et le « bon sens » de son partenaire (dont la subjectivité ne saurait être synonyme d’arbitraire).
Cette modestie contraste avec la superbe de certains intellectuels (statisticiens ou sociologues, par exemple), qui érigent la méfiance envers le « sens commun » (la fameuse COUPURE ou RUPTURE) en règle d’or épistémologique – quand bien même ils n’hésitent pas à pratiquer eux-mêmes les méthodes d’analyse les plus communément utilisées par leur « communauté » professionnelle (« à toutes fins pratiques » !).
Pour notre part, ici et maintenant, nous allons appliquer cette distinction fondamentale fréquentisme vs. intuitionnisme à un autre problème que celui visé par Halphen, à savoir au problème de portée très générale qu’est la construction des « types sociaux » complexes, ou classes d’objets de la réalité sociale.
Autrement dit, postulant que la réalité sociale est intrinsèquement complexe et multidimensionnelle, nous allons confronter les pratiques de réduction de la complexité caractéristique de toute réalité sociale, selon qu’elles s’inspirent d’une conception fréquentiste ou intuitionniste; et nous prendrons comme base de cet exercice de confrontation méthodologique un des « objets » les plus couramment utilisés par les sociologues « quantitativistes », à savoir les « patrons de réponses » codées à des séries de Questions (supposés exprimer autant d’indicateurs empiriques partiels ne prenant SENS que dans leurs multiples combinaisons).
1 – une pratique fréquentiste consistera à fonder les TYPES d’abord sur le Calcul (au sens le plus large, englobant éventuellement des analyses lexicométriques ou morpho-syntaxiques par exemple), le plus formel et le plus automatique possible, des Correspondances, Cooccurrences, (Dis)Similarités, Graphes, etc… inscrits de facto dans l’univers des fréquences observées.
La désignation des Types ainsi construits et de leur signification structurelle n’intervient qu’APRES cette phase décisive de Calcul (quelle qu’en soit la technique: matriciel, booléen,.. ou « simples » et paradoxaux pourcentages). Lorsque les résultats semblent manquer de cohérence par rapport à un corpus théorique destiné à leur conférer du Sens, on s’autorisera éventuellement à déroger aux règles de ces méthodes: pratique exemplaire de « ad hocing » (comme disent les ethno-méthodologues) qui témoigne bien des limites de validation de ces règles.
2 – une pratique intuitionniste, au contraire, consistera à fonder les CLASSES d’abord sur une explicitation et une formalisation des représentations qu’on a de l’objet à construire (que ces représentations soient plutôt spontanées ou plutôt conceptualisées) ; autrement dit à faire précéder l’analyse des répartitions empiriques « en extension » par un travail « en profondeur » sur les concepts (cf. CANGUILHEM), dans le double registre paradigmatique et syntagmatique qui constitue en quelque sorte le mode d’existence « de jure » de la réalité.
Que la démarche soit de type hypothético-déductif caractérisé, avec construction de modèles théoriques et vérification/ falsification empirique, ou qu’elle soit plus modestement de type descriptif exploratoire, elle privilégie le SENS par rapport à la quantité, le contenu sémantique par rapport à la forme mathématique ou statistique.
Dans la méthode fréquentiste, le critère principal sinon unique de la discrimination des Types est l’HOMOGÉNÉITÉ, c’est-à-dire que la meilleure Typologie sera celle qui minimise les Variances (ou leurs équivalents mathématiques) INTRA-Classe et qui maximise la Variance INTER-Classes, dans la formule classique de décomposition de la Variance Totale.
A la limite, peu importent la signification et le dosage (ou pondération) des ingrédients qui fournissent la matière première du traitement, qu’on les appelle variables, descripteurs, indicateurs empiriques, etc… d’une part, et la « représentativité » des individus d’autre part, sur lesquels vont être construits des types présentés le plus souvent comme des types quasi-naturels. Qu’en est-il en effet, par exemple dans la pratique de l’A.F.C. et de la Classification Automatique, des principes théoriques de l’homogénéité et de l’exhaustivité qui – selon BENZECRI – devraient guider le choix des individus et des caractères dans toute « Analyse des Données » (au sens restreint, benzécriste) ?
En fait il serait vain d’opposer trop radicalement ces deux démarches, car aucune des deux ne peut réellement s’accomplir sans un recours au moins implicite à l’autre.
D’un côté il est fallacieux de prétendre qu’on puisse faire « table rase » de ses prénotions pour mieux percevoir « LA Structure DU Réel » révélée par une A.F.C. (les expressions entre guillemets sont de BENZECRI lui-même).
De l’autre côté, toute intuition intellectuelle objective intègre des préconnaissances concernant les répartitions numériques de la réalité, au moins dans tel ou tel secteur de la réalité où des observations partielles ont déjà pu être produites antérieurement.
Certes il convient de réhabiliter l’intuitionnisme parce qu’il est dominé par le fréquentisme dans les pratiques de recherche actuellement en vogue. Mais, au lieu de tomber dans l’excès inverse, il vaut mieux se poser la question féconde de l’interpénétration de ces deux démarches.
C’est dans cet esprit que nous avons tenté d’analyser et de commenter les deux articles suivants, qu’on désignera respectivement par A et B :
A – J.-Cl. PASSERON et F. de SINGLY – Différences dans la différence : socialisation de classe et socialisation sexuelle. « Revue Française de Sciences Politiques », février 1984, pp.79-102.
B – M. GLAUDE et F. de SINGLY – L’organisation domestique : pouvoir et négociation. « Economie et Statistique » n°187, avril 1986, pp.3-30.
Ces deux articles, outre le fait qu’ils traitent de thèmes directement liés au programme de recherche de notre Groupe [le Gedisst = Groupe d’Études sur la DIvision Sociale et Sexuée du Travail], ont le grand mérite d’aborder de front le problème méthodologique crucial des effets d’interaction.
Les auteurs y déclarent en effet vouloir « dépasser la vision unidimensionnelle » des schémas simplistes en niveaux (de pouvoir, de prestige, de socialisation,.. ) et nous y entraînent effectivement dans une lecture circonstanciée des « effets croisés » (de telle ou telle variable), des « actions différentielles » (par ex. du milieu social sur la socialisation dans huit domaines différents, selon le sexe et l’âge des adolescents …), des « chassés-croisés » (par ex. des pratiques selon le sexe et la classe sociale des adolescents…), des spécifications différenciées (des effets d’âge et de génération, par ex…), etc.…
Autrement dit, on a là de très bonnes illustrations de ce que l’auteur de ces lignes appelle dans un contexte identique une « ébauche de construction théorique d’un objet complexe » :
cf. J. JENNY – Rapports de Générations … en rapport avec …. Rapports de Sexes, Rapports de Classes Sociales et autres Rapports sociaux fondamentaux. « Jeunesses et Sociétés » n°2, mai 1984, pp. 3-38.
Dans l’Annexe méthodologique de l’article B, intitulée « Élaboration des types d’organisation par des méthodes de Classification Automatique », on définit ainsi la fonction du calcul automatique :
« non pas assurer une auto-révélation de la réalité » (ce qui, soit dit en passant, est pourtant l’utopie benzécriste), « mais aider à la construction théorique d’une typologie ».
Le décalage perceptible entre la fonction d’instrument exclusif que le titre implique et la fonction d’assistance contributive de l’énoncé ci-dessus semble néanmoins traduire une relative contradiction entre la fonction déclarée et les pratiques effectives.
C’est sur ce point précis qu’a porté la discussion de notre Groupe le 3 février 1987. Bien qu’on ne puisse pas toujours repérer dans ces deux articles les résultats bruts des méthodes de calcul utilisées (Classification Automatique, méthode de WARD et « cubic clustering criterion »..), on y perçoit une tension entre les informations (fréquentistes) produites par le Calcul et les décisions typologiques (intuitionnistes) produites par les auteurs.
Sans pouvoir évaluer avec précision la marge de liberté qu’ils se donnent par rapport à ces informations pour décider de ces typologies-là (plutôt que pour telles autres, alternatives ou complémentaires, parfois évoquées), on retire l’impression globale suivante à la lecture rapprochée de ces deux articles : les auteurs penchent plutôt dans leurs pratiques du côté du fréquentisme (là où la mode actuelle constitue un pôle attractif), même si dans leurs intentions déclarées ils se réfèrent volontiers au primat d’une problématique conceptualisée, forme savante de l’ »intuition intellectuelle objective ».
On a cependant noté entre les deux articles A et B (dont les publications sont séparées de 26 mois) un certain renforcement de l’attitude fréquentiste, par exemple dans la manière de traiter le problème de l’homogénéité interne des catégories statistiques comme critère principal d’une « bonne typologie ».
En effet, dans l’article A (p.56), le lecteur est mis en garde contre l’ « illusion de l’unité de la classe [ici, en l’occurrence: la classe sociale dite ouvrière] fictivement réunifiée dans la valeur moyenne de ses mesures ». Laquelle mise en garde est d’ailleurs également prononcée à l’encontre de l’illusion du « portrait composite » produit par l’accumulation de notations de type ethnographique. Certes, on pourrait s’attendre à ce que la réalité sociopolitique d’une classe sociale fût davantage reconnue comme réalité structurelle, autonome par rapport aux comportements empiriquement observés des personnes et groupes qui la composent. Mais ce type d’interrogation critique a pratiquement disparu dans l’article B, où l’homogénéité des types, mesurée par la minimisation de la Variance INTRA-groupe, semble être devenue le critère principal des typologies.
Faut-il voir là une « évolution » significative de l’effet de dominance exercé par les méthodes de type fréquentiste, rendues de plus en plus accessibles et opérationnelles par le développement d’outils (micro-informatiques, matériels et logiciels) conviviaux et performants ?
Alors que ces méthodes tirent leur « légitimité » (plus aux yeux des profanes, d’ailleurs, que des experts – avertis de leur fragilité et conscients de leurs présupposés réductionnistes) de cette apparence de neutralité objective que leur confère précisément l’automaticité des calculs, les méthodes intuitionnistes doivent se défendre du reproche d’arbitraire subjectif pour conquérir un minimum de légitimité scientifique.
La réponse « dure » à cette exigence consiste à modéliser a priori, sur justifications théoriques explicites, le programme de classification des données (analyse « structurelle ») et de calcul des effets d’interaction simples et complexes (analyse « structurale ») et à se donner les moyens d’évaluer la distance entre le Modèle et la réalité du phénomène observé : tel est l’objectif assigné à la méthode LOG-LINEAIRE, par exemple, dans ses deux variantes – « backward » (simplification progressive du « modèle généralisé » incluant les effets d’interaction de tous les ordres de complexité) et « foreward » (complexification progressive d’un modèle délibérément simplifié au départ).
Lorsque l’état d’avancement de la théorie ne permet pas ce genre de pratiques hypothético-déductives, ce qui est souvent le cas en sociologie, est-on nécessairement livré à l’arbitraire des décisions purement subjectives et des opérations « ir-réfutables » (ou non-falsifiables, selon l’expression poppérienne) ?
Pour progresser un peu dans cette réflexion épistémologique, nous avons analysé attentivement les commentaires érudits de G. Th. GUILBAUD d’une part, et de O. ARKHIPOFF d’autre part, à propos du « problème logique de l’AGRÉGATION » tel qu’il a été abondamment traité de CONDORCET à ARROW. Dans ce remarquable ensemble de travaux, la logique ne dédaigne pas de se confronter aux réalités sociopolitiques de la prise de décision, au point que le concept de « pratiques socio-cognitives » s’en trouve justifié. Et c’est précisément cette approche qui permet de sortir du fameux « paradoxe de CONDORCET », selon lequel l’ »intérêt général » (ou « opinion majoritaire ») ne saurait être toujours calculable à partir de la connaissance des « intérêts particuliers » (ou « opinions individuelles »).
Autrement dit, et les conclusions théoriques et pratiques de GUILBAUD et d’ARKHIPOFF se rejoignent sur ce point, il n’y a pas de « mode de scrutin » parfait (c’est-à-dire, de procédures d’AGRÉGATION de votes individuels – ou systèmes de préférences – capables de dégager un UNIQUE « vote – ou système de préférences – collectif »). Il n’y a que des pratiques sociales, plus ou moins bien contrôlées par les « minoritaires », de construction de majorités.
Appliquant ces analyses au problème analogue qui est le nôtre des procédures d’AGRÉGATION de « Réponses Individuelles à des Questions Multiples » traitant des diverses facettes d’un même objet, nous pouvons en tirer une certaine légitimité pour d’autres pratiques méthodologiques de Classification des Données.
Ces pratiques s’inspirent de principes de l’ “ergonomie cognitive”, consistant à optimiser les opérations d’INVENTAIRE préalable des données (pour en faciliter les multiples Lectures), d’AGRÉGATION des « Patrons de Réponses » (pour en maîtriser les critères de choix), et d’EXPOSITION des résultats (pour en orienter les interprétations). Bien entendu, ces opérations sont précédées par les procédures de « recueil » et de codification des « données », qui posent d’autres types de problèmes en amont, sans doute plus cruciaux mais non traités ici (cf. les autres parties du présent Rapport, consacrées aux nomenclatures et aux codifications en liaison avec les problématiques des concepteurs d’enquêtes).
À partir du moment où on dispose de combinaisons de réponses individuelles « attestées » (quel qu’en soit le mode de production), la plupart des voies qui s’offrent pour produire des regroupements significatifs et pertinents sont de type fréquentiste et bien peu font appel au chercheur pour intervenir dans les DÉCISIONS de tels regroupements : citons comme exceptions, la « fonction DILEMME » (programmée par Alain GUENOCHE, du GRTC), ou la méthode des « nuées dynamiques » (DIDAY, de l’INRIA), qui sont de bons exemples de coopération des démarches fréquentiste et intuitionniste, en ce qu’ils suscitent le recours à la subjectivité humaine (experte ?) là où plusieurs solutions concurrentes sont autorisées par le calcul formel.
Entre les TYPOLOGIES entièrement calculées, selon le critère principal de l’HOMOGÉNÉITÉ, et les CLASSIFICATIONS construites de manière plus ou moins arbitraire, selon des attributions subjectives de SENS, peut-être y a-t-il place pour des méthodes hybrides intégrant harmonieusement les informations de type fréquentiste et les connaissances de type intuitionniste ?
Encore n’est-il pas inutile, dans la recherche d’un tel compromis, de bien en situer les enjeux épistémologiques sous-jacents, puisqu’il s’agit ni plus ni moins des « conceptions gnoséologiques » auxquelles on se réfère (consciemment ou non) dans nos façons de produire collectivement la connaissance du réel.
Si l’on fait converger les terminologies de HALPHEN et MORLAT, d’une part, et d’ARKHIPOFF, d’autre part, on peut en effet distinguer deux grands types de « rapports de connaissance » au réel :
– la conception fréquentiste – idéaliste, qui implique une croyance substantialiste, objectiviste, en LA Réalité « EN SOI » (dotée de propriétés « déjà là » – qu’il suffit de dé-couvrir), dont les idéalités mathématiques (intemporelles et universelles) constitueraient le moyen d’accès privilégié ;
– et la conception intuitionniste – constructiviste, qui postule au contraire la relativité socio-historique des connaissances « assumées » (et non dévoilées) dans et par la pratique, avec ses conflits et ses CONTRATS négociés.
– + – + – + – + – + – + – + –
Quelques lectures conseillées
pour l’approfondissement de ces Questions
G. Th. GUILBAUD – Eléments de la Théorie mathématique des Jeux. Paris, Dunod, 1966 – Chap.2 : Les théories de l’intérêt général et le problème logique de l’agrégation.
O. ARKHIPOFF – Pour une Théorie générale de l’Agrégation. « Journal de Statistique de Paris » – 1ère Partie : 4ème trimestre 1985 – 2ème Partie : 1er trimestre 1986.
E. HALPHEN – La notion de vraisemblance. Essai sur les fondements du Calcul des Probabilités et de la Statistique Mathématique. « Publications de l’I.S.U.P.« , vol. IV – Fasc.1 – 1955. Préface de G. MORLAT
[1] Dans cet article l’emploi des termes “Types” et “Classes” correspond à des définitions personnelles arbitraires, voire inversées par rapport à certains usages, de deux modes opposés d’agrégation d’individus (au sens statistique) au sein d’une population (idem). C’est par le contexte des attributs qui leur sont associés que ces deux termes prennent ici leur signification :
– pour les Types d’une Typologie, agrégation selon la révélation par calcul d’une “homogénéité – similarité” des individus – dont la validité dépend évidemment du choix des indicateurs empiriques introduits dans le calcul ;
– pour les Classes d’une Classification, agrégation selon l’appartenance des individus à des catégories dont la signification (et la validité) dépend des conceptualisations de la problématique de recherche, construite a priori puis en interaction avec les observations empiriques.
Bonjour, c’est vraiment intéressant, merci jacquesjenny.com