Logiciels d’Analyse Textuelle : inventaire critique 1997

Article publié dans le Bulletin de Méthodologie Sociologique (B.M.S.), n° 54, Mars 1997, p.64-112.

LASMAS-IRESCO (CNRS), 59 rue Pouchet, 75017 PARIS. Mél.

Méthodes et pratiques formalisées d’analyse de contenu et de discours

dans la recherche sociologique française contemporaine.

Etat des lieux et essai de classification.

-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-

Résumé

L’A. expose d’abord quelques considérations épistémologiques générales sur les présupposés implicites des méthodes de recherche sociologique, abusivement séparées en qualitatives et quantitatives, et des interrogations spécifiques sur le statut des corpus textuels et des pratiques socio-discursives dans différents domaines et selon divers types de problématique en sociologie.

Puis, après un résumé des problématiques sociolinguistiques de l'”énonciation”, propres aux courants de l'”Analyse de Discours à la française”, il propose une classification des principaux lieux d’élaboration théorico-méthodologique ayant (ou susceptibles d’avoir) un impact sur les pratiques informatisées d’analyse textuelle : de la lexicométrique inspirée de l'”Analyse des données à la française”, actuellement dominante, à des quasi-systèmes-experts, branchés sur des problématiques sociologiques particulières, en passant par des méthodes plus “classiques” d’analyse de contenu thématique, de type socio-sémantique, et de codification a posteriori de réponses à des questions ouvertes et autres énoncés produits en langage naturel.

Abstract

An initial awareness is needed of the debates regarding the choice of research approaches in sociology and the diversity and specificity of methods currently being used in the domain of textual data analysis in France. In general the influence of the French socio-linguistic tradition looms large, including, on the one hand, the older works of Michel Pécheux on the “discursive formations” and his A.A.D. (Analyse Automatique du Discours, 1969), and on the other hand, two main perspectives of the “Ecole Française d’Analyse du/de Discours” – which refer to the “speech act” concept and to the problematics of enunciation, and emphasizes the processes and “sociodiscursive practices” between socially-located speakers. Such theoretical conceptions and specific requirements lead to build on methodologies different from the classic, theme-based content analysis, though not yet translated into any operational software.

Then the main software developments currently having an impact (at least potential) on practices of computer-aided sociological analysis of textual data, in France, are classified : from the lexicometric using procedures of “French Data Analysis” (‘Analyse Factorielle des Correspondances’ of Benzecri, and so on…), to a set of “expert-systems” working on specific theoretical frameworks, through more classical methods of content analysis and coding-sorting-retrieving socio-semantic procedures, eventually with various statistical methods.

______________________________________________

Introduction

En prolongement d’un article récemment paru dans la revue Current Sociology (Jenny, 1996) et avec l’autorisation de l’éditeur de cette revue, nous publions ici un état des lieux des pratiques de recherche sociologique, en France, qui font appel à des méthodes d’analyse de contenu et/ou d’analyse de discours plus ou moins formalisées, donc plus ou moins informatisables. Cet article s’insérait dans la rubrique Trend Report de la revue, sous la responsabilité de notre collègue sociologue brésilienne Wilma Mangabeira (1996), maître d’oeuvre d’un projet international mobilisant les quatre pays suivants, regroupés par deux, autour du thème des “CAQDAS”: Grande-Bretagne et Allemagne, Canada et France. Nous ne saurions trop conseiller de lire cette livraison de Current Sociology pour y trouver, non seulement un excellent inventaire des pratiques informatisées d’analyse dite qualitative chez nos amis britanniques, allemands et canadiens, hors de notre ghetto intellectuel national, mais aussi la synthèse avisée de trois collègues parmi les mieux informés sur ce sujet: Wilma Mangabeira, Matthew B. Miles (dont nous déplorons le décès survenu le 24 octobre 1996) et Eben A. Weitzman. De cette synthèse il ressort notamment que nos collègues étrangers, même ceux qui bénéficient d’un support institutionnel incomparable avec le désert français (dans certains programmes d’enseignement, colloques et manuels de méthodologie, par exemple) et dont les pratiques informatisées sont parvenues à un stade de relative maturité, se plaignent d’une insuffisante reconnaissance par les autorités académiques, voire du mépris implicitement affiché à l’encontre de toute activité logicielle, réduite au rang d’assistance technique subalterne et a priori suspecte (la conception de programmes n’y est pas considérée comme du travail de recherche: ce qui serait inconcevable en France, n’est-ce pas ?!).

Le courant méthodologique qui s’exprime à travers ce label de “Computer Assisted Qualitative Data Analysis Software” ne sert pratiquement de référence, en France à ma connaissance, ni aux pratiques d’analyse sociologique à l’exception d’un seul laboratoire, le Centre de Sociologie des Innovations (Ecole Nationale Supérieure des Mines et CNRS) à Paris, ni aux rubriques des revues sociologiques à l’exception du B.M.S. (Bulletin de Méthodologie Sociologique) précisément parce qu’il diffuse la production anglophone – mais avec un impact réduit du fait de son bilinguisme, ni même aux recherches ou aux réflexions épistémologiques et méthodologiques concernant le traitement informatisé des “données” non numériques en sciences sociales. A preuve, par exemple, son absence de la base de données bibliographiques Francis du CNRS (Centre National de la Recherche Scientifique), produite et diffusée par l’INIST (Institut National de l’Information Scientifique et Technique), ou du CCO (Catalogue Collectif des Ouvrages), organisme de normalisation inter-universitaire, ou des bases documentaires françaises accessibles sous Internet, son absence des sommaires des grandes revues françaises de sociologie, et même son absence des ouvrages francophones les plus directement consacrés aux méthodes d’analyse dites qualitatives – ou aux méthodes qui appartiennent en fait à la même rubrique, sous d’autres appellations telles que: analyse de contenu, de discours, de données textuelles, analyse des réponses à des questions ouvertes, des carnets d’observation directe de type ethnographique,….

La référence aux “CAQDAS”, c’est-à-dire d’une part la distinction quantitatif / qualitatif et d’autre part la focalisation exclusive sur l’outil informatique, n’a pas de raison d’être dans le contexte français, qui ignore à quelques exceptions près cette branche de la méthodologie en tant que telle. La présente contribution peut donc se déployer selon ma propre logique, qui ne s’accordait pas tout à fait avec les présupposés implicites du projet international sus-nommé. D’autre part, mon premier manuscrit ayant été communiqué aux principaux collègues concernés, compétents ou directement cités, j’ai bénéficié de plusieurs apports (corrections, suggestions, ajouts, critiques), que je me suis efforcé d’intégrer dans le texte actuel. Comme le dit la formule consacrée, je remercie sincèrement tous ces correspondants de leur participation, commentaires et encouragements, tout en assumant les lacunes ou erreurs d’interprétation, voire les erreurs factuelles, qui pourraient encore subsister (et qu’on voudra bien me communiquer, pour insertion dans un prochain numéro de notre cher Bulletin de Méthodologie Sociologique).

J’en profite pour signaler que l’Institut de Recherches sur les Sociétés Contemporaines (IRESCO, C.N.R.S. – Paris) est candidat pour devenir le pôle principal d’un “Centre de Compétences Thématiques” en analyses textuelles informatisées, dans le cadre du nouveau Plan Informatique de la Direction Scientifique du Secteur des Sciences Humaines et Sociales du CNRS, appelé à se substituer au défunt L.I.S.H (Laboratoire Informatique et Sciences Humaines). Si cette candidature est agréée, le présent état des lieux pourrait constituer l’amorce d’une base de données spécifique, qu’il y aurait tout intérêt à actualiser en permanence (maintenance et veille technométhodologique) – car l’obsolescence guette rapidement ces outils de la recherche et on peut s’attendre à l’émergence de nouvelles conceptions et pratiques logicielles, sans compter l’impact prévisible des nouvelles technologies de réseaux multimedia.

______________________________________________

Plan de l’article

On va d’abord expliciter les présupposés sous-jacents à celles de nos pratiques de recherche qui font appel à des méthodes formalisées d’analyse textuelle, qu’elles soient ou non informatisées. Ce qui amène à questionner la pertinence de la distinction qualitatif / quantitatif et de la relation moyen / fin entre l’outil micro-informatique et les objectifs de la recherche. C’est dans le cadre d’un tel débat général sur les enjeux et les problématiques plurielles des recherches sociologiques qu’on peut rendre compte de la diversité, certaine, et de la spécificité, relative, des méthodes d’analyse textuelle pratiquées en France: notamment concernant les rapports entre les niveaux micro- et macro-sociologique et les relations entre pratiques sociales, représentations, valeurs et “discours”, entre matérialisme et idéalisme, entre positivisme et constructivisme, entre rapports de dominance et conventions consensuelles, mais aussi concernant les présupposés épistémologiques généraux de toute analyse, entre “fréquentisme” et “intuitionnisme”, etc…

On reconnait généralement l’influence d’une tradition sociolinguistique française, d’une part dans les travaux anciens de Michel Pécheux sur les formations langagières ou discursives, d’inspiration marxiste-structuraliste, et dans sa méthode d’A.A.D. (Analyse Automatique du Discours, 1969), d’autre part dans l'”Ecole française d’Analyse du Discours” (A.D.) autour de la revue Langages (depuis 1969), prolongée par les réflexions de la revue Langage et Société (depuis 1977) sur l’Analyse de Discours. Cette tradition, dont toutes les variantes se réfèrent à une problématique de l’énonciation, insiste sur les processus et rapports socio-discursifs ou socio-énonciatifs entre locuteurs socialement situés, et génère une méthodologie complémentaire de celle des analyses classiques de “contenu thématique” – qui commence à peine à se traduire en outils logiciels spécifiques.

Quant aux principales élaborations théorico-méthodologiques ayant actuellement un impact sur les pratiques d’analyse textuelle informatisée, leur mode d’approche dominant peut être:

– soit de type lexicométrique, au contact de la statistique d’analyse factorielle et de classification automatique de type “benzécriste”, qui consiste à comparer des profils lexicaux (distributions relatives des occurrences lexicales, sans nécessité de lecture préalable) à l’intérieur d’un corpus ou entre corpus textuels, avec plusieurs variantes selon la manière de partitionner ou non les corpus et de lemmatiser ou non les “lexèmes” (ou mots), d’inclure ou non les “mots vides”, etc…, et selon les indicateurs calculés (spécificités,…) ou les usages énonciatifs inventoriés (concordances, segments répétés,…) ;

– soit de type socio-sémantique, par segmentation du corpus en unités de signification pertinentes et par catégorisation multidimensionnelle conforme aux grilles d’analyse conceptuelle spécifiques de chaque recherche (dans une optique classique de codage a posteriori, où le chercheur lit le texte, “marque” et code lui-même les unités de sens du corpus), et par recours éventuel à des méthodes statistiques, notamment d’inspiration booléenne comme les “arbres de décision” ou le “data mining” à la mode, plus diversifiées que celles de la seule méthode benzécriste ;

– soit en termes de “réseaux de mots associés“, au contact des paradigmes des représentations sociales (psychologie sociale et sociologie) et des réseaux (sociologie), qui visent à “re-présenter” des configurations cognitives liées à un ou plusieurs thèmes, considérées comme cachées sous la surface textuelle, en faisant abstraction de l’axe syntagmatique pour se concentrer sur l’axe systématique ou paradigmatique, selon les expressions classiques du linguiste de Saussure. Le plus connu des logiciels de cette catégorie, qui se dépeint comme un outil de S.A.O. (“Sociologie Assistée par Ordinateur”), a été greffé sur un logiciel d’aide à l’indexation et à l’interrogation de bases de données bibliographiques avec un minimum de précodage et de structuration a priori des textes, dans le cadre du Laboratoire de Sociologie des Innovations ; sa principale originalité est d’identifier des “acteurs/actants” par leur “profil d’association”, c’est-à-dire par la liste des mots auxquels ils sont associés, et de définir le contenu textuel comme “le réseau des associations opérées par le texte entre les acteurs qu’il met en scène” ;

– soit en termes d’analyse propositionnelle et prédicative du discours, au contact des paradigmes cognitivo-discursifs de la psycholinguistique, dans le cadre du Groupe de Recherche (psychologique) sur la Parole. La méthode d’ACD (Analyse Cognitivo-Discursive), en cours d’élaboration par synthèse de l’APD (Analyse Propositionnelle du Discours) et de l’APP (Analyse Propositionnelle Prédicative), décrit les logiques de construction progressive de tout univers référentiel cohérent, avec la notion de “schéma causal”, ainsi que les finalités ou intentions de chaque mise en scène langagière particulière, avec différents “opérateurs argumentatifs” ;

– soit en termes d’ingénierie textuelle, à visée d'”audit textuel” ou à dominante de documentation-communication (pour mémoire) ;

– soit en tant que module complémentaire des logiciels spécialisés dans le traitement d’enquêtes ou observations sociologiques, notamment pour la post-codification des énoncés en langage naturel. Le prix de ces logiciels, diffusés par le circuit commercial privé, en limite l’utilisation dans les centres de recherche publique, actuellement en crise de financement. Reste à savoir d’autre part si les sociologues et les socio-linguistes, notamment parmi les “discursivistes”, y trouveront de quoi mettre en oeuvre leurs exigeantes problématiques ;

– soit en termes de “systèmes-experts” ou dispositifs équivalents, “dédiés” à des problématiques de recherche sociologique particulières mais parfois susceptibles d’applications extensives. Parmi les rares domaines de la sociologie couverts par cette catégorie, on peut citer: la “grammaire des actes de civilité”, la “dissonance axio-idéologique”, les controverses d’experts et conflits de responsabilité. Construits selon les modèles théoriques propres à leur concepteur, ces logiciels représentent, semble-t-il, une voie féconde pour l’avenir de la méthodologie d’analyse textuelle.

La liste des logiciels français cités dans le texte est fournie après une brève conclusion, dans l’ordre de leurs citations, avec des lettres. Quant aux références bibliographiques, elles sont regroupées à la fin, dans l’ordre alphabétique d’auteur et d’année de parution.

_________________________________________________

en guise de Postface 1: quelques années après la publication du présent inventaire critique, j’ai été amené à rédiger pour la revue Langage et Société deux contributions à des débats à propos de deux des logiciels français les plus emblématiques de deux grandes catégories de logiciels d’analyse textuelle. Ces articles ayant été déposés récemment sur mon site (en août 2012), on pourra y accéder en cliquant sur le nom des logiciels en question :

1 – s’agissant du logiciel Alceste, un des logiciels les plus pratiqués par les sociologues français, j’ai proposé ‘introduire un débat avec Max Reinert, son concepteur, à propos des fondements théoriques et des présupposés des logiciels d’analyse textuelle. Cet article a été publié dans Langage et Société, n° 90, décembre 1999 – à la suite d’un article de Max qui interrogeait “la réponse ALCESTE” en tant qu’objet d’une analyse de discours de type statistique. cliquer sur le lien —> Alceste

2 – s’agissant du logiciel Prospéro, un des principaux logiciels que je qualifie de logiciels “dédiés à des problématiques sociologiques”, j’ai publié dans la même revue Langage et Sociéré, n° 109, septembre 2004, un Compte-rendu bibliographique d’un ouvrage de son concepteur, Francis Chateauraynaud , intitulé “une technologie littéraire pour les sciences humaines”et publié en 2003 aux Éditions du CNRS.

__________________________________________________

I – Spécificité et diversité des méthodes d’analyse textuelle (en France).

Présupposés implicites, objectifs et enjeux

Force est de constater, dans ce domaine comme dans d’autres, l’herméticité des habitus scientifiques nationaux, et ceci de manière réciproque si on considère par exemple la rareté des références aux pratiques et publications francophones dans la littérature anglo-saxonne qui traite des équivalents de ce que sont “nos” méthodes d’analyse de discours ou d’analyse textuelle. C’est pourquoi on se gardera bien d’exprimer a priori les décalages constatés entre la diffusion des pratiques informatisées en France et dans d’autres pays en termes de retard (ou d’avance), avant même d’avoir reconnu les spécificités méthodologiques de chacun des courants nationaux ainsi confrontés, dans leur dynamique historique propre. Car ce serait reconnaître ipso facto les pratiques de certains pays (notamment les pays anglophones “dominants”) comme le modèle unique de référence, l’unique étalon de comparaison implicite, en négligeant les autres pôles de recherche techno-méthodologique, les autres points de vue théorico-épistémologiques. Bref, ce serait positionner notre bilan et notre réflexion sur la ligne d’un hypothétique progrès unidimensionnel des méthodes et techniques heuristiques. Notons d’ailleurs au passage qu’on aurait là une illustration de ce que les sociolinguistes appellent le marquage de l’énonciation, à savoir son aspect non symétrique qui reflète et entretient les rapports de force entre les locuteurs en présence. On y reviendra plus loin.

Mais il ne suffit pas de présenter les méthodes d’analyse sociologique de corpus textuels pratiquées en France, dans leur diversité et leur éclectisme, qu’elles soient déjà (partiellement) informatisées ou en cours d’informatisation ou assez formalisées pour le devenir un jour, dans leur histoire et leur logique spécifiques et avec leurs propres présupposés. Encore faut-il aussi le faire en référence aux problèmes de fond que sont les objectifs et enjeux de toute analyse sociologique, quelle qu’elle soit, à partir des bilans critiques et des questionnements que peuvent susciter ces méthodes au-delà de leur seul intérêt pragmatique immédiat !

Pertinence de la distinction qualitatif/quantitatif ?

Tout d’abord, nous considérons que toute recherche sociologique comporte nécessairement une part de “matériaux textuels” à analyser – au point que la distinction entre le “qualitatif” et le “quantitatif” ne saurait être au mieux qu’une distinction de phases, de moments dans la recherche, et au pire qu’une mystification destinée peut-être à masquer les méconnaissances respectives de la réalité discursive (ou de la dimension “intensive”, pour reprendre l’expression de l’épistémologue Canguilhem (1950), à propos de l’analyse conceptuelle) chez les quantitativistes et de la réalité numérique (ou de la dimension “extensive”, avec les incontournables “opérateurs de quantification”) chez les qualitativistes. Peut-on, par exemple, ignorer ou éluder les activités de type documentaire qui contribuent à définir les problématiques de toute recherche au point d’en faire intégralement partie ? et les pratiques discursives qui accompagnent nécessairement les opérations apparemment les plus “quantifiables”, telles que l’élaboration du “dispositif de questionnement” et du cadre conceptuel d’un questionnaire ou d’un guide d’entretien dans leur formulation et leur mise en scène (Grelon, 1978, Achard, 1994, Richard-Zappella, 1995), ou l’interprétation des résultats numériques, nécessairement textuelle: dans des catégories lexicales “savantes” ou “spontanées” et dans des formes (syntaxiques, paraphrastiques, rhétoriques, stylistiques,…) que la sociolinguistique nous apprend à décrypter, etc…?

Et, inversement, peut-on se désintéresser des répartitions chiffrées des phénomènes et objets discursifs, faits langagiers ou “actes de parole”, de leurs fréquences d’occurrence, concordance ou co-occurrence, ce que l’on a coutume de désigner, en Europe tout au moins, sous l’expression de statistique textuelle (Lebart et Salem, 1994), ou d’analyse statistique des données textuelles. Ce courant est né, vers 1980, de l’application des méthodes “benzécristes” (du nom du statisticien J.P. Benzécri, qui a fait école en sciences sociales, surtout en France) d’analyse descriptive multidimensionnelle de type spectral (AFC = Analyse Factorielle des Correspondances, CAH = Classification Ascendante Hiérarchique, etc…) à des corpus textuels qui, au début, étaient surtout des écrits littéraires, politiques ou religieux. Il revendique une double légitimation pour ces pratiques de quantification, qui surprennent a priori les spécialistes de la langue et des textes: d’une part, la théorie distributionnelle du linguiste Z. Harris et, d’autre part, la fameuse loi de Zipf, qui énonce ainsi une des caractéristiques structurelles fondamentales de tout corpus textuel: “le produit du rang (selon l’ordre de fréquence décroissante) et du nombre d’occurrences de chaque ‘élément’ d’un texte est à peu près constant” (Lebart et Salem, 1994, déjà cités, p. 47-51). Comme en témoignent les dynamiques Journées (internationales) d’Analyse (statistique) des Données Textuelles (JADT, 1995), qui viennent de regrouper 105 contributions, provenant principalement de chercheur(e)s d’Europe méridionale et du Québec, ce courant lexicométrique s’ouvre progressivement à d’autres influences, à d’autres disciplines, à d’autres interrogations épistémologiques et théoriques. D’autre part, quoi qu’on pense de leur présupposé fréquentiste proclamé, c’est bien de l’information structurelle, d’ordre qualitatif, que ces méthodes produisent sur les corpus à partir de leurs descriptions statistiques, et non l’inverse. Et, de fait, c’est une des principales méthodes informatisées d’analyse textuelle auxquelles on se réfère en France, qu’on la pratique ou non.

Ce choix exprime le refus de considérer les méthodes dites quantitatives et qualitatives comme des méthodes alternatives, voire opposées, et la conviction qu’il s’agit de catégories du sens commun, superficielles et fallacieuses ; avec la volonté de promouvoir une conception méthodologique fondée sur la synthèse, l’interpénétration, la fécondation mutuelle, de ces deux modes d’expression complémentaires d’une seule et même “réalité sociale”. Ma (longue) pratique des méthodes dites quantitatives m’a amené à constater que le critère parfois invoqué du “format fixe” pour distinguer les “données” justiciables de quantification (parmi l’ensemble de tous les types de “données”) repose en fait sur la fiction du découpage des questionnaires en questions simplement juxtaposées, à réponse unique, à laquelle s’ajoute souvent une segmentation du traitement statistique en séries monotones de tris ponctuels et de corrélations simples. Un article récent illustre bien comment au contraire un sociologue peut, par exemple, traiter des configurations complexes de caractères de type “contextuel” (en l’occurrence, les attributs sociodémographiques de chaque membre de la fratrie de chaque enquêté/e) comme s’il s’agissait de “mots” assemblés en syntagmes, d’où le nom de “fratagmes“, susceptibles d’être soumis à une analyse des correspondances textuelles (Jalaudin, 1995). A caricaturer ainsi la méthode des questionnaires (c’est-à-dire à la réduire à la seule pratique standardisée des sondages d’opinion), on sous-estime leur capacité à traiter la complexité d’un dispositif structuré de questionnement, composé d’enchaînements de questions, avec une grande variété de types de “formats” (parmi lesquels les questions sollicitant des réponses de format indéfini, par exemple réponses multiples et/ou langage dit naturel – ou indicateurs structurels, comme les fratagmes ci-dessus) ; auquel dispositif de questionnement correspond un dispositif d’analyse/synthèse tout aussi complexe, portant sur des configurations de “patrons (patterns) de réponses” et comportant des analyses multidimensionnelles avec “effets d’interférence” de type multiplicatif (cf. par exemple Jenny, 1981) – les seules constructions empiriques susceptibles de “faire sens”.

Quant à ma (récente et superficielle) pratique de la recherche documentaire (Jenny, 1986) et des analyses de discours sociaux (cf. par exemple, Jenny, 1983, Drouard et Jenny, 1986), ils m’ont appris qu’il y a au moins analogie formelle entre ces configurations statistiques complexes évoquées ci-dessus (entre autres, les dendogrammes des classifications hiérarchiques, les diagrammes de projections factorielles dits de Tabet) et les graphes qui expriment des réseaux sémantiques, des associations de mots, des thesaurus, voire la structure morpho-syntaxique des phrases. J’en conclus qu’il n’y a pas de frontière étanche, de coupure radicale, entre les différents “niveaux de mesure” d’une part (métrique pur, ordinal, nominal ou catégoriel), et entre les données de type “nominal” (dites aussi parfois, par abus de langage, qualitatives, bien que dénombrables) et les données “en langage naturel” d’autre part. Mais il est impossible, dans le cadre de cet article, de développer et d’argumenter davantage cette option fondamentale.

En revanche, je me suis toujours efforcé de repérer les présupposés communs qui opposent des méthodes, le plus souvent à l’insu de leurs pratiquants, au sein de chacun de ces deux modes d’expression: ainsi, par exemple, le présupposé “intuitionniste” (partir des “prénotions” pour construire des classes d’objets significatives) versus le présupposé “fréquentiste” (faire table rase des prénotions et “calculer en aveugle” des types d’objets homogènes), sous-jacents à toute opération statistique de catégorisation empirique (Jenny, 1989) mais aussi à toute analyse textuelle, ou le présupposé “représentationniste” du reflet versus le présupposé “constructiviste” de l’énonciation, sous-jacents à toute analyse de productions discursives (par ex. Pécheux, 1975, page 239, Boutet, 1994, Lévy, 1983, Pellegrin, 1993) mais aussi à toute analyse statistique. Ces présupposés s’avèreront être des critères distinctifs pertinents pour la classification des méthodes d’analyse textuelle.

Il est également important de bien situer l’apport heuristique spécifique de chacun de ces deux modes de production de l’information que sont respectivement les enquêtes par questionnaires de type directif et les guides d’entretien de type non directif, incluant les autobiographies plus ou moins spontanées, ou l’enquête statistique et l’approche ethnographique (Lemel, 1984). Les pratiquant(e)s de ces deux modalités d’enquête se méprisent parfois mutuellement, chacun/e affirmant sa supériorité en déniant à l’autre la plénitude de légitimité scientifique: d’un côté au nom de l’objectivité et de la standardisation des procédures, qui autoriseraient les agrégations et les dénombrements, et de l’autre au nom de la spontanéité de l’enquêté/e, dont les cadres de référence et les modes d’expression seraient le moins possible pollués par ceux des instances enquêtrices – dans le respect des singularités individuelles. En fait, les uns comme les autres semblent négliger la caractéristique essentielle de toute relation dialogique, à savoir que les énoncés, apparemment libres ou contraints, se construisent par et dans les séquences d’échange (oral ou écrit) dont personne ne peut s’abstraire et qu’il n’y a pas de “vérité brute déjà là”, à dé-couvrir, indépendamment de ces processus énonciatifs. C’est ce qu’ont bien mis en valeur une équipe de quatre chercheuses (Battagliola, Bertaux-Wiame, Ferrand et Imbert, 1993), en comparant les résultats spécifiques et complémentaires obtenus auprès d’une même population et sur les mêmes thèmes biographiques, respectivement par un questionnaire fermé standardisé de l’INSEE (Institut National de la Statistique et des Etudes Economiques) puis, un an plus tard, par des entretiens – au cours desquels se déploient les “stratégies narratives” des interviewé(e)s, susceptibles de produire “excès de sens et de cohérence”, tout comme les questionnaires expriment la “stratégie descriptive” du dispositif d’enquête, qui se révèle mieux adapté à des parcours de vie programmés (surtout masculins) qu’à des trajectoires et des temporalités chaotiques (surtout féminines).

Ce paradigme des processus énonciatifs en contexte micro- et macro-social, qui rompt avec le paradigme classique du “reflet” et de la “re-présentation”, constitue précisément un des principaux fondements de ces approches discursivistes “à la française” dont on parlera plus loin.

Enfin, la distinction entre le “qualitatif” et le “quantitatif” est souvent liée à la distinction entre du non-formalisable et du formalisable, voire entre les démarches inductive et déductive, exploratoire et confirmatoire, ce qui est généralement rapporté aux capacités respectives de l’intelligence humaine, réputée empathique, flexible et généralisante, d’une part, et de la “mécanisation informatique”, réputée rigide et systématique, d’autre part, pour reprendre les expressions stéréotypées d’un des principaux représentants français du “qualitativisme militant” (Mucchielli, 1994). Mais le réexamen de cette distinction suffira-t-il à assouplir les positions tranchées de celles et ceux qui manifestent parti-pris et méconnaissance concernant tout à la fois et dans le même mouvement le “quantitatif” et l’ “informatique” ?

Réduire la méthodologie à l’efficacité pratique des instruments : dérive techniciste ?

L’accent mis sur la dimension technique des procédures de recherche (notamment informatiques) comporte le risque de focaliser l’attention sur les instruments de la recherche et leur utilité pratique – plutôt que sur ses finalités, ses objectifs.

Comme cette dimension bénéficie généralement d’une réputation de neutralité quasi-évidente, si ce n’est d’un préjugé a priori favorable, les pratiques qu’elle autorise, suscite, entrave ou empêche ne sauraient, bien au contraire, être exemptées de toute critique vigilante ; ce qui n’est pas contradictoire, dans une conception dialectique des rapports entre fins et moyens, avec la reconnaissance d’éventuels effets de feed-back de la technique opératoire sur les objectifs eux-mêmes de la recherche, voire sur certains de ses fondements épistémologiques les mieux établis (lire, par exemple, dans un numéro spécial du Courrier du CNRS, en 1986, consacré aux Sciences de l’Homme et de la Société, les articles de l’historien Zysberg, pour qui la micro-informatique interactive permet d’introduire dans les sciences humaines, réputées interdites d’expérimentation, les procédures du raisonnement expérimental et de la simulation quasiment en grandeur réelle ; l’archéologue Gardin, pour qui elle peut assurer un contrôle rigoureux de nos argumentations scientifiques, qualifié d'”épistémologie pratique” ; le sociologue Degenne, pour qui, comme pour le précédent, la logique exigeante des systèmes-experts peut remettre en question les formes trop “intuitives” et insuffisamment explicitées de nos connaissances). Mais la prudence nécessaire à l’égard de tout nouvel outil ne suffit pas à expliquer que la grande majorité des sociologues français n’ont pas su reconnaître les potentialités de cette grande innovation technique qu’est la micro-informatique interactive, sans aucun rapport avec les gros centres de calcul numérique – en tant qu’outils créatifs au service d‘objectifs scientifiques qui restent à définir sur le plan théorico-empirique, et dans le cadre de présupposés et de problématiques qui, seuls, peuvent conférer à ces outils le statut de pratiques scientifiques. On peut en effet s’étonner que, dans la recherche de type universitaire – à l’exception de la recherche littéraire (par ex. Discotext 1 [^_A] ou Hyperbase (Brunet, 1981) ou Patate [B] ou Pistes [C]) ainsi qu’en témoignent des initiatives comme la journée d’information organisée par C. Baudelot à l’ENS de Paris (Ecole Normale Supérieure de la rue d’Ulm) en Novembre 1994 sur le thème “Littératures électroniques” (Baudelot, 1994) – par rapport aux autres types de recherches ou études, notamment dans des bureaux d’études ou cabinets d’expert et dans de grands organismes de recherche extra-universitaire comme l’INSEE, le CREDOC (Centre de Recherche et Documentation sur la Consommation) ou l’INED (Institut National d’Etudes Démographiques) ou la Direction des Etudes et Recherches de l’EDF (Electricité de France) en collaboration avec le CAMS (Centre d’Analyse et de Mathématiques Sociales), on ne se soit pas davantage emparé du nouvel outil micro-informatique au moins pour les quelques fonctions de base d’aide à la lecture, qui ne posent pas de problèmes linguistiques ou informatiques majeurs (élaboration du lexique des corpus, exploration intra- et inter-textuelle, recherches d’occurrences en contexte par équations booléennes et avec paramètres de proximité, concordances et coocurrences), et d’aide à l’indexation et au codage. C’est en réponse à ces besoins élémentaires que plusieurs logiciels spécifiques ont été créés à l’étranger, puis développés avec des fonctions plus complexes (Fielding et Lee, 1991, Kelle, Prein et Bird, 1995), en prolongement de certains logiciels généralistes ou documentaires performants, peu connus eux-mêmes en France il est vrai, comme les “T.B.M.S.” (1986) ou autres “Word-Crunchers”, ou plus simplement en prolongement de certaines fonctions classiques des logiciels de traitement d’idées (par exemple Thinktank) ou de traitement de texte (par exemple, dans Word sous Windows: couper/coller, recherche/remplacement de chaînes de caractères, annotations en marge et texte caché, modes Résumé, Plan et Table des matières). Je peux d’ailleurs témoigner à cet égard qu’il existait dès 1980, notamment au CNRS, un petit noyau de chercheurs très motivés (dont j’étais) qui, dans l’indifférence générale, fondaient de grands espoirs dans la micro-informatique interactive: nous avions même défini entre nous un cahier des charges pour informatiser les procédures élémentaires de la recherche sociologique qui font appel à l’analyse de corpus textuels. Ce projet de logiciel, au nom pluriel de Lectures, avait des points communs avec certains logiciels réalisés plus tard, comme The Ethnograph ou comme Max ou encore Sato, d’après ce qu’on peut en savoir par des contacts personnels ou par des articles de présentation (Anger et Sauvat, 1994, Mangabeira, 1992, Kuckartz, 1992, Duchastel, 1992, Armony et Duchastel, 1995, 1996). Il comportait même un module novateur de “circulation dans le texte par associations libres” analogue à ce qui par la suite, à partir de la galaxie Apple, allait se diffuser largement sous l’appellation d’ “HyperCard-Hypertext” ; mais, l’environnement bureaucratique et mandarinal de l’époque ne pouvant guère apprécier ce genre de projets, il ne lui fut donné aucune suite pratique ! Je sais d’autre part qu’il existe ici ou là en France des programmes en “freeware” ou à faible coût, comme Saint-Chef [D], développé par M. Sekhraoui, spécialisé dans l’herméneutique des concordances, ou Trithème [E], développé par la sociologue E. Aiva (1993) pour les besoins de sa recherche personnelle, ou comme plusieurs modules développés par Ph. Cibois (1985, 1995) en complément de son logiciel d’analyse post-factorielle des données Tri-deux [F], ou comme mon propre Kaleidos [G], dans le cadre plus modeste d’un logiciel d’analyse de questionnaires sociologiques. Le problème se pose d’une meilleure diffusion de ces outils, pour pouvoir en valider l’intérêt méthodologique au-delà de leur contexte d’origine, mais aussi pour proposer aux chercheurs en sciences sociales, souvent allergiques et à l’informatique et à la sociolinguistique, des outils simples qui auraient au moins l’intérêt de les initier à l’analyse textuelle. Le problème se pose aussi de faire mieux connaître les logiciels “généralistes” d’analyse textuelle du secteur commercial, dont les prix sont parfois inaccessibles pour les budgets misérables de la recherche publique. On en signalera quelques-uns dans les derniers paragraphes de cet article.

D’autre part, l’informatique étant encore en pleine évolution, il n’est pas déplacé pour des sociologues de prétendre contribuer à cette évolution, même si la mode intellectuelle des sciences cognitives ne leur laisse guère de place a priori. Parmi les articles de vulgarisation publiés dans un n° récent du Courrier du CNRS, on lira par exemple que “l’ I.A.D. (Intelligence Artificielle Distribuée) est capable de simuler des systèmes écologiques ou sociaux complexes et ainsi de faire émerger des structures qui résultent du passage des études micro-sociales aux analyses macro-sociales” (Ferber, 1993). Enfin, les logiciels de recherche documentaire s’ouvrent massivement depuis peu au traitement des informations en texte intégral (“full text”), ce qui les amène à compléter la pratique de l’indexation-interrogation par mots-clés descripteurs, organisés en thesaurus structurés (selon les critères classiques de hiérarchie, synonymie et association), par des pratiques d’analyse textuelle plus complexes, où l’on rencontre la plupart des problèmes linguistiques et sociolinguistiques qui seront évoqués au cours de cet article – analyse morpho-syntaxique, paraphrastique, lemmatisation, etc… (dépouillement de la revue Archimag, Années 1994-95). Et il faudrait aussi parler des (encore rares) modules d’interrogation en langage naturel et de l’ouverture des bases de données à d’autres supports, non typographiques: images fixes ou animées, sons, qui font le succès commercial des systèmes “multimédias”. Sans oublier, évidemment, le développement spectaculaire des réseaux conviviaux, notamment le Web d’Internet qui mettra de plus en plus de documents textuels à la disposition des chercheurs du monde entier (Brunet, 1995).

Si l’on ne veut pas se laisser entraîner dans la dérive techniciste, qui confond les moyens et les fins, il nous faut donc évoquer les objectifs, présupposés et problématiques de recherche sociologique, tout au moins ceux qui entretiennent d’étroits rapports avec la “matière textuelle” (mais n’est-ce pas le cas général ?), comme autant de préalables nécessaires à la description des méthodes et techniques, notamment logicielles, et des pratiques qui concourent à l’analyse de cette matière.

Objectifs, présupposés et problématiques des recherches sociologiques

S’agissant de la discipline sociologique, aux multiples facettes, il n’est pas indifférent de savoir, avant toute chose, si on s’intéresse plutôt à des faits et relations micro-sociaux dans le cadre de “communautés” circonscrites (conversations et correspondances dites privées, paroles et gestes au travail, au domicile, en groupe associatif, rumeurs, informations locales, querelles et relations conviviales, fêtes familiales et locales, “brèves de comptoir”, indicateurs de sociabilité, observations de terrain, etc…), principalement par une approche de type monographique plus ou moins inspirée des méthodes ethnographiques et revisitée par le courant ethnométhodologique, ou à des pratiques et rapports macro-sociétaux (mythes et légendes, textes sacrés, proverbes, graffiti et affiches, textes législatifs et juridiques, codes et tous textes conventionnels et contractuels légitimés, discours et informations générales médiatisées, opinions et débats publics, cérémonies et rituels nationaux, indicateurs de socialité, slogans et messages publicitaires, manuels d’enseignement, productions littéraires et culturelles, enquêtes et sondages, etc…) dans le cadre d’institutions et groupements plurifonctionnels, par ex. rapports de classe sociale, de sexe ou de genre, de génération, de groupement ethno-culturel, de pouvoir, etc… (par ex. Guillaumin, 1972, Jenny, 1995, Kergoat, 1995) – ou encore si l’on recherche précisément les relations dialectiques qui unissent ces deux “niveaux” de la réalité sociale (par ex. la réalité concrète et sa mythologie, pour Huguet, 1971 ; les pratiques et représentations individuelles et les discours “institutionnels”, pour Moscovici, 1976), notamment celui des pratiques quotidiennes, des histoires de vie et des confidences autobiographiques, avec leurs joies et leurs peines, leur vécu quotidien, leurs projets et leurs drames, leurs métamorphoses, et celui de l’histoire sociale, technologique, économique, politique, idéologique, etc… avec ses modes et styles de vie, ses mouvements sociaux et ses “utopies”, ses conflits et ses guerres, ses révolutions. Qu’il soit permis de faire ici une digression, d’ordre à la fois épistémologique et déontologique, à propos de ces “confidences”, parfois douloureuses – digression que me suggèrent le sous-titre oublié d’un classique de la méthodologie en psychologie clinique (Blanchet et al., 1985) et un court texte récent sur la nouvelle discipline qu’est la “Psychodynamique et psychopathologie du travail” (Dejours, 1993), disant qu’il faut “engager une analyse du statut de la parole et de l’ écoute (souligné par moi, jj) dans la méthodologie de l’enquête”. Rappel utile pour qui serait tenté, à force d’analyser des paroles dites, ou même éventuellement tues, mais “transcrites” et lues, d’oublier cette autre dimension élémentaire de tout dialogue parlé (l’écoute, et l’ “entendement”, et j’ajouterais volontiers – avec certaines psychologues cliniciennes – la voix) !

Car de telles options pratiques et/ou méthodologiques, outre qu’elles reflètent souvent des parti-pris théorico-idéologiques (par ex. l’individualisme méthodologique ou le holisme), ne peuvent manquer d’opérer des choix au niveau des “données” à recueillir, à produire et à construire, au premier rang desquelles les “données textuelles”. Ce terme lui-même de donnée, d’ailleurs, est tellement usité qu’il est difficile à remplacer, mais il faudra bien un jour le bannir de notre vocabulaire, car il n’y a pas de “données” qui ne soit en fait des réponses à des questions verbalisables, explicites ou implicites. Et, s’agissant de corpus textuels, non seulement on n’a pas affaire aux mêmes “instances de la pratique discursive” ni aux mêmes types de productions langagières, donc ces corpus ne sont pas a priori justiciables de traitements sociologiques identiques, mais les chercheurs y sont impliqués de manières différentes, engagés plus ou moins directement et personnellement dans ces procédures énonciatives que sont le “dialogue” (Boutet, 1994, déjà citée), l'”embrayage”, le “marquage”, la “prise en charge”, l'”intertextualité”, etc…, où le contexte et la situation se lisent dans le texte – comme on le verra plus loin (cf. aussi, s’agissant de la relation enquêteur-enquêté, Grelon, 1978, Huguet, 1971, Achard, 1995, déjà cités, entre autres).

Il n’est pas indifférent, non plus, de concevoir les rapports sociaux comme régis principalement par des accords tacites de “conventions langagières” plus ou moins consensuelles et/ou par des pratiques antagonistes, domination/dominance/résistance, voire exclusion, formant système au point d’être parfois désignées comme formations langagières ou formations discursives (principalement à la suite du regretté Michel Pécheux, déjà cité, dont l’influence sur la sociolinguistique française est encore sensible aujourd’hui) – dans une conception matérialiste, et plus précisément marxiste-structuraliste, des pratiques de langage. En effet, dans la première option on aura tendance à traiter certaines ambiguïtés, silences, ellipses, lapsus ou allusions implicites, voire expressions humoristiques, “jeux de mots” (Fenoglio, 1993), métaphores, métonymies ou autres “sens figurés”, comme autant de brouillages faisant obstacle à une compréhension transparente – qu’il faudrait réduire à leur “sens plein et propre” – alors que dans l’autre option on pourra analyser ces “figures de style” ou ces soi-disant “ratés de la communication” comme des ruses de locuteurs dominés, ou des symptômes de censure par refoulement inconscient concernant des expressions non tolérables par l’idéologie dominante (cf. Guillaumin, 1972, déjà citée), ou plus simplement comme un rappel qu’il ne peut y avoir de conventions langagières à valeur universelle, globale, hors contexte local (Coulter, 1994).

_______________________________________________

II – Principaux courants et lieux d’élaboration théorico-méthodologique ayant un impact (potentiel ?) sur les pratiques informatisées d’analyse textuelle.

Tout ce long préambule était nécessaire pour justifier notre option de placer le présent inventaire dans son véritable contexte, celui des enjeux épistémologiques et théoriques de toute analyse textuelle. Nous pouvons donc maintenant passer en revue les principaux courants de recherche ou écoles de pensée à l’oeuvre dans cette partie de la recherche sociologique française contemporaine qui ne se contente pas d’une attitude “naïve” à l’égard des matériaux textuels mais qui reconnaît avoir à problématiser leur analyse.

Les courants d’Analyse du/de Discours, au contact de la sociolinguistique.

Pour en savoir plus sur les notions fondamentales de ce qu’on appelle parfois le “courant français d’Analyse de Discours”, on pourra s’initier à la linguistique de l’énonciation (Culioli, 1990, Cervoni, 1992), et consulter, d’une part, le numéro spécial de la revue Langage et Société consacré à “Sociologie et Discours”, avec un exposé synthétique et programmatique du sociologue P. Achard (Achard, 1986) et, d’autre part, le numéro spécial de la revue Langages consacré aux analyses du discours en France, sous la direction de D. Maingueneau (Maingueneau et coll., 1995).

La première de ces deux revues, éditée à la Maison des Sciences de l’Homme (Paris) depuis 1977, est un des principaux lieux-carrefours où la sociologie et la sociolinguistique élaborent ensemble cette nouvelle interdiscipline (comment la nommer ?), et où l’on publie des résultats de recherche exemplaires, des réflexions stimulantes. Un premier bilan des relations entre les deux points de vue disciplinaires impliqués, au cours des dix premières années de la revue, a été dressé en Septembre 1987 par F. Leimdorfer et A.L. Tessonneau et la dernière décade a vu alterner des études classiques de sociologie des variations du langage ou des contacts interlangues, et des études développant ou critiquant les thèses discursivistes. Mais on n’y semble guère pressé d’utiliser l’informatique, sauf allusivement dans un bref article déjà ancien (Achard, 1987), qui préfigure ce qu’on pourrait appeler l’ “A.D.A.O.” (Analyse de Discours Assistée par Ordinateur) ou, comme au Québec, l’ “A.T.O.” (Analyse de Textes sur Ordinateur) et plus récemment le “L.A.T.A.O.” (Lecture et Analyse de Textes Assistées par Ordinateur). Les raisons de cette absence ne sont-elles que conjoncturelles ?

Quant à la seconde de ces revues, elle est plus ancienne et plus centrée sur la linguistique, mais sans ésotérisme. Revendiquant d’avoir créé l’ “Ecole française d’Analyse du Discours” en Mars 1969 (désignée par le sigle A.D.), elle est bien placée pour nous en tracer l’histoire. Le titre de son récent numéro spécial de 1995 parle des analyses au pluriel et du discours au singulier défini, ce qui est largement expliqué dans l’article de présentation, où l’on rappelle que l’intérêt initial pour un seul type de discours – les discours publics, voire les discours de type “constituant” – s’est élargi depuis quelques années aux échanges langagiers en contexte, notamment en situation de travail professionnel salarié où l’on analyse toutes les formes de communication, verbales ou textuelles ou autres, internes au travail lui-même (Boutet, Gardin et Lacoste, 1995). Le recours aux procédures automatisées de l’informatique est mentionné explicitement dans deux des sept articles de ce numéro spécial, principalement dans celui de S. Bonnafous et M. Tournier, qui justifient la lexicométrie politique par la “perspective plus globale qui lui donne sens” (interactions dialectiques des stratégies discursives et des formations idéologiques). Il faut noter d’autre part que les auteur(e)s de ce numéro spécial appartiennent à plusieurs centres et équipes de recherche importantes dans ce domaine, notamment: le CEDISCOR (Centre d’Etudes sur les DIScours ORdinaires et spécialisés), créé en 1989 à l’Université Paris-III, le Groupe de Recherche du CNRS Langage et Travail, l’Unité de Recherche Associée (CNRS-Paris-VII) Histoire des Théories Linguistiques, le CAD (Centre d’Analyse du Discours) de Paris-XIII, et le Laboratoire de Lexicologie et Textes politiques, du CNRS et de l’ENS (Ecole Normale Supérieure) de Saint-Cloud.

Résumer en quelques phrases les principales orientations de ce courant multiforme, même à partir des articles synthétiques de P. Achard dans Langage et Société (cité plus haut) et dans Langages, risquerait d’en dénaturer la richesse et d’en affaiblir la portée. Signalons au moins pour les non-initiés qu’il s’agit d’un projet transdisciplinaire ambitieux, et non d’une sous-discipline au sein de la sociologie ou de la linguistique – encore moins d’une méthodologie au service des sciences sociales (qui ont toutes, peu ou prou, à traiter des pratiques langagières et/ou discursives), mais cependant d’une problématique aux implications méthodologiques considérables. Un de ses grands mérites est de parvenir à catalyser dans une synthèse forte, autour de la problématique centrale des rapports socio-discursifs ou socio-énonciatifs (entre protagonistes et instances de l’énonciation, socialement “positionnés” au sein de formations discursives/langagières) de nombreux apports théoriques et empiriques jusque là souvent disjoints (notamment, et avec tous les risques d’une énumération sélective: Pécheux et Maldidier, Lacan, Barthes, Guillaumin, Michard-Marchal, Favret-Saada, Foucault, Austin et Searle, Bakhtine, Harris, Labov, Milner, Benveniste, Simonin-Grunbach, Greimas, Gardin, Bourdieu, Recanati, Culioli, Boutet, Ducrot, Achard, Wald, Tournier, Guilhaumou, Ebel et Fiala, Garfinkel, etc…).

D’autres sociologues, empruntant davantage aux courants de la “philosophie analytique” (Austin et Searle, déjà cités) et de l'”ethno-méthodologie” (Sacks et Shegloff), ajoutent d’autres auteur(e)s à la précédente liste de références (notamment Arendt, Cassirer, Habermas, Putnam, Ricoeur, Wittgenstein): ainsi en est-il de L. Quéré (Quéré, 1994) et de J. Coulter (Coulter, 1994, déjà cité), lorsqu’ils proposent au sein du même courant discursiviste des problématiques connexes, respectivement de socio-sémantique et de socio-logico-praxéologie.

Ces divers courants sont tellement éclectiques qu’on ne peut s’empêcher de remarquer quelques absents notoires, tels que Berger et Luckman, Douglas, Gramsci, Cohen, Lefebvre, Jakobson, Derrida, Faye, Irigaray, d’Unrug, Goffman, Windisch, Pellegrin. Et on ne peut que constater – avec J.P. Terrenoire dans son introduction au récent numéro spécial de la revue Sociétés contemporaines (Terrenoire, 1994) – la très grande ouverture de ce courant de recherche transdisciplinaire, capable d’exploiter la quasi-totalité des travaux portant sur les relations dialectiques entre Langages et Sociétés. Il n’en fallait pas moins pour nous persuader de la non-pertinence d’un certain nombre d'”évidences du sens commun” que sont par exemple les théories du reflet (la parole reflète la pensée, celle du Cogito pré-éminent), de la re-présentation (pensée et paroles rendent présent le réel, déjà là mais partiellement absent), ou de la communication (transmission de messages informatifs, codés/décodés et plus ou moins “argumentés” mais analysables hors contexte sociologique).

On pourrait citer d’autres traces de ces courants de recherche sociolinguistique, pour en montrer la fécondité et la diversité, par ex. dans un article sur les relations réciproques de la sociolinguistique variationniste et de l’analyse du discours dans les “écoles” française et américaine de cette “interdiscipline” (Vincent, 1986), etc…

La problématique qui se substitue progressivement à ce réalisme naïf, à ce “préjugé du monde objectif” comme disent les phénoménologues, est composée…

– de formes et de figures rhétoriques (d’Unrug, 1974), paraphrastiques (Fiala et al., 1982 et 1983, Fuchs, 1994), stylistiques, syntaxiques (Lecomte et al., 1984), au moins autant que de contenus lexicaux ;

– d’inflexions et de cadences de type prosodique et rythmique (Vincent, 1984, Brugidou et Le Quéau, 1995) au moins autant que de fréquences et d’occurrences ;

– de locutions (Fiala, 1987 et 1989), de jugements ou requêtes implicites et de connotations au moins autant que de substantifs, de descriptions ou messages explicites et de dénotations ;

– de mots-outils dits vides au moins autant que de mots-notions dits pleins ;

– de formes graphiques/phonétiques brutes au moins autant que de formes lemmatisées ;

– de con-texte (Fenoglio, 1996) et d’expressions indexicales au moins autant que de catégories idéal-typiques ;

– de séquences énonciatives enchaînées, d’intertextualité et d’interdiscursivité au moins autant que de corpus clos, segmentés, de propositions isolées ;

– de procédures d’énonciation au moins autant que d’énoncés, etc…

Bref, c’est une problématique si complexe qu’on a encore du mal à la formaliser et qu’on semble hésiter à l’informatiser ! Comme exception notable à cette “timidité informatique”, on peut citer ici le tout récent logiciel 3AD95 [H], présenté aux dernières Journées internationales d’analyse textuelle par l’équipe CRISTAL-GRESEC de l’Université Stendhal de Grenoble (Clavier, Lallich-Boidin, Rouault et Timini, 1995) comme une reprise des projets successifs d’A.A.D. de M. Pécheux à F. Cluchagues (1969-1975) – en référence aux travaux cités ci-dessus de Catherine Fuchs. Il s’agit, dans des conditions de production socio-linguistique homogènes, et moyennant quelques traitements morpho-syntaxiques automatiques préalables (codage lexical et grammatical, et segmentation du corpus en énoncés) opérés par l’analyseur CRISTAL, de calculer des distances entre les énoncés selon la “relation de paraphrasage” afin de pouvoir éventuellement les regrouper en classes d’équivalence. Parmi les applications en cours de développement de ce logiciel, figurent des fonctions classiques que je rangerai plus loin sous la rubrique d’analyse de contenu thématique, telles que le dépouillement des questions ouvertes de questionnaires et l’indexation documentaire automatique.

Ce type de logiciel correspond à une nécessité dans la recherche sociologique de base, qui exige effectivement une bonne coopération entre statistique et linguistique, comme le rappelle la communication de Lallich-Boidin et Rouault (1995) à ces mêmes Journées internationales de l’analyse textuelle. Mais on n’en oublie pas pour autant tout ce qui peut différencier les méthodes d’Analyse de Discours lato sensu des méthodes d’Analyse de Contenu stricto sensu (Achard, 1987, Varro, 1994). Et, dans ce sens large, les paroles ne font pas que véhiculer des informations: elles sont aussi, dans leur énonciation même, plus ou moins performatives et peuvent être analysées en tant qu’actes, événements, pratiques sociales à part entière (Leimdorfer, 1994, Fenoglio, 1993, Quéré, 1994 et Coulter, 1994, déjà cités).

Un Séminaire informel, animé par P. Achard, P. Wald et F. Leimdorfer, réunit une trentaine de chercheurs de plusieurs disciplines en sciences sociales autour de ces thèmes depuis 1989. Un article récent (Achard, 1995, déjà cité) annonce son projet de transformation en laboratoire du CNRS et plusieurs articles d’un numéro spécial de revue déjà cité exposent les derniers résultats de recherche de quelques-un(e)s de ses membres, dont l’originalité réside principalement dans l’analyse des procédures de “marquage de l’énonciation” (Varro, 1994, déjà citée, et Wald, 1994). Une analyse du fonctionnement discursif des combinaisons et oppositions de catégories sociales (par exemple: dire “Juif hongrois” ou bien “Hongrois juif” ?), en termes de pôles marqué et non-marqué en référence aux travaux de Jakobson, permet d’affiner la problématique des “dispositifs multiples de catégorisation” développée par Sachs et ses disciples (Coulter, 1994, déjà cité). Le logiciel lexicométrique Lexico-1 (référence [J], en fin d’article) a été utilisé pour des opérations relativement élémentaires: comptages d’occurrences et calculs de spécificités lexicales. D’autres logiciels auraient pu, semble-t-il, tout aussi bien faire ces opérations, mais il n’en existe pas, à ma connaissance, qui intègrent dans leur conception même les propositions subtiles de ces problématiques discursivistes. Quand donc tout cet investissement intellectuel se traduira-t-il dans des réalisations informatiques plus adéquates – même si elles doivent n’être que partielles et moins automatisées ?

Un groupe de travail animé par F. Leimdorfer et moi-même au sein de ce séminaire s’intéresse d’ailleurs, plus particulièrement, à l’inventaire critique des pratiques d’analyse textuelle informatisées. Le présent article doit beaucoup au travail collectif de ce groupe, ainsi qu’à de nombreux autres collègues qui m’ont ouvert leurs dossiers et transmis leurs commentaires.

Les approches lexicométriques, au contact de la statistique “benzécriste”

Le Laboratoire de Lexicométrie et Textes politiques du CNRS, associé à l’E.N.S. de Saint-Cloud, dont la revue Mots est le principal canal d’expression collective, est un des autres pôles de référence en matière de recherche méthodologique sur corpus textuels. Il est surtout connu des sociologues d’une part pour l’hospitalité de ses linguistes, sociolinguistes et informaticiens à l’égard de problématiques extra-linguistiques, et d’autre part pour sa contribution décisive en matière d'”instrumentation logicielle et/ou statistique” – par la réalisation de plusieurs programmes informatiques d’analyse de données textuelles. Un court article de P. Fiala dans la revue Langue française résume très bien les débats qui ont cours au sein de cette équipe de recherche entre les tenants d’une approche plutôt empirique, exploratoire, inductive et automatique et ceux/celles d’une approche plutôt déductive, modélisante, confirmatoire et théorique (Fiala, 1994). On peut voir là une des formes de l’opposition épistémologique signalée dans le préambule, à propos de la fausse alternative Quantitatif/Qualitatif (Jenny, 1989), entre la conception “fréquentiste” de la tabula rasa – quitte à encourir le reproche d’interpréter avec des pratiques ad-hoc – et la conception “intuitionniste” qui construit des modèles hypothétiques à partir de propriétés et de règles connues (énonciatives, syntaxiques, socio-sémantiques, etc…, mais aussi propositions théoriques provenant des différents domaines des sciences sociales concernés par les thèmes de chaque corpus textuel) pour en éprouver la validité à tous les stades de la recherche. Bien que les premiers (les “fréquentistes”) aient toujours pris des précautions pour éviter ou neutraliser les excès de naïveté et d’ambiguïté de cette démarche, qui par principe ne procède ni à la désambiguïsation des homographes ni à la lemmatisation des formes fléchies ni à la stemmatisation des mots préfixés ou suffixés ni à l’agrégation des termes synonymes ou équivalents catégoriels, il semble que leurs pratiques s’orientent progressivement vers le traitement préalable des corpus à l’aide d’ “analyseurs structuraux”, notamment morpho-syntaxiques (Marandin, 1993) – sous contrôle “manuel” et avec discernement ! Constatation qui rejoint celle faite plus loin à propos des logiciels de recherche documentaire. Que l’on se rappelle aussi, par exemple, l’ambiguïté foncière des mots les plus fréquemment utilisés, dès qu’ils sont isolés de leur contexte, comme la forme ‘est‘ du verbe être (relation de prédication ou d’identité) – mais aussi point cardinal du soleil levant, ou la forme ‘de‘ comme joncteur plurifonctionnel (rapports de possession, de contenance, d’origine, de matière), ou l’adjectif-adverbe ‘même‘. Et, plus fondamentalement, on ne peut ignorer la distinction fondamentale entre la fonction référentielle (thème: ce dont on parle) et la fonction descriptive (rhème: ce qu’on en dit) du langage (Hagège, 1985, Ferret, 1996, Wald, 1994, déjà cité).

Le livre de Lebart et Salem, déjà cité (1994) peut être considéré comme l’ouvrage de référence en matière de “Statistique Textuelle” de type “fréquentiste” (ce que ne précise pas la forme grammaticale ambigüe du titre, au singulier “sans déterminant”): les auteurs y prolongent l’exposé de leur propre méthodologie, inscrite dans les logiciels Spad-T [I] et Lexico-1 [J], par la présentation succincte de deux autres logiciels du même type, complémentaires ou concurrents, à savoir Alceste [K] et Hyperbase [L]. Au-delà de l’ésotérisme des formules statistiques et des contraintes informatiques exposées dans ce livre, qui risquent de séduire ou d’effaroucher des sociologues de formation littéraire ou philosophique, il convient de rappeler les principes de base, relativement simples, de cette approche lexicométrique factorialiste – tels que notre préambule les a déjà énoncés: conjugaison du “fréquentisme” des analyses dites multidimensionnelles d’origine benzécriste et du paradigme implicite de la “re-présentation”.

La première opération informatisée de ces logiciels, congruente avec leurs présupposés, consiste à dresser l’inventaire de toutes les “formes graphiques brutes” (ou “lexèmes”, équivalents des “mots”) du corpus à analyser, dans un double classement: par ordre alphabétique et par ordre de fréquence d’occurrence. Vient ensuite la construction du “Tableau Lexical Entier” (ou T.L.E.) de ce corpus, composé d’autant de lignes (ou de colonnes) qu’il y a de “mots”, classés en rang de fréquence décroissante (éventuellement, au-delà d’un certain seuil), et d’autant de colonnes (ou de lignes) qu’on aura préalablement partitionné ce corpus en parties distinctes: locuteurs différents (par ex. enquêtes par questions ouvertes), et/ou textes successifs dans le temps (par ex. série chronologique des discours d’une même instance ou personnalité politique ou syndicale) et/ou parties successives dans un corpus homogène (par ex. dynamique interne du texte, de son début à sa fin), etc….Tous les calculs ultérieurs consistent à comparer les “profils lexicaux” (exprimés par les fréquences différentielles des mots, dans les colonnes – ou lignes – du Tableau) des différentes parties du corpus.

On comprend dès lors que plusieurs variantes de T.L.E. sont possibles:

– selon la manière de partitionner le corpus pour faire apparaître différentes sortes de variations distributionnelles pertinentes ;

– et selon la manière de “traiter” les formes graphiques brutes du corpus, avec effet d’en réduire plus ou moins le nombre – depuis le respect absolu des occurrences telles quelles (= “chaînes de caractères séparés par des délimiteurs”, avec toutes les variétés de typographie parasite qu’on rencontre dans la pratique) jusqu’aux multiples options possibles de réduction des variétés non pertinentes (simples corrections orthographiques, conventions ad hoc d’homogénéisation pour les élisions, les locutions, les caractères diacritiques en minuscule/Majuscule, décisions de lemmatisation des formes fléchies, de traitement différé des “mots-outils”, etc…).

Ce sont d’ailleurs ces options qui différencient principalement les deux logiciels lexicométriques Lexico-1 et Alceste (cf. références J et K, et Beaudoin et Lahlou, 1993).

Par principe, Lexico-1 refuse toute transformation des formes graphiques du texte, sauf exceptions dûment motivées, et ne procède à la partition du corpus que sur critères “externes”, pour distinguer par exemple différent(e)s auteur(e)s ou catégories d’auteur(e)s ou phases chronologiques. Alceste, au contraire, procède à une partition du corpus, “formelle” et automatique, en “U.C.E“. (Unités de Contexte Elémentaires) d’une longueur standardisée d’environ trois lignes – pour des raisons statistiques (rendre comparables les probabilités d’occurrence dans chaque partition textuelle) – et offre plusieurs possibilités d’homogénéisation typographique ou de lemmatisation, voire d’élimination de mots-outils (Reinert, 1986, 1990 et 1993). On obtient ainsi des matrices de répartition lexicale de même structure mais de formats différents, sur lesquelles les deux logiciels procèdent, à quelques nuances près, aux mêmes calculs d’Analyse Factorielle des Correspondances (A.F.C.) et de Classification Hiérarchique Automatique. Les résultats de ces calculs sont exprimés sous forme de graphiques qui appellent une interprétation, car c’est aux chercheur(e)s qu’il appartient de nommer les zones des diagrammes factoriels, les branches des arbres de classification, autrement dit de commenter ces “représentations syncrétiques du corpus”: c’est à ce moment-là seulement que l’art et l’imagination sociologiques peuvent reprendre leurs droits ! Le côté arbitraire et artificiel, voire parfois absurde dans la pratique, de certaines procédures automatiques de mise en forme du T.L.E. n’a pas échappé aux auteurs de ces deux logiciels puisque, tout en confirmant leurs options méthodologiques de base, ils ont simultanément annoncé, aux dernières Journées internationales de statistique textuelle (JADT 1995, déjà cité), des mesures prochaines d’assouplissement portant respectivement:

– pour Lexico-1, sur la définition des unités lexicales – par recours à des catégoriseurs automatiques (Salem, 1995),

– pour Alceste, sur la définition des U.C.E. – par recours à des analyseurs syntaxiques (Reinert, 1995).

A cet égard, l’Analyseur linguistique français Sylex [M] est un module de “préparation des corpus” (on a vu plus haut l’existence de Cristal, autre analyseur morpho-syntaxique – il y a aussi Cyclade). Son objectif ambitieux de “pouvoir comprendre et analyser un texte quelconque” se fonde sur la combinaison des approches syntagmatique et paradigmatique, en référence aux travaux de sémantique de Greimas (1986) et Rastier (1987) et aux travaux de syntaxe structurale de Tesnière (1959), mais en minimisant les recours à la sémantique (dimension paradigmatique) et à la pragmatique, au profit des règles syntaxiques (axe syntagmatique où se situent les structures de représentation de la phrase et du texte) – principalement celles qui concernent les rapports entre l’ordre structural (hiérarchie du verbe sur les autres termes, subordonnés) et l’ordre linéaire d’énonciation (Constant, 1995).

Parmi les calculs complémentaires proposés par les deux logiciels Lexico-1 et Alceste figurent les calculs de specificités, qui indiquent les formes lexicales sur-représentées et sous-représentées, selon telle ou telle catégorie de locuteur (grâce à des encodages péritextuels, par exemple de type sociologique “objectif”), et l’inventaire des expressions figées, ou “segments répétés”, caractéristiques notamment de ce qu’on appelle la “langue de bois”, le “figement de la pensée”. Enfin, connaissant le dictionnaire complet des “mots” et des segments répétés, et c’est une fonction qu’ils partagent avec la plupart des logiciels d’analyse textuelle, on peut obtenir l’affichage/impression des usages énonciatifs en contexte (au sens propre de con-texte contigü d’emploi: les concordances) et des “mots associés” (à telle ou telle distance avant ou après: les co-occurrences) de n’importe quel élément simple ou composé du dictionnaire.

Les logiciels Spad-T et Hyperbase, qui sont brièvement décrits en Annexe du livre de Lebart et Salem (1994), déjà cité, sont des variantes de ces deux logiciels-prototypes, parfois comparés (Juin, Le Saout et Roux, 1994). Le premier est une extension “qualitative-textuelle” d’un logiciel classique de traitement d’enquête par questions codées et numériques, avec des développements en cours vers la post-codification (Becue et Haeusler, 1995), , tandis que le second est plus orienté vers les requêtes de type documentaire, en mode “texte intégral”, grâce à ses fonctions de “navigation” conviviale (système Hypercard) entre le texte et les listes et tableaux créés, mais il est aussi utilisé pour analyser des questions ouvertes (Zaffran, 1996) Les sociologues qui font appel à ces deux logiciels, ou de manière générale à deux logiciels différents, semblent plus satisfait(e)s qu’en situation de dépendance à l’égard d’un seul. En effet, l’interprétation des résultats produits par ces “boîtes noires” comportant une part mal contrôlée d’arbitraire et de subjectivité, on se rassure en diversifiant les points de vue, les paramètres et les protocoles d’utilisation optionnels – l’essentiel étant que les résultats puissent apparaître comme convergents ou complémentaires, mais jamais contradictoires !

Le recours de Chantal Lavigne, psycho-sociologue, et Régine Scelles, psycho-clinicienne, aux deux logiciels Hyperbase et Alceste (Lavigne et Scelles, 1996) pour en confronter les résultats entre eux et avec ceux d’une analyse “princeps” réalisée préalablement avec des logiciels d’analyse de contenu thématique plus classique, Ac2 et Alice (Giami, Korpès, Lavigne et Scelles, 1995) illustre bien également, parmi d’autres expériences méthodologiques, ce souci de la validation des résultats et de leur interprétation.

D’autres logiciels, plus ou moins connus des sociologues, intègrent également des modules lexicométriques de la même inspiration benzécriste – notre spécificité nationale: par exemple, le module Themes du logiciel d’analyse post-factorielle Tri-Deux de Ph. Cibois et la plupart des autres logiciels de traitement d’enquête généralistes du secteur commercial privé, que nous évoquerons plus loin.

Avant de clore ce paragraphe sur la lexicométrie benzécriste, je cite in extenso la mise en garde d’un de ses pratiquants éclairés: “Les analystes, dans l’intérêt de la discipline, ont intérêt à réfléchir aux fondements de leurs pratiques, afin d’éviter qu’une fois encore les méthodes issues des travaux séminaux de Benzécri ne se dévoient dans une ivresse technique et logicielle, et donnent lieu à des interprétations hâtives ou incorrectes qui feraient noyer le bébé avec l’eau du bain” (Lahlou, 1995, page 227).

Le courant classique d’Analyse de Contenu Thématique.

En contrepoint, on peut signaler d’autres logiciels d’analyse textuelle qui, tout en faisant parfois appel à certains calculs lexicométriques, d’une part attribuent aux lexèmes des catégories syntaxiques ou “socio-sémantiques” pertinentes pour la recherche, et d’autre part préfèrent aux calculs de décomposition factorielle ou de classification automatique, caractéristique dominante de la statistique textuelle française, d’autres types d’analyse multidimensionnelle en rapport direct avec les hypothèses de recherche (notamment arborescences d’inspiration booléenne):

– la méthode de “catégorisation socio-sémantique” et le logiciel québécois SATO [N] (légèrement connu en France grâce à de vieilles complicités franco-québécoises), dont nos collègues Duchastel et Armony (1996) ont exposé les postulats, la méthodologie et le bilan dans leur contribution au Trend Report de Current Sociology. Le compte-rendu d’une enquête française par entretiens semi-directifs, paru dans le B.M.S. (Dendani, 1994), décrit bien les procédures mises en oeuvre par le logiciel SATO, assisté de l’analyseur morpho-syntaxique Deredec: à la fois plus flexible, grâce à des indexations lexico-syntaxiques semi-automatiques (attribution de “valeurs de propriété” en contexte), ou à des désambiguïsations manuelles, et plus congruent avec les problématiques sociologiques, SATO fournit par exemple des lexiques de mots (formes nominales et adjectives seulement) catégorisés et “qualifiés par la syntaxe” avec, par exemple, des indices de thématisation et de détermination – par “catégorie d’acteur” dans différents sous-corpus. S’il est vrai que ces résultats accroissent le potentiel d’interprétations sociologiques dans ce type de corpus particulier (38 entretiens individuels), il est possible que l’application de SATO-DEREDEC à des corpus beaucoup plus longs ou plus hétérogènes poserait des problèmes pratiques d’un autre ordre. Nous souhaitons seulement indiquer par cette évocation qu’il est possible de combiner efficacement un intérêt pour le “contenu sémantique” des discours sociaux, en référence à des problématiques sociologiques préalablement identifiées et à des grilles de catégories construites “à la main”, avec une “stratégie heuristique (et dynamique) de fouilles ciblées”, selon des procédures de va-et-vient interactif quasi-expérimentales entre grilles de catégorisation et texte. Ces procédures peuvent faire appel à toutes sortes d’inventaires, corrections, vérifications, spécifications, y compris en démultipliant les catégories de sens et d’usage d’une même notion-clé (Bourque et Duchastel, 1995). Au point qu’on parle là-bas d’analyseur statistique au service d’un traitement socio-sémantique, et non d’analyseur syntaxique ou sémantique au service d’un traitement statistique.

– pratiquant une méthode de “segmentation et classification” des corpus d’entretiens semi-directifs, les logiciels AC2 et Alice [O] reposent sur les mêmes postulats que le précédent, mais en prenant comme unités d’analyse des séquences de mots de longueur indéterminée – après lecture – et pas seulement des mots isolés ou des groupes nominaux. Priorité est donnée à l’élaboration “manuelle” d’une grille d’analyse des contenus thématiques, en fonction du cadre théorique de l’enquête, et si on recourt à des traitements statistiques “automatiques” ce n’est d’abord que pour mesurer l’extension empirique des catégories établies a priori, puis pour valider des hypothèses concernant le sytème des relations qui en font une organisation structurée. Il s’agit là typiquement, d’une part, de ce qu’on appelle parfois une démarche “intuitionniste”, passant les prénotions des chercheurs au crible d’une auto-critique collective, au lieu de les éliminer a priori (Jenny, 1983, déjà cité), et d’autre part, d’une démarche “discursiviste”, intégrant le contexte socio-énonciatif. Ainsi, dans le cas d’une étude récemment publiée sur les représentations du handicap, exprimées en référence à la question initiale très ouverte “Qu’est-ce que le handicap pour vous ?” (Giami et al., déjà cité, 1995), c’est la problématisation préalable des notions de représentation et de handicap qui a conduit à constituer un échantillonnage précis de locuteurs contrastés (7 parents de handicapés, 8 professionnels, 8 non concernés), à construire une grille d’analyse à facettes comportant des catégories thématiques (“de quoi/de qui parle-t-on ?”), des modalités fonctionnelles (“comment en parle-t-on ?”), des processus d’énonciation (“qui fait-on parler ?”). Quant aux logiciels AC2 et Alice, venant après des opérations de mise en forme textuelle et de tri simple confiées à des logiciels de bureautique généralistes (FileMaker et Excel), ils procèdent à la segmentation du corpus en “unités de signification” (l’équivalent des propositions grammaticales) et à la classification de ces unités selon cette grille d’analyse ; puis, à l’aide d’un algorithme d’analyse discriminante pas-à-pas, il calcule l”arbre hiérarchique” de classification, ou “arbre de décision”, dans l’optique à la mode du “data mining” (extraction de l’information, “fouilles ciblées”) dans chacun des trois sous-groupes – avec possibilité d'”élaguer” les branches de l’arbre à partir de certains seuils de discrimination. L’organisation arborescente des configurations de variables peut être présentée graphiquement dans le sens habituel (des variables indépendantes vers les dépendantes) mais aussi dans le sens inverse, ou bien encore subir des modifications par permutation des rangs de combinaison, pour multiplier les points de vue dans l’analyse des résultats.

On a vu dans le paragraphe précédent que les données empiriques brutes de cette recherche ont été ensuite soumises par une partie de ces mêmes auteurs à l’analyse automatique de type lexicométrique des logiciels Hyperbase et Alceste à des fins de comparaison méthodologique (Lavigne et Scelles, 1997). La principale conclusion qui se dégage de ce bilan est qu’il s’agit bien de méthodes, et d’outils, complémentaires. Il se confirmerait que la préconnaissance du corpus, telle que produite par la première analyse de contenu thématique dirigée (sans parler de la familiarité théorique et empirique – sur laquelle les auteurs restent discrets – avec le domaine considéré, ici le monde de l’enfance handicapée) constitue un atout irremplaçable pour l’interprétation des résultats produits par les analyses lexicométriques automatiques ; mais que, en revanche, les capacités d’exploration systématique ultra-rapide du corpus, si elles sont exploitées intelligemment et honnêtement, permettent de contrôler la subjectivité de l’interprétation – par recours à des hypothèses contradictoires, à des points de vue multipliés, à des lectures affinées. Bref, ni fascination par l’informatique tout-automatique ni prétention à l’absolue supériorité de l'”intuition” humaine, mais le bon sens de l’étayage et de la fécondation réciproques de l’une par l’autre, et la prudence du recours à des procédures “aveugles” (sans nécessité de lecture préalable) comme garde-fous comparables aux procédures de contrôle expérimental dites précisément “en aveugle” en d’autres domaines scientifiques.

D’autres logiciels d’analyse de contenu thématique sont récemment apparus, qui informatisent les procédures classiques usuelles, dites manuelles, de la codification a posteriori par découpage, tri, comptage et classement des “unités de sens” contenues dans les corpus. Ainsi, par exemple, les récents modules Interviews du logiciel Modalisa [P] ou Lexica du logiciel Sphinx [Q], ou le logiciel non diffusé de la sociologue Edna Aiva, Tritheme, déjà cité. On en reparlera au paragraphe des applications spécifiques d’analyse d’enquêtes, car c’est le plus souvent leur principal, sinon unique, domaine d’application. Ce qui distingue ces logiciels de ceux des autres types ici inventoriés, c’est qu’ils exigent des chercheurs une lecture informée du corpus et qu’ils leur confient le soin de marquer (comme au “Stabilo” en mode manuel) et de coder les éléments textuels (sans contrainte de longueur ou de catégorie morpho-syntaxique) auxquels ils attribuent telle et/ou telle signification par rapport à la problématique de leur recherche.

Au demeurant, d’après ce qu’on en sait (par ex. Mangabeira, 1996), la plupart des grands logiciels étrangers de type ‘CAQDAS’ font partie de cette catégorie d’outils classiques, qu’on pourrait qualifier de “sémio-graphiques”, voire “sémio-métriques”, par opposition aux outils “lexico-graphiques” ou “lexico-métriques”. Mais la tendance récente de l’évolution des logiciels français semble être de combiner ces deux types d’approche – disons plutôt fréquentiste-automatique et lexicale d’une part, et plutôt intuitionniste-raisonnée et sémantique d’autre part – et d’introduire de l’interactivité dans la dynamique de l’analyse. Cette tendance pourrait être renforcée par le rapprochement en cours des méthodes d'”analyse des données à la française” (c’est-à-dire benzécristes) et des méthodes statistiques anglo-saxonnes: l’accord commercial que viennent de sceller les deux grands concepteurs de logiciels que sont la filiale française de la société SPSS de Chicago et le CISIA, diffuseur de SPAD, en constitue un symbole significatif.

Autre événement significatif, et combien plus fécond encore sur le plan théorico-méthodologique, le projet d’intégration des quatre phases de la “chaîne d’analyse et de lecture de textes” dénommé L.A.T.A.O. (Lecture et Analyse de Textes Assistées par Ordinateur) par son auteur Jean-Guy Meunier, du L.A.C.I. (Laboratoire d’Analyse Cognitive d’Information) de l’Université du Québec à Montréal (Seffah et Meunier, 1995). Conçu sur le modèle d’une “philologie électronique”, à l’instar de l'”herméneutique matérielle” de (Rastier, 1987), il élabore une plate-forme informatique, dénommée ALADIN (Atelier pour la Lecture et l’Analyse d’INformations), capable de supporter les processus cognitifs humains impliqués dans les opérations d’analyse et de lecture de textes ; lesquels processus sont faits d'”allers et retours au fur et à mesure de la pénétration du texte par les lecteurs-analystes” – qui ne sont pas une catégorie homogène mais des utilisateurs-interprètes aux objectifs différents et spécifiques. Non pas nouveau “super-logiciel”, encore moins robot analyste-lecteur, mais atelier de génie logiciel intégré, la maquette actuelle d’ALADIN se propose de coordonner le maximum de logiciels déjà existants comme autant d’outils articulés autour d’une ou plusieurs bases de données – qui sont les référentiels – selon l’approche de modélisation informatique dite “orientée objets”. Si nous nous permettons d’héberger cet ambitieux projet de l’étranger Jean-Guy Meunier dans notre bilan national, ce n’est pas tant parce qu’il est francophone que parce qu’il a participé activement et depuis longtemps, depuis l’aventure de Michel Pecheux, à plusieurs des opérations décrites ici, tant en France qu’au Québec.

L’analyse automatique des Réseaux de Mots Associés, au contact des paradigmes des représentations sociales (psychologie sociale) et des réseaux (sociologie)

Le courant des analyses en termes de “Réseaux de Mots Associés” (R.M.A.) vise à restituer, à “re-présenter” des configurations cognitives, considérées comme cachées sous la surface textuelle. Pour reprendre les expressions Saussuriennes classiques de l’analyse grammaticale, telles que R. Barthes nous les rappelle (Barthes, 1964, p. 131-132), tout langage est un système de termes articulés selon deux axes interconnectés, “correspondant à deux formes d’activité mentale” complémentaires, à savoir le plan des syntagmes (la chaîne parlée, que l’analyse découpe en groupes morphosyntaxiques) et le plan des associations (les mondes d’objets, associés et mémorisés, que l’analyse classe en systèmes catégoriels) – qu’on appelle maintenant l’axe systématique ou paradigmatique. Comme l’approche lexicométrique, le courant d’analyse des R.M.A. fait donc pratiquement abstraction de l’axe syntagmatique pour se concentrer sur l’axe systématique, qui est lui-même congruent avec la problématique des Re-présentations. Mais les deux conceptions – fréquentiste et “intuitionniste” – sont là aussi également possibles, selon qu’on confie l’élaboration de ces réseaux soit au “calcul informatique” des relations de proximité attestées entre les termes lexicaux du corpus, soit à l’expertise explicite et formalisée des dictionnaires usuels (compétents dans la connaissance ordinaire et partagée des univers référentiels), ou des sociologues-enquêteurs (qualifiés pour leur connaissance “savante”), soit encore à l’expertise explicite et “naïve” des enquêté(e)s eux/elles-mêmes (sollicité/e/s de répondre à des questions d’évocation: “qu’évoque pour vous telle mot, telle notion…?”).

Alors que le concept de Représentation Sociale est plus ou moins remis en question dans les courants socio-énonciatifs ou “discursivistes”, il n’en continue pas moins sa carrière, principalement au sein de la psychologie sociale et de la sociologie “classique”, ce qui témoigne de l’éclectisme des conceptions théoriques et des usages méthodologiques dans la recherche française contemporaine. Un ouvrage récent d’épistémologie théorico-méthodologique, préfacé par le sociologue P. Bourdieu, vient même de justifier l’usage systématique des méthodes d’Analyse Factorielle de type benzécriste et de quelques autres méthodes statistiques plus classiques, comme étant les mieux adaptées à l’analyse des représentations sociales: s’il y a, en effet, congruence entre ces méthodes d’analyse “fréquentiste” et une certaine conception “naturaliste”, voire substantialiste, de l’expression langagière de la réalité sociale, on peut se demander comment elles peuvent être adaptées, aussi, à une conception “discursiviste” des constructions énonciatives de cette même (?) réalité sociale. Sur les douze chapîtres de cet ouvrage, seul le dernier fait appel à des données textuelles: il s’agit de deux questions ouvertes posées à deux échantillons comparés, et la méthode d’analyse lexicale utilisée consiste en un commentaire des projections des deux premiers facteurs de l’Analyse Factorielle des Correspondances (Doise, Clemence et Lorenzi-Cioldi, 1992). Le logiciel lexicométrique SPAD-T, habituellement utilisé aussi comme aide au codage des questions ouvertes, ne sert ici qu’à dresser des “cartographies” de mots associés – supposées “objectiver” des types de représentation sociale, et en montrer les “principes organisateurs” et les “ancrages sociaux”, selon les termes mêmes de la théorie proclamée. Des programmes informatiques sont en cours de réalisation, à partir des travaux et des projets de recherche de psycho-sociologues tels que Marc Glady et Pierre Vergès (Glady, 1986, Vergès, 1992, 1996) autrefois regroupés dans un laboratoire lyonnais de socio-pédagogie économique, auxquels sont associés des sociologues comme A. Degenne et le logicien J.B. Grize, notamment. Ces recherches se réfèrent conjointement aux travaux français de psychosociologie des représentations sociales (Moscovici, Jodelet, Ackermann, Herzlich, Flament,..) et à des travaux de sociologie cognitive. Les présupposés et les enjeux théoriques, ainsi que la méthodologie mise en oeuvre, sont très bien résumés dans les articles cités de M. Glady et de P. Vergès: l’objectif commun est de construire les configurations notionnelles liées à un ou plusieurs thèmes, mais les énoncés des questions sont différents, selon leur degré de directivité, chez ces deux auteurs. Pour M. Glady, c’est l’enquêté(e) qui doit “relier par une flèche les mots (une douzaine, extraits par exemple du vocabulaire économique, disposés en cercle sur une feuille de papier) qui sont, selon vous, le plus en relation” de manière à construire des associations graphiques. Pour P. Vergès, au contraire, l’enquêteur(trice) se contente d’enregistrer les réponses données à une question ouverte d’évocation, du genre “Quels mots ou expressions vous viennent à l’esprit quand vous pensez au mot (par exemple: “Argent”) ?” suivie des consignes “donner au moins 4 réponses” et “souligner les 2 qui vous paraissent les plus importantes” ; avec l’hypothèse forte que ces “scripts cognitifs” se structurent autour de “mots organisateurs” et d’un “noyau central des représentations sociales”, et avec une méthodologie originale d’analyse lexicographique – combinant deux critères de “prototypicalité”, à savoir la fréquence d’apparition des termes déclarés et le rang de leur apparition dans la séquence des réponses. Des programmes de traitement informatique sont en cours de développement, que je propose d’appeler Evocation [R].

Ces problématiques d’analyse en termes de “mots associés” produits par des questions plus ou moins directives ne retiendront pas davantage notre attention ici, car elles ne sont pas suffisamment représentatives des travaux qualifiés généralement d’analyse textuelle “qualitative”. Y a-t-il, d’ailleurs, une grande différence de nature entre des listes, plus ou moins finies, de verbes et de noms substantifs et adjectifs, d’une part, et des nomenclatures de caractères codés, d’autre part ? De même, les recherches en méthodologie documentaire contestent de plus en plus la pertinence des seuls “mots-clés descripteurs” pour les S.R.I., ou Systèmes de Recherche d’Informations. Ainsi, par exemple, D. Puget (Puget, 1994) qui propose un modèle formel de représentation des connaissances en termes de “graphes syntaxiques”, inspirés de la théorie des graphes conceptuels de J.F. Sowa (Sowa, 1992).

Un autre courant d’analyse des “réseaux de mots associés” s’est développé parallèlement au précédent, et sans interférence apparente avec lui. Parti des préoccupations documentaires d’indexation de la littérature scientifique et technique, il regroupait à ses débuts des sociologues du CSI (Centre de Sociologie des Innovations, CNRS-Ecole Nationale Supérieure des Mines) et des chercheurs ou ingénieurs du CDST (Centre de Documentation Scientifique et Technique, CNRS) et a d’abord réalisé des logiciels d’aide à l’indexation et à l’interrogation de bases de données bibliographiques: Lexinet puis Leximappe, qui transforme en un graphe valué de mots associés la liste des mots pertinents (noms et verbes substantivés, sélectionnés “à la main”) co-occurrents dans chaque segment ou phrase (Courtial et Juan, 1986, Courtial, Degenne et Juan, 1990). Puis, dans le cadre de la problématique des réseaux d’innovations scientifiques et techniques, G. Teil a greffé sur Leximappe un outil de S.A.O. (“Sociologie Assistée par Ordinateur”) pour l’analyse quali-quantitative de gros corpus textuels, qui concilie un minimum de précodage nécessaire au traitement informatique et un minimum de structuration a priori des textes (Teil, 1991). Le nom donné à ce logiciel est Candide [S], avec la même signification d'”ingénuité” que celui de son cousin australien Nudist et dans un rang intermédiaire sur une échelle de “précontrainte sociologique” entre les logiciels lexicométriques (Alceste, Lexico-1) d’une part, et les logiciels armés de systèmes-experts comme ceux qu’on évoquera plus loin (tel son contemporain Prothèse), d’autre part. Centrée au départ sur des problèmes spécifiques de “diffusion – négociation – rupture épistémologique” dans le domaine particulier de la production de connaissances technico-scientifiques et selon la modalité sociale privilégiée des stratégies de “réseaux d’acteurs”, cette réalisation était destinée à des ensembles de matériaux textuels hétérogènes (observations directes, procès-verbaux de réunions, documents publiés, articles de presse, entretiens non directifs ou semi-directifs, etc…) qui sont sensiblement de même nature que ceux de nombreux autres domaines de recherche sociologique: prolifération d’acteurs-locuteurs, hétérogénéité des logiques d’action et des rythmes temporels, et surtout très grande taille du corpus à traiter. D’où sa propension à fonctionner aussi au-delà de son domaine initial des réseaux socio-techniques (par ex. sur un corpus de 38000 commentaires de “description du goût de fromage”: Teil, 1994). Sans entrer dans le détail des procédures de traitement et d’analyse, on peut dire que la principale originalité de ce programme, par rapport à tous les précédents, c’est sans doute de définir les “acteurs/actants” précisément par leur “profil d’association”, c’est-à-dire la liste des mots auxquels ils sont associés (Latour, 1984) et de définir le contenu textuel comme “le réseau des associations opérées par le texte entre les acteurs qu’il met en scène” (Teil, 1991, p. 215). Système dynamique (chaque acteur créant ou détruisant des relations avec d’autres acteurs, les réseaux se transforment sans cesse) et système ouvert (à tout nouvel acteur, controverse, consensus ou conflit), la “machine de Hume” qui s’élabore ainsi n’est plus très éloignée de l’I.A. (Intelligence Artificielle) et des S.E. (Systèmes-Experts) dont elle a tenu à se démarquer à l’origine.

Essayons de mieux cerner quelques différences de conception entre ce logiciel Candide et d’autres types de logiciels. Par exemple, dans l’annexe à un document de l’INRA (Institut National de la Recherche Agronomique) (Teil, 1994):

– page 35, on constate les effets de l'”indexation standard”, qui privilégie les acteurs sur l’action, les noms sur les verbes (contrairement au logiciel APD, décrit plus loin, par ex.): l’analyse de la Genèse Biblique montre bien la présence simultanée de Dieu et de certains éléments naturels, mais ni la relation Créer ni le processus Création n’apparaissent ! N’est-ce pas pourtant l’intention de la Bible de nous persuader que le monde a été CRÉÉ ?

– page 37 (note 6), lorsque le narrateur “commente” son récit en faisant irruption dans le texte (“il y eut un soir, il y eut un matin…”), Candide rompt la chaîne des associations et crée un graphe séparé: les discursivistes peuvent-ils se contenter de ce mode de traitement de la “prise en charge” dans le processus d’énonciation ?

– page 38 (note 7): la liaison possible rareté = richesse de signification est bien reconnue, conformément à la théorie de l’information, mais Candide n’en élimine pas moins systématiquement les occurrences d’associations “rares donc marginales”.

– page 39 (graphe): on confirme la préférence donnée au Thème par rapport au Rhème, et l’absence de toute valuation autre que la fréquence des associations: d’autres logiciels comme Lidia ou Coconet, dont on parlera plus loin, insistent au contraire sur l’analyse des valeurs (positives, négatives ou neutres) attribuées par les locuteurs aux “objets” de leur discours, explicitement ou non.

– page 42: comme ce sont les usages des mots dans le corpus, autrement dit leur “profil d’association”, qui constituent leur définition – comme dans la tradition des “concordanciers” – on peut repérer certains termes qui changent de signification selon le contexte. Ce résultat d’analyse, très intéressant, a déjà été mentionné à propos du logiciel québécois SATO (Bourque et Duchastel, 1995) et s’oppose aux effets pervers des indexations non contrôlées, comme ceux que peut produire le logiciel Tropes par exemple, en faisant appel à un dictionnaire de référence a priori pour catégoriser les domaines thématiques de tous les mots.

Les courants d’analyse propositionnelle et prédicative du discours, au contact des paradigmes cognitivo-discursifs de la psycholinguistique

En réaction aux effets incontrôlés des méthodes classiques d’ ACT (Analyse de Contenu Thématique), “qui n’ont pas su trouver la théorie de leur pratique”, un groupe important de psychologues, regroupés au sein du GRP (Groupe de Recherche sur la Parole, CNRS-Université de Paris VIII, UFR de Psychologie) autour de R. Ghiglione (1991), élabore progressivement une méthodologie originale d’analyse, appelée cognitivo-discursive (Ghiglione, Kekenbosch et Landré, 1995), qui articule deux méthodes :

– l’A.P.D. (Analyse Propositionnelle du Discours), qui traite le langage en termes d'”opérateurs cognitifs”, ou traces langagières des constructions de leurs (micro-)mondes par les locuteurs: elle porte sur la mise en scène des référents centraux du corpus, sur les liens interpropositionnels et sur la prise en charge de l’énoncé par les co-énonciateurs – en référence aux présupposés sociolinguistiques de l’Analyse de Discours concernant les conditions de production discursive ;

– l’A.P.P. (Analyse Propositionnelle Prédicative), qui porte sur l’inscription des propositions de forme prédicat/argument, et sur la hiérarchisation du texte à partir de macro-propositions – ce qui renvoie aux activités cognitives fondamentales de description sémantique, de mieux en mieux élucidées notamment par les travaux de Kintsch et Van Dijk (1978) et de Kintsch (1988) sur la compréhension-mémorisation-restitution des textes.

L’APD est déjà opérationnelle, avec un logiciel qui porte son nom (APD [T]) et un ouvrage qui expose en détail le cadre conceptuel et les applications de la méthode (Ghiglione et Blanchet, 1991). Elle a déjà servi à décrire le contenu de quelques corpus d’enquêtes psychosociologiques et sociologiques d’une manière “objective, systématique et quantitative”. Elle retient la proposition grammaticale (avec un verbe) comme unité d’analyse et procède à une typologie des éléments langagiers dont l’agencement fait sens, en dévoilant les univers représentationnels de référence du texte: RN (Référents-Noyaux, substantifs ou pronoms) dits aussi NG (Noyaux Générateurs), dont un a le statut prééminent de NGR (NG de la Référence) “proposé par le discours”, verbes (factifs, statifs, déclaratifs), et opérateurs argumentatifs (modalisateurs et connecteurs). Dans sa dernière version, cette analyse identifie aussi les termes placés en position d'”acteurs” (actants ou actés), puis les Modèles Argumentatifs (MA) décrivant chaque proposition en formules abstraites de “matrice événementielle”.

Quant à l’APP, elle traduit le texte en relations prédicatives du genre “que dit-on à propos de quoi ?” – ce qui correspond aux relations entre le “Thème” (de quoi ça parle ?) et le “Rhème” (ce qu’on en dit), constitutives de tout discours, ou entre des Questions (souvent très implicites) et des Réponses, et ce qui repose sur les trois principaux éléments grammaticaux: nom, adjectif et verbe. Elle procède également à la hiérarchisation des propositions, depuis la proposition topique, de niveau zéro – qui est perçue comme la plus importante – jusqu’à celles de niveaux subséquents qui conservent au moins un argument commun avec celles du niveau précédent. Enfin, des règles précises de tri et de sélection servent à définir sans ambiguïté la SFS (Structure Fondamentale de Signification), qui regroupe les propositions répondant aux questions (comment ? pourquoi ?) du Noyau Générateur de la Référence, considéré ainsi comme le “coeur de la structure narrative”. On retrouve ici une des hypothèses fortes de la méthode des Réseaux de Mots Associés pratiquée par P. Vergès à partir de questions directives d’évocation (Vergès, 1992, déjà cité), ainsi que, par ailleurs, un des aspects dynamiques importants de la méthode de S.A.O. (Teil, 1991, déjà citée) qui décrit les transformations des réseaux de relations entre acteurs.

Si ces deux types d’analyse concourent à formaliser les procédures de mise en scène langagière des univers référentiels des locuteurs (leurs “micro-mondes”, articulés), il reste à rendre compte à la fois de la logique de cohérence du texte et de la logique de “consistance” du sujet (faire reconnaître sa volonté/désir d’argumenter, par exemple). La méthode synthétique d’ACD (Analyse Cognitivo-Discursive) propose, pour ce faire, un modèle des logiques de construction progressive de tout univers référentiel cohérent, avec la notion de “schéma causal” (ou ligne des causes-conséquences), et des finalités ou intentions de telle mise en scène particulière, avec différents “opérateurs argumentatifs”. Le logiciel documentaire Tropes, dont on parlera plus loin, s’inspire explicitement de cette méthode. Avant de parler des logiciels généralistes d’analyse d’enquêtes sociologiques, nous allons dresser le bilan d’une des utilisations sociologiques connues du logiciel APD – plus souvent utilisé pour des analyses d’entretiens cliniques en contexte thérapeutique.

En prolongement d’une recherche sur le Tribunal pour enfants d’un département de la région parisienne (Léomant, Segond et Sotteau-Léomant, 1995), une analyse de contenu a été effectuée par une chercheuse du GRP (Flouzat, 1995) sur le corpus de 134 attendus de jugement prononcés pour motiver des ordonnances judiciaires au sujet d’enfants de 3 à 21 ans. L’application du logiciel APD à ce corpus a montré l’existence d’un “style de rédaction” spécifique de ce type de document (par rapport à quelles normes générales, ou autres normes particulières ?) chez les 7 juges, et surtout a pu décrire le fonctionnement d’un “modèle discursif d’argumentation” destiné à conduire les justiciables à accepter les conclusions à partir des faits, énoncés ou non. D’autre part, de faibles variations de style et d’argumentation ont été repérées non pas tant entre juges qu’en fonction de l’âge des enfants, à défaut d’autre variable accessible par le logiciel APD: en effet, les auteur(e)s de l’enquête générale regrettent de n’avoir pas pu procéder sans recodage manuel à des analyses classiques de tri croisé sur d’autres variables, car ce logiciel n’est couplé à aucun autre logiciel d’analyse statistique. C’est précisément cette polyvalence que recherchent la plupart des chercheur(e)s en sciences sociales, lorsqu’ils/elles ne sont pas prêt(e)s d’abandonner toute pratique d’analyse “en extension”, c’est-à-dire en termes de répartition numérique. Et c’est pour ceux/celles-là que les logiciels dits généralistes d’analyse d’enquêtes sociologiques étendent leurs fonctionnalités, de plus en plus et de mieux en mieux, au traitement des corpus textuels, à partir de leurs noyaux initiaux qui concernaient exclusivement des informations chiffrées ou codées et des répartitions numériques.

Logiciels généralistes d’analyse d’enquêtes sociologiques comportant des modules d’analyse textuelle. (pour mémoire)

Outre les logiciels Spad-T et Tri-deux, déjà cités dans le cadre des méthodes de lexicométrie factorielle et post-factorielle, et des logiciels Sato et AC2 ou Alice, déjà cités comme autres types d’outils d’analyse textuelle, ou encore certains logiciels d’analyse et recherche documentaire comme Lidia et Tropes dont on parlera plus loin, quelques logiciels de traitement d’enquêtes du secteur commercial français comportent depuis peu des modules d’analyse textuelle. Ces outils, lorsqu’ils ne sont que des aides au post-codage des questions ouvertes, ne traitent les réponses en langage naturel que comme un mode d’expression provisoire dont le destin est d’être réduit le plus tôt possible à la seule forme jugée opérationnelle pour un traitement statistique classique, à savoir l’inscription dans une nomenclature de catégories codées. Citons pour mémoire, parmi ceux dont nous savons qu’ils comportent au minimum la fonction “dictionnaire”, c’est-à-dire un inventaire trié des occurrences avec ou sans indexation de tous les mots (par ordre de fréquence et alphabétique), et qui servent à fermer des questions ouvertes d’enquêtes psychosociologiques ou sociologiques (liste certainement incomplète):

– Charabia, extension du logiciel Eole, développé sur PC.

– Question, développé sur PC, diffusé par la société Grimmer Logiciels, Paris.

– Ethnos, développé sur PC, diffusé par la société Soft-Concept, Lyon.

Quant à Interviews, module d’extension du Logiciel Modalisa, et à Lexica, module d’extension du logiciel Le Sphinx, qui appartiennent aussi à la catégorie des analyses de contenu thématique, ils possèdent plusieurs atouts qui en font probablement deux des plus complets pour des besoins de recherche classiques et des plus souples d’utilisation de leur catégorie, actuellement. Les procédures de préparation du corpus (découper, surligner, commenter, annoter,…), de navigation hypertextuelle, de construction d’index, de consultations lexicales en contexte, correspondent à des modes usuels de lecture efficaces. Les opérations de réduction par lemmatisation, de regroupement thématique, voire d’attribution de propriétés stylistiques, d’encodage péritextuel ou de codage signalétique, de classification multicritère, puis de calcul d’indicateurs lexicaux (par ex. dans Lexica : de banalité, spécificité, taille, intensité, richesse), d’analyse factorielle, peuvent se conduire en souplesse et en finesse, notamment grâce à la possibilité permanente de faire des allers-retours entre l’analyse de contenu et la statistique, et de choisir les segments de texte ou les catégories de locuteurs à traiter séparément ou à comparer (sous forme de tableaux lexicaux). Enfin, étant intégrés et couplés par les fonctions Import-Export avec les principaux logiciels de bureautique généraliste (traitement de texte, gestionnaire de base de données, tableur, et bientôt, pour Lexica, analyseur d’images), il est possible, par exemple, de rapporter tels éléments de l’analyse textuelle à des éléments de contexte situationnel enregistrés ailleurs que dans la base primaire (limitée au volume maximum de 300 Kilo-octets, pour Lexica). Ces logiciels ne se réfèrent à aucun courant théorico-méthodologique précis, sinon par une allusion à la méthode d’APD pour Lexica. C’est sans doute ce qui leur permet d’être aussi polyvalents en matière de types de documents, d’objectifs et de fonctions, et par conséquent de domaines d’application tant en recherche stricto sensu et en recherche documentaire qu’en d’autres domaines professionnels comme le journalisme, la création littéraire, le marketing commercial et politique, l’aide à la décision, la communication et la publicité, etc…

Quelques travaux de recherche ou d’études peuvent déjà témoigner des utilisations de la dernière version de Lexica (Moscarola, 1995, Bachelet et Moscarola, 1995), les publications faisant référence au logiciel Interviews ne m’ayant pas été communiquées. Reste à savoir si les sociologues “discursivistes”, notamment, pourront y puiser les ressources logicielles nécessaires à la mise en oeuvre de leurs exigeantes problématiques, autrement dit si on peut espérer ne pas perdre en subtilité d’analyse discursive ce qu’on pourrait gagner en contrôle de subjectivité, en volume de corpus et en vitesse d’exécution.

Signalons également qu’une des principales applications du logiciel 3AD95, déjà signalé plus haut dans le cadre du courant d’analyse discursiviste, est de contribuer quasi-automatiquement au dépouillement de questionnaires (codage des réponses en langage naturel à des questions ouvertes), et à l’indexation documentaire (mise à jour de thesaurus, extraction terminologique).

On verra d’autre part plus loin, avec les logiciels “dédiés”, qu’aucun outil généraliste ne peut prétendre tout faire du mieux possible. En revanche, dans les meilleurs logiciels à visée documentaire dominante, on retrouve la plupart des fonctions d’analyse textuelle des logiciels généralistes, sauf les fonctions statistiques élaborées, qui requièrent d’autres compétences.

Logiciels d’ingénierie textuelle, à dominante d’audit textuel ou de documentation-communication (pour mémoire)

On assiste également au développement de services commerciaux d'”ingénierie textuelle” et de “sémiométrie”, qui ne se contentent plus d’indexer, sélectionner, voire de résumer automatiquement (Le Roux, Berri, Malrieu et Minel, 1995) de grosses masses documentaires, en fonction de requêtes thématiques spécifiques, mais qui proposent aussi des “audits textuels”, des “aides au diagnostic” à plusieurs niveaux de sens et de valeur, par exemple les logiciels Lidia [U] et Tropes [V], les logiciels documentaires généralistes Spirit, Ask-Sam, Folio-Views, entre autres, et les analyses lexicales des sociétés Sofres et Médiascore (cf. par ex. Moscarola, 1995, déjà cité, Missika, 1995). Les finalités de ces logiciels s’inscrivant dans une logique d’optimisation de la “communication”, leurs analyses accordent généralement une grande importance à l’évaluation (positive ou négative) des messages émis/reçus et aux capacités d’entendement des destinataires, ainsi qu’à la “charge émotionnelle” (au moins autant qu’au contenu informationnel) affectant les discours/messages des clients (ou concurrents): miroirs où se reflètent des images de produits, d’entreprises, de personnages politiques, de programmes électoraux, etc…

Le linguisticiel Lidia s’inspire des philosophes et grammairiens français du XVIIIème siècle (les Encyclopédistes Condillac et du Marsais), de l’économiste Turgot et des travaux récents de la socio-pédagogue Jeanne Blum. Il se compose de plusieurs logiciels spécifiques, articulés autour du système-expert d’analyse syntaxique du langage, nommé du Marsais en l’honneur du célèbre auteur de l’ouvrage de rhétorique classique sur les “Tropes”. Il est présenté comme opérant “une véritable analyse qualitative du texte par sa structure syntaxique”. Bien que les algorithmes en soient tenus secrets, ce qui n’en facilite pas la critique, on connaît les fonctions spécifiques de chacun de ses modules:

* Anagoge distingue quatre niveaux de communication textuelle, dans l’analyse “stratégico-syntaxique”:

– deux “niveaux de fond”, à savoir les concepts en élaboration dans le texte, correspondant aux idées nouvelles à transmettre, et les notions du sens commun auxquelles il y est fait référence (contexte culturel partagé),

– deux niveaux de forme”, à savoir les expressions, exemples et figures de style qui sensibilisent les différents types de lecteurs (connivence, fonction “poétique”) et la rhétorique qui structure et organise la lecture (compréhension, fonction “phatique”).

* Qualitative, utilisé notamment pour dépouiller des entretiens oraux non directifs, dissocie ce dont la personne parle (le thème), ce qu’elle en dit (le “rhème”) et ce qu’elle en pense (la valeur attribuée).

* Concepts, Hiérarchie et Contracte sont des aides à l’indexation documentaire de textes édités, qui extraient les mots et expressions-clés, les hiérarchisent par ordre d’importance et produisent un condensé automatique.

Ce linguisticiel Lidia est présenté dans un article (Timbal-Duclaux, 1989) qui rappelle l’étymologie commune des mots Texte et Textile, à savoir que le “tissage d’un texte” entrecroise le syntagme (fil de chaîne) et le paradigme (fil de trame).

Le logiciel Tropes porte le nom de l’ouvrage de rhétorique qui a inspiré le linguisticiel Lidia ci-dessus. Il se réfère explicitement aux travaux de plusieurs laboratoires universitaires français et italiens, dont le GRP de Rodolphe Ghiglione qui a conçu la méthode et le logiciel APD (Ghiglione et Blanchet, 1991, déjà cités) et plus récemment la méthode ACD (Ghiglione, Kekenbosch et Landré, 1995, déjà cités) et le CAD (Centre d’Analyse du Discours) de l’Université Paris XIII (Charaudeau, 1995). Il propose des applications assez sophistiquées, tant en version documentaire qu’en version analyse textuelle – comme des aides à la désambiguïsation, à l’élaboration du thesaurus, l’indexation automatique des noms et de leurs équivalents conceptuels, la représentation graphique des relations entre univers de référence, des aides à l’interrogation par concepts ou renvois, avec opérateurs booléens. Sa dernière version (mai 1996) permet d’élaborer des réseaux sémantiques personnalisés sur corpus de très grande taille.

Aussi bien Lidia que Tropes produisent des résultats spectaculaires, avec des interfaces graphiques séduisantes. Mais, lorsque leur objectif principal est de fournir des images globales, approximatives et contrastées, de gros corpus de textes écrits, à partir de traitements automatiques de type statistique (c’est-à-dire non personnalisés), il ne faut pas s’étonner si les résultats de détail sont parfois des contre-sens (la marge d’erreurs tolérée sans compromettre la réalité textuelle “moyenne” est évaluée, par exemple, à 20% dans certaines catégorisations automatiques) ou si les corpus hétérogènes, comportant des transcriptions de conversations par exemple, résistent à certains formalismes conçus pour des textes plus normés, ou encore si les occurrences rares sont négligées malgré leur importance potentielle de candidats-descripteurs. De toute façon, de tels logiciels ne semblent précisément pas faits pour enregistrer les innovations langagières, les naissances et décès de concepts, les tournures de phrase et les figures de style imprévisibles, pour détecter des absences d’occurrence symptômatiques, bref: tous les artifices et ruses de notre langue si vivante et si capricieuse – ce qui fait son charme, et le bonheur des discursivistes, sociologues ou non, entre autres !

Ces logiciels et ces pratiques d’ingénierie textuelle à but lucratif ne sont pas, malgré les apparences, hors-champ pour cet article. En effet, ils sont souvent des produits dérivés de la recherche universitaire et on peut présumer qu’ils influenceront en retour les usages de la recherche en sciences sociales, ne serait-ce que comme enjeux d’émulation, après avoir servi de bancs d’essai. On peut également s’attendre à des synergies logicielles, comme celle que viennent de réaliser deux “sociétés-pilotes” d’ingénierie documentaire et linguistique par la fusion de leurs logiciels respectifs: le logiciel documentaire américain sur texte intégral Topic et le logiciel français “analyseur linguistique” Aleth viennent de donner naissance en 1994 à un superbe bébé, bilingue dès le départ, baptisé Topic-Aleth (1995), assisté d’un module d’élaboration de thésaurus et de bases de connaissances, déjà adopté par l’INIST et autres grands comptes français et américains.

Logiciels “dédiés” à des problématiques de recherche particulières, mais susceptibles d’applications extensives – hors de leur domaine initial

Certains des logiciels décrits plus haut sous la rubrique des R.M.A. (Réseaux de Mots Associés) ou celle des ACD (Analyse Cognitivo-Discursive), tels que Candide et Evocation, ou APD, Tropes et Lidia, auraient pu à la rigueur figurer ici mais comme ils ont a priori vocation à traiter des corpus de tout type et de tout domaine thématique – même avec une problématique et des présupposés non consensuels – nous avons préféré ne pas les mélanger avec ceux de cette dernière rubrique. Nous appellerons donc logiciels “dédiés” ceux qui se sont construits initialement autour d’un domaine précis et défini de la sociologie, voire sous contrainte d’un modèle théorique propre au concepteur du logiciel, même s’il s’avère que ce modèle est extensible à toute la discipline sociologique. Certains d’entre eux ont d’ailleurs été conçus et développés en réaction contre la “linguistique computationnelle” dominante en France et autres abus d’une lexicométrie positiviste et réductionniste. Ils représentent, semble-t-il, une voie féconde pour l’avenir de la méthodologie d’analyse textuelle pour sociologues, surtout si l’on parvient un jour à concevoir une sorte de “générateur d’applications” adapté à notre discipline, qui pourrait s’appliquer à peu de frais à plusieurs bases de connaissances et de règles: il ne resterait plus aux sociologues-experts de chaque domaine qu’à élaborer ces bases particulières. Quoi qu’il en soit, et conscient des effets pervers de toute classification unidimensionnelle, nous considérons comme dédiés les logiciels suivants:

– Civilité [W], conçu par le sociologue Patrick Pharo, dans le cadre de sa recherche sur le “lien civil” et les “actes de civilité”: commandement, obéissance, flatterie, louange, etc…(Pharo, 1992). Ce logiciel utilise des algorithmes d’Intelligence Artificielle, avec règles de production et réseaux d’exclusion sémantique, applicables à une “grammaire des actes civils” construite par extraction de 1400 verbes de la langue française. En présence d’indices comportementaux quelconques, Civilité pose à l’écran des questions ordonnées pour demander à l’utilisateur d’identifier les éventuelles incohérences d’un acte particulier.

– Coconet [X] (COlor COnceptual NETworks), conçu par le sociologue Jean-Pierre Malrieu (Malrieu, 1995, 1996), dans le cadre d’une recherche sur le degré de cohérence (ou de “dissonance axio-cognitive”) des discours avec les idéologies qui les inspirent – les idéologies étant définies comme ensembles de valeurs associées à des types d’énoncés. La problématique de cette recherche exploite certains travaux de sémantique (notamment, Rastier, 1987 et Sowa, 1992, déjà cités) pour un projet sociologique structuré et focalisé. On y retrouve des traces de courants méthodologiques décrits sous d’autres rubriques et l’équivalent d’ “objets” construits dans d’autres cadres conceptuels (par ex. les G.S.D. ou Graphes Sémantiques Dynamiques n’ont-ils pas un air de famille avec les R.M.A. ?) ; mais, intégrés ici dans l’énoncé d’un paradigme (disons “socio-idéo-cognitif”) validable sans conteste au moins dans l’univers des discours politiques, ils peuvent profiter en retour à d’autres secteurs de l’analyse sociologique du discours. La principale contribution théorique de cet apport est d’ailleurs bien identifiée par l’auteur: il s’agit de la prise en compte de la catégorie sémantique, fondamentale mais négligée (sauf par quelques auteurs-concepteurs comme ceux, déjà cités, du logiciel documentaire Lidia), qu’est l’évaluation, ainsi que des “effets évaluatifs” repérables dans tout discours.

– Prothèse [Y], conçu depuis 1987 par le sociologue Francis Chateauraynaud et l’informaticien Jean-Pierre Charriau, dans le cadre de recherches sur les controverses d’experts et conflits de responsabilité, à propos de fautes professionnelles (Chateauraynaud, 1991), se légitime par des attendus épistémologiques et théoriques de portée très générale. Par exemple, un article (Chateauraynaud et Charriau, 1992), conclut pertinemment que “la sociologie peut intervenir dans les débats méthodologiques sur les instruments de connaissance en permettant la prise en compte de modes d’exploration, de raisonnement et de preuve proprement sociologiques jusqu’alors ignorés par les spécialistes de la cognition”. Tel est bien l’enjeu, en effet, comme pour la plupart des logiciels décrits dans cet inventaire, et ce n’est qu’à l’expérience qu’on pourra décider de la transportabilité de ces applications logicielles au-delà de leur terrain d’origine ou de prédilection. En ce qui concerne Prothèse, la décision est suspendue par défaut puisqu’un autre logiciel vient de le remplacer, sous le nouveau nom de Prospero.

– Prospero [Z] (PROgramme de Sociologie Pragmatique, Expérimentale et Réflexive sur Ordinateur), conçu et développé en prolongement du logiciel précédent, Prothèse, et dans le même cadre d’une sociologie des controverses. Sans rien renier de ses ambitions méthodologiques, il s’ancre plus explicitement encore dans la problématique du déroulement des conflits – qui peut impliquer des transformations de grille de lecture: d’où l’importance accordée dans la méthodologie au processus d’apprentissage dynamique que l’utilisateur doit entreprendre pour “suivre ses dossiers”. Sur la base d’une “représentation” multi-facettes et semi-automatique (avec analyseur d'”attribution de qualités” contrôlée par l’utilisateur) du corpus, le système met en jeu trois formes élémentaires de procédés interprétatifs qui permettent d’identifier les registres discursifs et argumentatifs du texte et même de repérer des éléments absents – une des opérations les plus heuristiques de toute analyse. Plusieurs recherches ont déjà utilisé Prospero pour analyser des “affaires controversées” apparemment très différentes (Chateauraynaud, 1995), et l’installation d’un “moteur d’inférences” ad hoc est en cours, qui profite de l’expérience ainsi accumulée et capitalisée par une association d’utilisateurs très dynamique. pour accéder à un article critique, cliquer sur le lien —> Prospero

Dans ses derniers développements (Chateauraynaud et Charriau, 1995), Prospero semble accéder à un statut de logiciel d’analyse textuelle plus généraliste (il rejoindrait alors la catégorie dénommée, plus haut, des analyses de contenu socio-sémantique) que strictement dédié aux seuls “dossiers de controverses” qui ont suscité sa conception initiale. L’exploration sémantique des textes s’y fonde sur une grammaire lexico-fonctionnelle de base qui, sans verser dans les méandres compliqués des analyses morphosyntaxiques rigoureuses, “calcule” les combinaisons des six classes d’objets suivantes, reconnues de manière semi-automatique: les “entités” (formes nominales ou “êtres”, ou leurs équivalents, y compris “êtres fictifs”), les “épreuves” (formes verbales ou relations, ou leurs équivalents), les “qualités” (formes adjectives ou attributs, ou leurs équivalents), les “marqueurs de modalités” (formes adverbiales, ou leurs équivalents), les nombres et les mots-outils.

– Pat-Miroir [a] (Peur de la trahison de l’autre – Attrait de la coopération – Tentation de trahir) est une modélisation du dilemme stratégique du prisonnier. Conçu par la société Soft-Concept selon un cahier des charges élaboré par une équipe interdisciplinaire de l’UTC (Université de Technologie de Compiègne) dirigée par Gilles Le Cardinal, c’est typiquement un logiciel “dédié”, dans ce sens qu’il est destiné à l’enregistrement et à l’analyse de protocoles de réunions de groupe centrées sur la résolution de problèmes et/ou de conflits et sur la “gestion de la dynamique de la confiance” au sein d’équipes de travail, et qu’il exige une formation spécifique, intégrée à la formation d’animateur de sessions Pat-Miroir. Au cours de ces sessions, chaque participant(e) verbalise ses propres P., A. et T. et sa perception des P., A. et T. de ses partenaires, selon un jeu de miroir destiné à provoquer la décentration de chacun(e). La méthode ne fait explicitement appel à aucune théorie sociologique ou psychosociologique, ni à la sociolinguistique – et l’analyse textuelle se borne à de la plus classique analyse de contenu, avec pour objectif principal de déterminer les “thèmes incontournables” qui bloquent la situation.

Signalons en outre que certains des linguisticiels déjà mentionnés comme assistants dans des applications à la recherche sociologique peuvent être aussi considérés comme des systèmes-experts dans différents domaines de la linguistique, dès lors qu’ils contribuent à décrire des structures langagières pour elles-mêmes. Ainsi par exemple le logiciel 3AD95, déjà cité à propos des méthodes plus centrées sur la forme que sur le contenu, est spécifiquement dédié au calcul formel des distances paraphrastiques entre énoncés discursifs: à ce titre et indépendamment des domaines thématiques couverts par le corpus, il contribue à la connaissance des procédures paraphrastiques elles-mêmes (qui déborde du cadre du présent inventaire).

_____________________________________________________________

EN GUISE DE CONCLUSION

Le paysage de l’analyse textuelle française semble aussi varié et diversifié que nos paysages, nos vins et nos fromages ; aussi compartimenté que nos vieux cantons ruraux ; aussi séduisant par certains côtés que notre langue chérie ! Ce bilan n’a rien d’exhaustif, malgré tous nos efforts pour qu’il ne laisse rien dans l’ombre et ne ressemble pas à un palmarès. Nous avons essayé de comprendre et faire connaître les logiques, parfois discrètes, qui font marcher tous ces merveilleux outils logiciels ; de garder la tête froide devant les promesses mirifiques de la lecture tout-automatique ; de profiter des avantages probables du décryptage en code ASCII à 1 Mégabyte/seconde tout en conservant les plaisirs certains de la lecture avec le coeur et la raison à 1 page/minute. Aurions-nous seulement réussi à nous persuader nous-mêmes, et quelques autres avec, qu’un brin de coopération inter-disciplines, inter-nations, inter-courants, enrichirait considérablement nos pratiques et nos savoirs-faires sociologiques, nous en serions vraiment comblés.

Il ne nous reste plus, à présent, qu’à attendre ou à hâter le mûrissement de ces fruits de l’intelligence, plus humaine qu’artificielle, déposés dans les disques durs de nos ordinateurs sur nos tables de travail, et qui nous renvoient dans l’oeil les routines de programmes pas toujours stimulantes que d’autres y ont écrites. Et si on pouvait devenir plus performants, et surtout plus conscients de ce que ces programmes nous font faire, en continuant d’échanger nos questions – plus encore que nos pseudo-réponses ?

_____________________________________________________________

Jacques JENNY – Chercheur en Sociologie au CNRS

GEDISST, IRESCO – 59 Rue Pouchet, 75017 PARIS – France

Tél. 016948 1913 – Mob. 06 0852 2742 – Mél. jacquesjenny@aol.com

_____________________________________________________________

ANNEXES

Annexe I – LOGICIELS cités dans le texte (dans l’ordre de citation)

A Discotext 1 est une Base de Données littéraires, extraite de la Base générale Frantext de l’INaLF (Institut National de la Langue Française), elle-même consultable en réseau par Internet: sur CD-ROM, elle comporte une sélection d’environ 300 ouvrages écrits ou publiés par plus de 100 auteurs entre 1827 et 1923. Un logiciel intégré permet d’explorer et interroger ce corpus: fréquences lexicales, citations en contexte, etc… L’intérêt sociologique de cette “base de référence du français littéraire” consiste par exemple à éclairer les usages contemporains de certains mots, locutions, figures de style, etc… dans la perspective de leur histoire et de leurs variations.

B Patate, développé sur PC par Claude Condé, X.N. Luong et Jean-Philippe Massonié, Université de Franche-Comté, Bulletin Surf (2) 1983: 1-19. Nouvelle version, nommée Hyperpatate, développée sur Mac.

C Pistes (Pour une Investigation Systématique des TExteS), développé sur PC par Pierre Muller et édité par le CNDP (Centre National de Documentation Pédagogique): conçu en collaboration avec les chercheurs du laboratoire “Lexicométrie et textes politiques”, dont il transpose la méthodologie, et destiné aux enseignants de littérature du secondaire et du supérieur, il permet de créer et exploiter des banques de données textuelles, sous forme d’exercices à définir en classe.

D Saint-Chef, développé sur PC/DOS par Magit Sekhraoui, auteur d’une Thèse de linguistique sur l’histoire des concordances. Paris, janvier 1996.

E Trithème, développé sur PC/DOS (avec des macro-commandes pour fichiers au format WORD4). Application dans (Aiva, 1993).

F Tri-Deux: Modules Thèmes, Impmot et Tabmot, développés en freeware sur PC par Philippe Cibois (Université d’Amiens). Description de la dernière version dans (Cibois, 1995). Application dans (Cibois, 1985), entre autres.

G Kaleidos, développé en freeware sur PC par Jacques Jenny, en complément du logiciel Sade (Saisie Assitée et Dépouillement d’Enquêtes) coréalisé avec l’Université de Franche-Comté.

H 3AD95 (Approximation de l’Analyse Automatique du Discours), développé en langage C par I. Timimi sur station IBM RISC 6000, avec connexion à l’analyseur morphologique CRISTAL. Version PC-Windows en cours. Description dans (Clavier, Lallich-Boidin, Rouault et Timimi, 1995).

I Spad-T (Système Portable pour l’Analyse des Données Textuelles), module de Spad, développé sur PC et sur Mac par Ludovic Lebart et A. Morineau, et commercialisé par le CISIA. En interfaçant Spad-T avec le module Spad-N (pour type de données Nominales codées), on peut analyser simultanément des questions ouvertes et fermées d’un questionnaire. Description et applications dans (Beaudoin et Lahlou, 1993, Lebart et Salem, 1994, Juin et al., 1994, Guérin-Pace et Garnier, 1995), entre autres.

J Lexico-1, développé sur Mac par André Salem et autres chercheurs du Laboratoire de Lexicologie et Textes politiques (ENS de Saint-Cloud). Description et applications dans (Tournier, 1986, Salem, 1988, Lebart et Salem, 1994), entre autres.

K Alceste, (Analyse Lexicale par Contexte d’un Ensemble de Segments de Texte), développé sur Mac par Max Reinert (Laboratoire de Psychologie de Toulouse) et commercialisé par la société Image, à Toulouse. Description dans (Beaudoin et Lahlou, 1993, Lebart et Salem, 1994) et applications dans (Reinert, 1986, 1990, 1993, Noël-Jorand et al., 1995, Lavigne et Scelles, 1996), entre autres.

L Hyperbase (Logiciel Hypertexte pour le Traitement Documentaire et Statistique des Corpus Textuels), développé sous Hypercard (Mac Intosh) par Etienne Brunet, chercheur à l’INaLF. Description dans (Lebart et Salem, 1994) et applications dans (Juin et al., 1994, Zaffran, 1996, Lavigne et Scelles, 1997), entre autres.

M Sylex fait partie d’un ensemble de plusieurs modules d’ingénierie linguistique, développé sur PC par Patrick Constant, de la société Ingenia-Langage naturel. Il est lui-même une “boîte à outils” composée entre autres d’analyseurs morpho-syntaxiques et morpho-lexicaux et de dictionnaires généraux et spécialisés (réseaux de sémantique structurée) de la langue française et, en cours, des langues anglaise et espagnole.

N Sato (Système d’Analyse de Textes par Ordinateur), développé sur PC par François Daoust, au Centre A.T.O. de l’Université de Québec à Montréal. Il est couplé avec le logiciel Deredec (Dépistage de Relation de Dépendance en Contexte), qui comporte un module d’analyse de la GDSF (Grammaire De Surface du Français) et qui a été développé par Pierre Plante à l’Université du Québec, Montréal, dans les années 1980. Description et application dans (Bourque et Duchastel, in JADT-1995, Dendani, 1994 et Duchastel et Armony, 1996), entre autres.

O AC2, développé sur Mac et sur PC et commercialisé par la société ISOFT, depuis 1991, au prix de 50000 KF.. Description et Application dans (Giami et al., 1995).

Une version allégée, baptisée Alice, développée sur PC/Windows depuis 1996, est proposée au prix de 5000 F en version de base.

P Module Interviews du Logiciel Modalisa, développé sur Mac par la société KYNOS (avec projet de transfert sur PC) et commercialisé au prix de 5000 F. Applications en cours par Dominique Démaret, Claude Fischler et Saadi Lahlou, entre autres.

Q Le Sphinx-Lexica est développé sur PC et Mac par Jean Moscarola, professeur à l’Université de Savoie, Pierre Lagarde, polytechnicien et Yves Baulac, informaticien. La version complète, incorporant l’analyseur syntaxique Sylex, est commercialisée par la société Delta-Soft au prix unitaire de 14800 F. Description dans (Baulac, 1995). Application dans (Moscarola, 1995), entre autres.

R Evocation (nom suggéré), développé sur PC avec deux modules: Analyse Prototypique et Catégorisation sous contraintes. Il peut être demandé à l’auteur, Pierre Vergès. Description et application dans (Vergès, 1996).

S Candide, développé sur Mac par Geneviève Teil, en cours de commercialisation. Description et application dans (Teil, 1991, 1994), entre autres.

T APD, développé sur PC par Rodolphe Ghiglione et Alain Blanchet depuis 1985 et commercialisé par l’équipe “Recherche et développement” du GRP (Groupe de Recherche sur la Parole), Université de Paris VIII. Description et application dans (Ghiglione et Blanchet, 1991, Flouzat, 1995), entre autres.

U Lidia (Linguistique et Intelligence Artificielle) est développé sur PC par Jean-Jacques Lacrampe, informaticien, et Jeanine Gallais-Hamonno, linguiste, mais il n’est pas commercialisé: seuls le sont les services d’analyse textuelle pratiqués sur demande par la société Lidia elle-même. Il s’inspire des grammairiens français du groupe des Encyclopédistes du XVIIIème siècle. Application dans (Timbal-Duclaux, 1989), entre autres.

V Tropes est développé sur PC par Pierre Molette, Ingénieur-Système, directeur de la société ACETIC (Action Etudes Information Communication), et commercialisé à des prix unitaires variant de 10000 F. à 30000 F. selon la version et la quantité. Il s’inspire des recherches cognitivo-discursives en cours au GRP (Groupe de Recherche sur la Parole).

W Civilité a été écrit en langage Le_Lisp sur Mac par Patrick Pharo vers 1990 et n’est plus maintenu en activité. Description et application dans (Pharo, 1992).

X Coconet est développé sur Mac par Jean-Pierre Malrieu. Description et application dans (Malrieu, 1995, 1996).

Y Prothèse est développé sur PC/Windows par Francis Chateauraynaud et Jean-Pierre Charriau, CEE (Centre d’Etudes de l’Emploi), Noisy-le-Grand. Description dans (Chateauraynaud et Charriau, 1992).

Z Prospero est développé sur PC par les mêmes auteurs que Prothèse, et diffusé par l’Association à but non lucratif DOXA au prix de base de 18000 F. HT. Copyright 1994. Description dans (Chateauraynaud et Charriau, 1995) et applications dans (Chateauraynaud, 1995), entre autres.

a Pat-Miroir est développé sur PC par la société Soft-Concept, à Lyon, à l’aide du Générateur d’Applications de son logiciel généraliste Ethnos. Il ne peut être utilisé que dans le cadre de la méthode Pat-Miroir, protégée par un brevet de l’ANVAR.

__________________________________________________________

Annexe II – NOTES BIBLIOGRAPHIQUES

Achard Pierre (1986) Analyse de Discours et sociologie du langage, Langage et Sociéte (37) : 5-53 + bibliographie.

Achard Pierre (1987) On the Methodology of Discourse Analysis and Content Analysis, B.M.S. (13) : 24-32.

Achard Pierre (1987) L’analyse de discours est-elle brevetable ?, Langage et Société (42) décembre : 45-70.

Achard Pierre (1994) Sociologie du langage et analyse d’enquêtes. De l’hypothèse de la rationalité des réponses, Sociétés contemporaines (18/19) juin-septembre : 67-100.

Achard Pierre (1995) Formation discursive, dialogisme et sociologie, Langages (117) mars : 82-95.

Aiva Edna (1993) La liberté d’action et de pensée des professionnels et les contraintes en milieu carcéral. Paris, T.R.A.S.S. : 37-42.

Anger René et Sauvat André (1994) Etude bibliographique sur des méthodes informatiques d’analyse et compréhension des textes. Mémoire de D.E.A. Université de Technologie de Compiègne: 42 p. + Annexes.

Archimag (juin 1994 à octobre 1995) n° 73, 75, 77, 83, 85 et 86.

Armony Victor et Duchastel Jules (1995) La catégorisation socio-sémantique, in JADT 1995, vol. II : 193-200.

Bachelet Catherine et Moscarola Jean (1995) La communication interne: diagnostic par l’analyse du discours des acteurs, in JADT 1995, vol. II : 135-144.

Barthes Roland (1964) Eléments de sémiologie, in Le degré zéro de l’écriture. Paris, Gonthier, 2ème éd. : 79-177.

Battagliola Françoise, Bertaux-Wiame Isabelle, Ferrand Michèle et Imbert Françoise (1993) A propos des biographies: regards croisés sur questionnaires et entretiens, Population (2) : 325-346.

Baudelot Christian (1994) Littératures électroniques. Textes, hypertextes, approches quantitatives des données textuelles, Grande journée d’information, Paris, ENS rue d’Ulm, 30 Novembre. Exposés et/ou démonstrations de logiciels, par Etienne Brunet (INaLF), Christine Ducourtieux (ENS), Daniel Béguin (ENS), André Salem (INaLF), Eric Guichard (ENS) et Michel Gollac (INSEE).

Baulac Yves (1995) Exploration de données textuelles avec Le Sphinx, in JADT 1995, vol. II : 73-80.

Beaudoin Valérie et Lahlou Saadi (1993) L’analyse lexicale : outil d’exploration des représentations, Cahier de recherche du CREDOC (48).

Beaudoin Valérie et Aucouturier Anne-Lise (1995) Histoires d’insertion. Analyse lexicale de 580 récits de parcours de jeunes, Travail et Emploi (65) : 19-38.

Becue Monica et Haeusler Laurence (1995) Vers une post-codification automatique, in JADT (1995) vol. I : 35-42.

Benzécri Jean-Paul et al. (1981) Pratique de l’analyse des données, Tome 3: Linguistique et Lexicologie. Paris, Dunod : 566 p.

Blanchet Alain et al. (1985) L’entretien dans les sciences sociales. L’écoute, la parole et le sens (préface de Max Pagès). Paris, Dunod : 290 p.

Bonnafous Simone et Tournier Maurice (1995) Analyse du discours, lexicométrie, communication et politique, Langages (117) mars : 67-81.

Bourque Gilles et Duchastel Jules (1995) Citoyenneté et identité nationale: une analyse de notions-clés, in JADT 1995, vol. II : 185-192.

Boutet Josiane (1994) Construire le sens. Berne, Peter Lang: 217 p. + bibliographie.

Boutet Josiane, Gardin Bernard et Lacoste Michèle (1995) Discours en situation de travail, Langages (117) mars : 12-31.

On retrouve ces auteur(e)s et d’autres, parmi lesquelles les sociologues Anni Borzeix et Danièle Kergoat, dans un ouvrage collectif dirigé par Josiane Boutet, sous le titre “Paroles au travail”. Paris L’Harmattan, 1995 : 267 p.

Brugidou Mathieu et Le Quéau Pierre (1995) L’analyse des entretiens non-directifs par la méthode des rafales, in JADT 1995, vol. II : 57-64.

Brunet Etienne (1981) Le vocabulaire français de 1789 à nos jours, d’après les données du Trésor de la langue française, Genève-Paris, Slatkine-Champion. Auteur du logiciel de lexicométrie statistique Hyperbase.

Brunet Etienne (1995) Web et la statistique, in JADT 1995, vol. II : p. 83.

Canguilhem Georges (1950) Essai sur quelques problèmes concernant le normal et le pathologique. Strasbourg, Presses Universitaires de Strasbourg, 1950 : 159 p.

Cervoni Jean (1987) L’énonciation. Paris, PUF, coll. Linguistique nouvelle.

Charaudeau Patrick (1995) Une analyse sémiolinguistique du discours, Langages (117) mars : 96-111.

Chateauraynaud Francis (1991) La faute professionnelle. Une sociologie des conflits de responsabilité. Paris, Métaillié.

Chateaureynaud Francis et Charriau Jean-Pierre (1992) Hétérogénèse d’une machine sociologique, Technologies Idéologies Pratiques (X/2-5) : 337-349.

Chateauraynaud Francis (1995) Une vision noire du monde. Céline, le peuple et la critique d’authenticité. Rapport d’enquête non publié : 56 p.

Chateaureynaud Francis et Charriau Jean-Pierre (1995) P.R.O.S.P.E.R.O. le livre de magie. Association Doxa et Centre d’Etudes de l’Emploi, 1995.

Cibois Philippe (1985) Belle-Ile: débat de presse sur un été chaud. Etude par la méthode “synoptique”, Déviance et Société (IX/4) : 313-332.

Cibois Philippe (1995) Tri-Deux, version 2.2 de janvier, B.M.S. (46) mars :119-124.

Clavier Viviane, Lallich-Boidin Geneviève, Rouault Jacques et Timini Ismaïl (1995) Analyse automatique du discours: perspectives 1995, in JADT 1995, vol. I : 163-171.

Constant Patrick (1995) L’analyseur syntaxique SYLEX. Communication à la 5ème Ecole d’été du CNET (Centre National des Télécommunications) : 8 p.

Coulter Jeff (1994) Logique et praxéologie. Esquisse d’une “socio-logique” de la pratique, Sociétés contemporaines (18-19), juin-sptembre : 43-65.

Courtial Jean-Pierre et Juan J. (1986) L’obtention de cartes stratégiques de la recherche scientifique à partir de l’analyse des mots associés dans les fichiers documentaires, B.M.S. (12) octobre : 22-38.

Courtial Jean-Pierre, Degenne Alain et Juan J. (1990) Analyse des mots associés et Analyse de similitude dans les fichiers documentaires, Informatique et sciences humaines (70-71) 15ème année : 95-105.

Culioli Antoine (1991) Pour une linguistique de l’énonciation. Opérations et représentations, Tome 1. Paris, Ophrys : 213 p. + bibliographie et index français et anglais.

En dépit de son vocabulaire ésotérique et de son formalisme rigoureux, cet ouvrage stimule la réflexion bien au-delà de sa discipline propre, sur des phénomènes ou procédures langagiers que nous croyons bien connaître pour les pratiquer sans effort conscient : par exemple, le concept de “notion” et les domaines notionnels avec leurs attracteurs et leur gradient, les opérations de détermination par extraction, fléchage ou parcours, etc… Un sociologue peut-il faire l’économie de cette initiation, sans pour autant devenir pseudo-linguiste ?

Degenne Alain (1986) Des ordinateurs, pour quoi faire ?, Le Courrier du CNRS (65) mai-juillet.

Dejours Christophe (1993) Projet de création d’un D.E.A. au CNAM (Conservatoire National des Arts et Métiers). Paris.

Dendani Mohamed (1994) L’application de la lexicométrie dans une perspective sociologique, B.M.S. (43) : 34-52.

Doise Willem, Clemence Alain et Lorenzi-Cioldi Fabio (1992) Représentations sociales et analyses de données. Grenoble, Presses Universitaires de Grenoble : 246 p. + bibliographie.

Drouard Alain et Jenny Jacques (1986) Quelques usages de la notion de Solidarité dans les textes et les discours sociaux, politiques et scientifiques. Rapport de convention de recherche avec la MIRE (Ministère des Affaires Sociales et de la Solidarité nationale). Paris : 37 p.

Duchastel Jules (1992) La sociologie et l’analyse de texte par ordinateur, Technologies, Idéologies, Pratiques (X/2-4) : 253-264.

Duchastel Jules et Armony Victor (1996) Textual Analysis in Canada: An Interdisciplinary Approach to Qualitative Data, in Current Sociology (44-3) hiver : 259-278.

Ebel Marianne et Fiala Pierre (1983) Sous le consensus, la xénophobie. Paroles, arguments, contextes (1961-1981). Lausanne, Institut de Science politique : 434 p.

Fenoglio Irène (1993) Performatif et jeux avec les mots, in Comptes-rendus des séances du Groupe Analyse du Discours de la revue Langage et Société (1990-1993). Paris, MSH-IRESCO : 44-60

Fenoglio Irène (1996) Question du contexte et événement d’énonciation, SCOLIA (6) : 215-234.

Ferber Jacques (1993) L’intelligence artificielle distribuée, Le Courrier du CNRS (80). Dossiers scientifiques: la recherche en informatique : 87-88.

Ferret Stéphane (1996) Le bateau de Thésée. Le problème de l’identité à travers le temps. Paris, Ed. de Minuit: 139 p. + bibliographie

Fiala Pierre, Boutet Josiane et Ebel Marianne (1982) Relations paraphrastiques et construction sociale du sens. Analyse d’une formule dans les discours xénophobes, Modèles linguistiques (IV/1) : 39-79.

Fiala Pierre (1987) Pour une approche discursive de la phraséologie. Remarques en vrac sur la locutionalité, Langage et Société (42) : 27-44.

Fiala Pierre (1989) Figements et phraséologie. Etat des recherches actuelles, in Courants sociolinguistiques, sous la direction de Gabrielle Drigeard, Pierre Fiala et Maurice Tournier. Paris, Klincksieck, Publications de l’INALF : 137-155.

Fiala Pierre (1994) L’interprétation en lexicométrie. Une approche quantitative des données lexicales, Langue française (103) : 113-122.

Fielding N. G. and M. Lee R.M. eds. (1991) Using Computers in Qualitative Research. London, Sage Publications.

Flouzat Delphine (1995) Analyse des Attendus d’ordonnances de juges pour enfants. Document annexé au rapport d’enquête de Léomant C., Segond P. et Sotteau-Léomant N. : 19 p. + annexes.

Fuchs Catherine (1994) Paraphrase et énonciation. Paris, Ophrys : 174 p. + bibliographie.

Gardin Jean-Claude (1986) Archéologie et calculateurs: vers une archéologie théorique, Le Courrier du CNRS (65) mai-juillet.

Ghiglione Rodolphe et Blanchet Alain (1991) Analyse de contenu et Contenus d’analyse. Paris, Dunod : 129 p. + annexe et bibliographie.

Ghiglione Rodolphe, Kekenbosch Christiane et Landré Agnès (1995) L’analyse cognitivo-discursive. Grenoble, PUG : 139 p.

Giami Alain, Korpès Jean-Louis, Lavigne Chantal et Scelles Régine (1995) Un exemple d’articulation de méthodes d’analyse qualitatives et quantitatives sur des entretiens semi-directifs: les représentations du handicap, B.M.S. (47) : 49-77.

Glady Marc (1986) Les opérations socio-cognitives mobilisées par un questionnaire d’association de mots, B.M.S. (9) janvier : 4-22.

Greimas Algirdas-Julien (1986) Sémantique structurale. Paris, PUF, nouvelle édition.

Grelon André (1978) Interviewer ?, Langage et Société (4) mai : 41-62.

Guérin-Pace France et Garnier Bénédicte (1995) La statistique textuelle pour le traitement simultané de réponses à des questions ouvertes et fermées sur le thème de l’environnement, in JADT 1995, vol. II : 37-44.

Guillaumin Colette (1972) L’idéologie raciste, genèse et langage actuel. Paris-La Haye, Mouton : 248 p.

Hagège Claude (1985) L’homme de paroles. Contribution linguistique aux sciences humaines. Paris, Fayard : 406 p.

Harris Z.S. (1952) Discourse Analysis, Language. Trad. française in Langages (13) 1969 : 8-45.

Huguet Michèle (1971) Les femmes dans les grands ensembles. De la représentation à la mise en scène. Paris, éds. du CNRS : 295 p.

JADT (1995) III Giornate internazionali di Analisi Statistica dei Dati Testuali, sous la direction de Sergio Bolasco, Ludovic Lebart et André Salem, 2 volumes (410 p. et 409 p.). Rome, C.I.S.U., Université “La Sapienza” de Rome et Université de Salerne.

La branche française de cette communauté scientifique très active organise ausssi des écoles d’été, destinées aux sociologues, psychologues, éthologues, ethnologues, professionnels des enquêtes et sondages, de la recherche bio-médicale, du marketing, de la gestion et de la communication, du génie logiciel.

Jalaudin Christophe (1995) Fratagmes. Contribution de la statistique textuelle à l’étude sociologique des fratries, in JADT 1995, vol. II : 387-394.

Jenny Jacques (1981) Proposals for a Descriptive Analysis of Multidimensional Contingency Tables of unarrayed Numerical Distributions, Quality and Quantity, (15-4) août : 365-401.

Jenny Jacques (1983) Les discours sociaux sur “la Jeunesse” dans les années 60: production, circulation, évolution et articulation avec les pratiques sociales et représentations collectives, in la Jeunesse en questions, Orientations de recherche et Sources documentaires, La Documentation française, sous la direction de Jean-Charles Lagrée et Paula Lew-Faï, Paris : 19-44.

Jenny Jacques (1986) Les nouveaux systèmes documentaires, Archimag, (6/7) juillet-octobre : 15-17.

Jenny Jacques (1989) Types homogènes calculés et/ou Classes significatives construites: réflexions épistémologiques sur les modes de traitement de la complexité, in Enquêtes statistiques et Indicateurs de pratiques familiales. Collectif, Paris, CNRS-IRESCO : 67-76.

Jenny Jacques (1995) Rapports sociaux de sexe et autres rapports de dominance sociale: pour une intégration conceptuelle des rapports sociaux fondamentaux, Cahiers du Gedisst (13) : 109-130.

Jenny Jacques (1996) Analyses de contenu et de discours dans la recherche sociologique française: pratiques micro-informatiques actuelles et potentielles. Current Sociology (44-3) hiver : 279-290.

Juin R., Le Saout R. et Roux N. (1994) Essai de lexicométrie informatique : la Manifestation du 1er Mai dans la grande presse nationale, in Communication au Colloque Crises et Métamorphoses ouvrières. Nantes, LERSCO.

Kelle U. ed., Prein G. and Bird K. (1995) Computer-Aided Qualitative Data Analysis. Theory, Methods and Practice. London, Sage Publications: 240 p.

Kergoat Danièle (1995) La reproduction et le changement: place de la parole, in Paroles au travail, Coll. sous la direction de Josiane Boutet. Paris, L’Harmattan : 267 p.

Kintsch W. et Van Dijk T.A. (1978) Toward a Model of text comprehension and production, Psychological Review (85) : 363-384.

Kintsch W. (1988) The role of knowledge in discourse comprehension: a construction-integration model, Psychological Review (95) : 163-182.

Kuckartz Udo (1990) New Developments in Qualitative Computing: Max. A new Program for linking Quality and Quantity, XIIème Congrès Mondial de Sociologie, Madrid, juillet : 14 p.

Lahlou Saadi (1995) L’analyse textuelle dans les enquêtes: point de vue d’un utilisateur, Séminaire de méthodes d’enquêtes de l’INED, Paris, 17 Janvier. Confrontation des résultats produits par les logiciels Spad-T, Alceste et Lexico1.

Lahlou Saadi (1995) Vers une théorie de l’interprétation en analyse statistique des données textuelles, in JADT 1995, vol. I : 221-227.

Lallich-Boidin Geneviève et Rouault Jacques (1995) Coopération statistique-linguistique pour l’analyse textuelle, in JADT 1995, vol. I : 45-54.

Latour Bruno (1984) Les Microbes: guerre et paix – suivi de Irréductions. Paris, Métaillié : 300 p.

Lavigne Chantal et Scelles Régine (1996) Application de deux logiciels d’analyse automatique de données textuelles à l’entretien de recherche en psychologie et à l’étude des représentations, European Journal of Mental Disability, septembre : 20-32 + traduction en anglais.

Lebart Ludovic et Salem André (1994) Statistique textuelle. Paris, Dunod: 282 p. + annexes, glossaire, bibliographie, index.

Lecomte Alain, Léon Jacqueline et Marandin Jean-Marie (1984) Analyse du discours, stratégies de description textuelle, Mots (9) : 142-165.

Leimdorfer François et Tessonneau Alex-Louise (1987) Quelques remarques sur le sociologique et le sociolinguistique dans la revue Langage et Société, Langage et Société (42) décembre : 11-25.

Leimdorfer François (1994) Le pouvoir de nommer et le discours juridique, deux exemples d’acte de parole en droit, Sociétés contemporaines (18-19) juin-septembre : 145-164.

Lemel Yannick (1984) Le sociologue des pratiques du quotidien entre l’approche ethnographique et l’enquête statistique, Economie et Statistiques (168) : 5-11.

Léomant Christian ; Segond Pierre et Sotteau-Léomant Nicole (1995) Le milieu ouvert judiciaire: réalités et représentations. Une recherche-formation dans les Yvelines. Paris-Vaucresson, Eds. du CNRS: 122 p. + annexes.

Le Roux Dominique, Berri Jawad, Malrieu Denise et Minel Jean-Luc (1995) Pour automatiser l’activité résumante: le projet Seraphin, in JADT (1995), vol. I : 345-352.

Lévy André (1983) Organisation et discours, Connexions (39) : 21-45.

Maingueneau Dominique, éd. (1995) Les analyses du discours en France, Langages (117).

Maingueneau Dominique et Cossuta Frédéric (1995) L’analyse des discours constituants, Langages (117) mars : 112-127.

Malrieu Jean-Pierre (1995) La cohérence idéologique des énoncés: une méthode d’estimation. Intellectica (XX-1) : 185-215.

Malrieu Jean-Pierre (1996) From possible worlds to conflicting worlds, a sociological approach to semantics, thèse à l’European University Institute de Florence.

Mangabeira Wilma (1992) O Uso de Computadores na Analise Qualitativa: Uma Nova Tendencia na Pesquisa Sociologica, Boletim Informativo e Bibliografico de Ciencas Sociais (34) 2ème semestre : 83-95.

Mangabeira Wilma (1996), editor, Qualitative Sociology and Computer Programs: Advent and Diffusion of Computer-Assisted Qualitative Data Analysis Software (CAQDAS), Current Sociology (44-3) hiver : 187-321.

Marandin Jean-Marie (1993) Analyseurs syntaxiques. Equivoques et problèmes, T.A.L. vol. 34/1.

Missika Jean-Louis (1995) Chirac, Balladur, Jospin. Leur discours, Télérama (2362) 19 avril.

Moscarola Jean (1995) Balladur, Chirac, Jospin, les mots d’une campagne. Quelques exemples d’analyse lexicale avec Le Sphinx, in JADT (1995), vol. II : 257-264.

Moscovici Serge (1976) La psychanalyse, son image et son public. Paris, PUF, 2ème édition.

Mots, Mots-Ordinateurs-Textes-Sociétés, revue sous-titrée “Travaux de lexicométrie et de lexicologie politique de l’Institut National de la Langue Française” et éditée par les Presses de la FNSP (Fondation Nationale des Sciences Politiques), Paris.

Mucchielli Alex (1994) Les méthodes qualitatives. Paris, P.U.F., coll. Que sais-je ?, 2ème édition : 121 p.

Pécheux Michel (1975) Les vérités de La Palice. Linguistique, sémantique, philosophie. Paris, Maspéro: 270 p. + bibliographie.

Pellegrin Marie-Louise (1993) Représentation et/ou énonciation ? La Psychosociologie, Jean Stoetzel et la “Théorie des Opinions”, Sociétés (41) : 319-326.

Pharo Patrick (1992) Civility before law, Human Studies (15) : 335-359.

Pharo Patrick (1992) Le logiciel Civilité, in Rapport d’activité du CSE (Centre de Sociologie de l’Ethique), CNRS, 1991-1992 : 87-88.

Puget Dominique (1994) L’apport de l’Intelligence Artificielle pour la prise en compte des notions de syntaxe et de sémantique dans les Systèmes de Recherche d’Informations, Bulletin du Centre des Hautes Etudes Documentaires : 33-48.

Quéré Louis (1994) Sociologie et sémantique. Le langage dans l’organisation sociale de l’expérience, Sociétés contemporaines (18-19) juin-septembre : 17-41.

Rastier F. (1987) Sémantique interprétative. Paris, PUF.

Reinert Max (1986) Présentation du logiciel Alceste à l’aide d’un exemple, Psychologie et Éducation (X/2) : 58-72.

Reinert Max (1990) Alceste : une méthodologie d’analyse des données textuelles et une application : Aurélia de G. de Nerval, B.M.S. (26).

Reinert Max (1993) Les “mondes lexicaux” et leur “logique” à travers l’analyse statistique d’un corpus de récits de cauchemars, Langage et Société (66), décembre : 5-39.

Reinert Max (1995) Quelques aspects du choix des unités d’analyse et de leur contrôle dans la méthode Alceste, in JADT (1995), vol. I: 27-34.

Richard-Zapella Jeannine (1995) Colloque international sur le questionnement social, Rouen, 16-17 mars.

Salem André (1988) Approches du temps lexical. Statistique textuelle et séries chronologiques, Mots (17) : 105-143.

Salem André (1995) Les unités lexicométriques, in JADT (1995), vol. I : 19-26.

Seffah Ahmed et Meunier Jean-Guy (1995) ALADIN : un atelier de génie logiciel orienté objets pour l’analyse cognitive de textes, in JADT (1995), vol. II : 105-112.

Sofres éditeur (1990) La sémiométrie au service de vos stratégies de marketing et de communication. Document publicitaire, mai : 25 pages

Sowa J. F. (1992) Conceptual Graphs as a universal knowledge representation, Computers Mathem. Applic. (23/2-5) : 5-93.

T.B.M.S. (1986) Textual-Base Management Systems: Database Power unleashed, P.C. Magazine, 25 novembre : 211-229.

Teil Geneviève (1991) Un outil de Sociologie Assistée par Ordinateur (S.A.O.), in Ces raisons que la raison ignore. Paris, L’Harmattan, coll. Logiques sociales : 211-243.

Teil Geneviève (1994) L’analyse des goûts alimentaires par les réseaux, in Courtial Jean-Pierre et al., Science cognitive et Sociologie des Sciences. Paris, PUF : 148-172.

Teil Geneviève (1994) Le logiciel Candide d’analyse de textes, in Décrire le goût des fromages. Publications INRA, Etudes d’Economie et de Sociologie Rurales (17). Grignon, mars : 31-44.

Terrenoire Jean-Paul (1994) Langage(s) en pratique(s). Introduction au dossier, Sociétés contemporaines (18/19) juin-septembre : 5-13.

Tesnière Lucien (1959) Eléments de syntaxe structurale. Paris, Klincksieck.

Timbal-Duclaux Louis (1989) Les quatre couleurs du texte : la grille d’audit de l’efficacité des textes et des discours, Bulletin d’information de l’ANSULF : la Science en Français, (88/3-4) : 29-54.

Topic-Aleth (1995) L’alliance du texte intégral et du langage naturel, Archimag (88) octobre : p. 32. Ce linguisticiel est disponible en architecture client/serveur sous Unix/PC-Windows, à partir de 100.000F. ht.

Tournier Maurice (1986 ) La lexicométrie socio-politique, Le Courrier du CNRS (65) : 24-32.

d’Unrug Marie-Christine (1974) Analyse de contenu et acte de parole. Paris, éd. Universitaires: 270 p. + bibliographie.

Varro Gabrielle (1994) Analyse de contenu et analyse de discours: à propos du prénom, Sociétés contemporaines (18-19), juin-septembre : 121-144.

Vergès Pierre (1992) L’évocation de l’argent : une méthode pour la définition du noyau central d’une représentation, Bulletin de Psychologie (405) Tome XLV: 203-209

Vergès Pierre (1996) Représentations sociales partagées, périphériques, indifférentes, d’une minorité: méthodes d’approche, Cahiers Internationaux de Psychologie sociale, à paraître.

Vincent Diane (1984) Les ponctuants de la langue, Thèse de Doctorat inédite. Montréal, Université de Montréal.

Vincent Diane (1986) Que fait la sociolinguistique avec l’Analyse du Discours et vice-versa ?, Langage et Société (38) décembre : 7-17.

Wald Paul (1994) Juifs et Hongrois. Constitution discursive des catégories sociales dans un corpus de courrier des lecteurs (Budapest, 1990), Sociétés contemporaines (18-19), juin-septembre : 101-119.

Zaffran Joël (1996) Le projet d’intégration scolaire des enfants déficients à l’école primaire ordinaire et les relations entre les différents partenaires intégrants adultes, Langage et Société. A paraître.

Zysberg André (1986) Impact de l’informatique sur la recherche historique, Le Courrier du CNRS (65) mai-juillet.

________________________________________________

Annexe III – complément de BIBLIOGRAPHIE (2002)

toujours à propos des logiciels d’analyse textuelle pratiqués en France, pour la recherche en sciences sociales. Cliquer ici –> http://jacquesjenny.com/legs-sociologique/?page_id=1889

on peut aussi trouver cette Annexe III, séparément, dans le site Web de la revue B.M.S., à l’adresse précise suivante : http://www.cmh.pro.ens.fr/bms/arcati/BMS54-Jenny-New.htm

-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-

Annexe IV – Suites de cet inventaire critique des logiciels d’analyses textuelles :

le réseau ARCATI, et son impact sur mes paradigmes de recherche

Suite à l’initiative d’un groupe d’étudiantes de l’école doctorale de Toulouse-le Mirail, qui l’avaient diffusé sur Internet, le long article techno-méthodologique publié dans le B.M.S. n° 54 (Mars 1997, p.64-112) – que reproduit ci-dessus la présente page de mon blog – fut à l’origine de la création quasi-spontanée fin 1999 d’un réseau d’échanges d’expériences de recherches faisant appel (ou envisageant de faire appel) à des Analyses Textuelles Informatisées pour leurs recherches sociologiques et/ou psychosociologiques. Bien que je fusse déjà en statut de retraité, donc sans encadrement institutionnel ni moyens financier et matériel (mais avec l’appui du directeur de l’Iresco, qui accepta volontiers d’héberger nos séances de travail collectif), j’acceptai d’en prendre la responsabilité, assisté d’un petit comité d’organisation, composé de parisiens bénévoles ou chômeurs (sans même une vacation).

Une page de mon blog résume l’histoire, courte (2000-2005) mais féconde, de ce séminaire informel qui prit le nom d ‘ARCATI = “Atelier-Réseau Coopératif pour Analyses Textuelles Informatisées”, histoire qu’on peut lire en cliquant sur cette adresse de mon site –> http://jacquesjenny.com/legs-sociologique/?page_id=6

Je suis mal placé pour évaluer les résultats de ces rencontres, sinon en constatant une belle et bonne audience, fidèle et ouverte aux débats. J’ai pu aussi constater avec intérêt que la plupart des différentes “écoles méthodologiques” et “clans logiciels” se risquaient à sortir de leur isolement – y compris les créateurs et supporters des quelques programmes déjà bien implantés. Nous avons veillé à éviter la “dérive techniciste”, c’est-à-dire à dépasser les débats centrés sur les seuls critères de l’apprentissage technique, “faisabilité” et “efficacité” (“ça marche, donc c’est OK !”), en focalisant sur ce qui a toujours été pour moi l’essentiel , à savoir les présupposés (souvent implicites) et les pré-requis de chaque outil logiciel sans oublier les objectifs théoriques des recherches, leurs problématiques et leurs paradigmes fondamentaux, la spécificité des objets de recherche, en l’occurrence ici des “discours” et des “pratiques discursives” … analysés dans leurs contextes sociétaux et historiques …

En ce qui me concerne, cette période de contacts et d’échanges professionnels m’a conforté dans la posture a priori septique à l’égard des méthodes qui dominaient dans les pratiques de recherche en France, à savoir les deux parti-pris lexicométrique et “benzécriste” qui ont l’avantage de la commodité mais qui ne fournissent guère d’assistance à l’interprétation sociologique des résultats.

Et l’occasion m’a été donnée par deux fois (en 2005 et 2013) de préciser les problématiques de recherche (psycho)sociologique que je souhaitais proposer en alternative à la dérive techniciste que je dénonçais dans la plupart des outils (informatiques et statistiques) d’analyse textuelle pratiqués en France, tout d’abord en affirmant mon appartenance à la (psycho)sociologie comme discipline de référence principale. Et c’est tout naturellement en prolongement de mes anciennes propositions théoriques concernant ma recherche sur “le processus de maturation sociale des adolescents et ‘jeunes-adultes’ …” que je définis les “dimensions constitutives fondamentales” selon lesquelles je projette d’analyser la circulation des échanges verbaux de toute communication, de tous rapports sociaux et relations sociales, bref de toute vie sociale.

pour en savoir davantage, cliquer sur ce lien —> http://jacquesjenny.com/legs-sociologique/?page_id=1015

En effet, peu de temps après avoir participé au “sabordage” de notre réseau ARCATI , j’ai été invité par l’I.E.P. (Institut d’Etudes Politiques) de Grenoble à participer aux “Journées Internationales du CAPAS (CAPitalisation et Analyse Secondaire, initiative conjointe franco-britannique) des 3-4 novembre 2005.

J’y ai présenté une communication, à la Maison des Sciences de l’Homme de Grenoble, sous forme d’un Diaporama commenté qui devait être publié dans un ouvrage collectif intitulé “Analyses secondaire en recherche qualitative : enjeux pour les sciences humaines et sociales“, aux Éditions Lavoisier (Paris). Pour d’obscures raisons de conflits d’egos ou de contestation financière (?) cette publication n’a jamais vu le jour.

Le titre de ma communication était un peu provocateur, pour me démarquer du thème officiel de cette rencontre : “Propositions pour impulser un véritable « tournant sociologique » à toute analyse de textes et discours, qu’elle soit « primaire » ou « secondaire » [esprits cartésiens s’abstenir …]”

pour accéder à cette communication, cliquer sur ce lien —> http://jacquesjenny.com/legs-sociologique/?page_id=274

-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-

Une dizaine d’années plus tard, l’occasion m’a été donnée d’exprimer une version plus élaborée de ces paradigmes sociologiques fondamentaux – dans le cadre d’un colloque organisé en hiver 2013 à l’UQAM (Université du Québec à Montréal), auquel je n’ai pas pu participer personnellement (faute de financement pour le voyage) mais seulement déléguer à deux collègues-amis, que je remercie ici volontiers (Elias Rizkallah et Dimitri Della) le soin de présenter oralement ma communication sous le titre suivant :

Propositions théoriques pour une méthode d’analyses sociologiques des discours

laquelle communication fut ensuite publiée dans les Cahiers de RECHERCHE SOCIOLOGIQUE, n °54, Hiver 2013 – spécial “Regards croisés sur l’Analyse du discours”, pp. 39-69

puis insérée dans mon blog à l’adresse suivante —> http://jacquesjenny.com/legs-sociologique/?page_id=3166

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

legs-sociologique