à propos du logiciel Alceste : débat avec Max Reinert

à propos des fondements théoriques et des présupposés des logiciels d’analyse textuelle.

Débat avec Max Reinert publié dans Langage et Société, n° 90, décembre 1999, pp. 57-85.

I – Article de Max Reinert

QUELQUES INTERROGATIONS A PROPOS DE L’“OBJET”

D’UNE ANALYSE DE DISCOURS DE TYPE STATISTIQUE

ET DE LA RÉPONSE “ALCESTE”


“ Aussi objectifs que nous nous désirons, nous sommes donc engagés par le seul fait que nous travaillons sur le sens, que nous soyons sociologues, linguistes, historiens, économistes ou tout autre chose. ” P. Achard (1997)

Par cette citation, en hommage à notre ami parti brusquement cet automne 97, nous voulons signifier que c’est à travers la vie des signes que notre propre vie prend sens. Notre engagement n’est donc pas à l’opposé de l’objectivité mais la condition nécessaire bien que non suffisante de son existence car l’objet n’existe que comme visée de quelqu’un, c’est à dire n’existe qu’à travers l’expression même d’un engagement.

Particulièrement en analyse de discours, l’objectivité doit être pensée à travers une visée particulière. Il n’y a pas de description neutre ; aussi doit-on, me semble-t-il, éclairer du mieux que l’on peut les raisons de nos choix pour bien mettre en lumière que cette objectivité de l’analyse informatique des discours prolonge un regard particulier sur le sens, un point de vue de sujet sur la manière de développer une interprétation.

Même si l’on n’est pas forcément en accord avec toutes ses conclusions, c’est un mérite de J.P. Benzécri de s’être interrogé sur le sens des techniques d’analyse qu’il mettait en place. Mettre en lumière son engagement, ce n’est pas tourner le dos à l’objectivité. C’est au contraire une manière de mettre en garde l’utilisateur d’une technique que celle-ci n’est pas neutre, qu’elle ne dispense pas de s’interroger sur le sens d’une démarche même si la forme que prend cette interrogation peut paraître naïve ou hors du champ de la science. Si le sens reste fondamentalement incommunicable, lié à la liberté d’être de chacun, une technique qui n’aurait pas de sens, n’est qu’une technique d’aliénation.


Dans cet essai [1], je vais essayer de montrer en quoi la méthode Alceste se situe en continuité avec ce que j’appellerai l’approche Harissienne de Benzécri et en quoi elle s’en démarque.


Dans une première partie, on évoquera rapidement le modèle propositionnel qui a conduit Benzécri à s’intéresser à des tableaux de données du type “sujets x prédicats”.

Dans une seconde partie, on tentera d’élargir la notion de proposition logique, reflet d’un état de chose, à une proposition plus pragmatique, avec une référence marquée aux travaux de Charles Sanders Peirce.

Enfin, nous présenterons nos propres hypothèses qui nous ont conduit à substituer à la notion de propositi on la notion d’énoncé élémentaire [2] .


Nous désirons montrer à la fois la continuité de notre modèle avec le modèle précédent et le changement de point de vue impliqué par cette modélisation particulière puisque l’on passe d’une représentation “objet” à une représentation “objet-sujet”.


1. Le modèle propositionnel de J.P. Benzécri

Benzécri, dont les techniques statistiques ont été utilisées dès l’origine pour l’analyse de discours, évoque les travaux de Harris et son approche distributionnelle comme une source de son inspiration.

Comme on sait, Harris montra que l’approche distributionnelle appliquée à un discours unique pouvait mettre en évidence des traces de lois externes impliquées dans la production du discours. Si la mise en oeuvre de la notion de distribution chez Harris se fonde essentiellement sur des aspects syntaxiques et transformationnels et non pas statistiques, l’objectif de l’approche Benzécriste, comme de la nôtre, reste globalement le même que celui de Harris dans la mesure où l’on pense que l’organisation interne des éléments d’un discours  “mémorise” en quelque sorte par sa forme même les processus externes qui ont conduit à sa production.

Benzécri présente un exemple d’analyse très didactique, dans son livre “Pratique de l’analyse des données : linguistique & lexicologie” qui se réfère directement à l’approche Harissienne et qui, sous une apparence qui peut paraître simpliste, a l’avantage de bien concrétiser une première conception de la modélisation d’un corpus par un tableau de données.

Le corpus considéré est un ensemble de propositions construit artificiellement, chaque proposition n’étant formée que de la conjonction de deux termes – le sujet et le prédicat :

{avion voler; chacal aboyer; avion ronfler; chat dormir ; chat miauler ; etc.}.

Ce corpus peut être représenté par un tableau de données à double entrée, avec en lignes, les sujets et, en colonnes, les prédicats, chaque constituant ou proposition dans ce cas étant repéré par l’association d’un sujet avec un prédicat :



aboyer

dormir

manger

miauler

ronfler

voler

avion

chacal

chat

chien

coyote

moteur

oiseau

0

1
0
3
2
1

0

0

1
5

3

1

0

2

0

1

3

3

1

3

3

0

0

4

0

0

0

0

3

1

1

3

1

8

0

7

0

0

0

0

0

6


A l’intersection d’une ligne et d’une colonne figure le nombre de propositions du corpus qui associent tel sujet à tel prédicat.


Dans la mesure où l’ordre des propositions n’est pas signifiant, le tableau de données est un équivalent du corpus : on peut reconstruire l’un à partir de l’autre, à l’ordre des propositions près.

De plus, analyser la forme du corpus dans son aspect distributionnel – au sens de Harris – revient dans ce cas à analyser la forme de ce tableau et l’analyse factorielle des correspondances permet donc une représentation imagée des distributions au sens de Harris.

Cet exemple permet une première approche de ce que l’on peut représenter d’un discours. Dans le cadre de cette modélisation, un discours n’est que le simple reflet du monde dans la mesure où les “états de chose” ou “faits” sont identifiables à des “propositions”, la relation sujet-prédicat dans la proposition n’étant qu’un reflet de la relation objet-propriété de l’état de chose.

Cela dit, quel est le statut de ce reflet par rapport à ce qui est en question, par rapport à cet objet que l’on cherche à emprisonner dans les rets du discours ?

Bien sûr, un discours n’est pas un simple reflet du monde. Mais dans la volonté de le clore dans une pure forme logique, ou bien dans une sorte d’image que nous construisons dessus, il y a cette affirmation implicite d’où une contradiction inhérente au discours puisque le locuteur se voudrait détaché de l’objet qu’il vise, voudrait mettre à distance ce dont il veut parler mais cette volonté tout autant que l’objet visé ne peut véritablement s’exprimer qu’à travers le discours, qu’à travers l’écoulement d’une parole et d’un acte.

Si le discours semble s’organiser autour de l’objet visé pour le locuteur, cette visée construit à l’autre bout, ce que peut être un regard, ce que peut-être un sujet. Comme l’écrit Bachelard (1949) : “Il suffit que nous parlions d’un objet pour nous croire objectifs. Mais par notre premier choix, l’objet nous désigne plus que nous ne le désignons et ce que nous croyons nos pensées fondamentales sur le monde sont souvent des confidences sur la jeunesse de notre esprit”. Selon notre point de vue, l’objet nous construit autant que nous le construisons [3].

Si l’objet est le référent du discours, le sens d’un discours c’est le parcours du sujet visant cet objet, sens qui l’emmène toujours au delà de lui-même. Cela dit, le sujet vivant vit de sa propre négation à chaque instant. C’est cette contradiction vécue qui constitue la dynamique d’un discours : vouloir fixer le sens dans un objet sans pouvoir jamais être satisfait de l’apparence prise. C’est par cette oscillation du sujet à son objet, du sujet à son devenir que le discours se construit [4].


Demandons-nous maintenant où est la marque du sujet dans la proposition classique ?


Au début du siècle, l’espoir, avec Frege [5] puis Russel [6] notamment, fut de constituer une langue sans ambiguïté dont le formalisme serait l’expression même du logique, débarrassée de toute subjectivité inutile, de tout flottement du sens, mais capable de refléter à travers ses propositions la forme logique des faits. Mais en limitant la logique a sa partie analytique, formalisable, tautologique, même la réduction des mathématiques les plus communes s’est soldée par un échec. On a sans doute trop cru à l’existence d’un espace logique universel [7].

Dans le premier Wittgenstein un fait ne peut véritablement être identifié comme fait qu’en relation avec une manière générale de se représenter le monde. Cette représentation logique du monde dans laquelle le fait prend sens est appelé “tableau logique” (tableau dans le sens de Bild, d’image). Ainsi un fait n’existe pas en lui-même mais en relation avec une manière rationnelle de le construire. Cette espace logique universel où prend forme cette image fera place dans le second Wittgenstein aux jeux de langage du fait de l’inscription d’un sujet dans son discours. A la logique universelle, se substitue une logique du sujet.

Ce changement de statut du fait et de la proposition passe par un élargissement de ce que l’on appelle logique. Ce fut un des principaux objectifs de Charles Sanders Peirce d’élargir la logique à une étude généralisée des modes de transformation des signes ou sémiose. On doit entendre par logique non plus seulement l’étude de la déductibilité mais aussi celle de toute inférence pouvant aboutir à l’expression d’une proposition. Peirce en distingue trois sortes : la déduction, bien sûr, mais aussi l’induction et l’abduction ou manière de construire une hypothèse par l’usage. Cette nouvelle logique est compatible avec un certain constructivisme du monde et du sujet.

Sous cet angle la notion d’Umwelt, proposée par J. Uexküll pour analyser l’adaptation des animaux à leur “environnement”, est exemplaire [8]. La notion d’environnement n’existe qu’à travers un style d’engagement et dépend pour un organisme donné des différenciations biologiques de l’espèce. L’environnement ainsi conçu apparaît donc plus comme une construction que comme un état de choses en soi. Ainsi, s’adapter à un milieu exprime un “choix” d’une certaine manière de vivre même si ce “choix” ne peut être pertinent que dans la mesure où il est compatible avec des contraintes bien réelles.

Autrement dit, c’est dans la mesure où ces contraintes n’impliquent pas de choix unique, dans la mesure où la différenciation des choix se fait progressivement à travers la propre différenciation d’un regard que l’environnement, tel qu’il est perçu, est l’expression même de ce que l’on vit. De ce point de vue, nous pourrions dire en paraphrasant le second Wittgenstein [9] : se représenter un monde, signifie se représenter une forme de vie.

Reformulons : un discours n’est plus seulement un ensemble de propositions reflétant des faits mais aussi un ensemble de propositions affirmant un style de vie. En disant cela, nous ne rejetons pas le premier modèle. Nous insistons au contraire sur la fluctuation de tout discours entre son objectif de représentation et ce que l’on pourrait appeler son subjectif de constitution d’un sujet. Cela dit autant l’objet ne se constitue qu’à travers un certain espace logique, autant le sujet se constitue par son projet de vie, son style propre, par ses choix plausibles qui s’opposent à d’autres choix plausibles, à d’autres sujets, en un mot par sa dynamique conflictuelle propre.


2. Représentation et dialogisme ; une nouvelle analyse de la proposition (avec Charles Sanders Peirce)


Aussi, pour nous, les aspects logiques et représentationnels du discours sont intrinsèquement liés à la constitution du sujet, à sa manière dynamique et plurielle d’émerger. En cela, nous sommes en accord avec Bakhtine pour qui tout discours peut être considéré comme un dialogue, pour qui tout discours peut être décrit comme s’il était produit par un ensemble d’énonciateurs [10]. Ces différentes voix sont constitutives même du sujet.


Reprenons un exemple banal de proposition : “le ciel est bleu”.

Pour Peirce, la décomposition sujet/prédicat est toujours opérante dans ce cas avec “le ciel” sujet, et “bleu” prédicat, mais sa signification est changée : le sujet recouvre ce dont on veut parler, ici et maintenant, au moment où l’on parle et que l’on peut éventuellement montrer mais qui n’est pas directement dicible. Quant au prédicat “bleu”, il est une manière du locuteur de poser une hypothèse en rapport avec son usage et sa connaissance du monde. La vérité de la proposition est d’abord vécue comme acte, qui met en relation une apparence reconnue avec un existant impliqué dans l’acte même, tout effort étant aussi l’expression d’une résistance, c’est à dire d’un existant. Et réciproquement, le jugement impliqué par la proposition n’a de valeur qu’à travers une intention engageant le locuteur dans un acte.

Aussi, la proposition n’est pas que l’énoncé d’un simple état de chose, elle est à la fois l’expression d’une expérience subjective, d’un état d’âme, d’un sentiment que quelque chose se répète, et en tant qu’acte, d’une intention, d’une prise en charge particulière. Par exemple, “le ciel est bleu” peut exprimer l’intention de “sortir se promener” ; dans ce cas l’ensemble de la proposition devient prédicat, et le sujet (alors sous-entendu) est constitué par le contenu de l’intention.

Au niveau même de l’analyse logique cette proposition, pourtant simple enchâsse en elle-même plusieurs micro-propositions car si le propos principal semble bien affirmer un lien  entre ciel et bleu, le syntagme “le ciel” peut aussi être considéré comme une micro-proposition dans laquelle “ciel” est le prédicat (ce que l’usage du sujet lui permet de reconnaître en situation) et le déterminant “le” est sujet car c’est par ce mot que l’énonciateur montre ce dont il veut parler. Plus encore, un enfant de deux ans pourrait se contenter de dire “bleu” ou “ciel” en le montrant du doigt. De ce point de vue, chaque mot plein de l’énoncé peut aussi jouer le rôle d’une micro-proposition ce qui n’est par contre pas le cas du mot “le”.


En résumé, une proposition n’est pas seulement l’expression analytique d’un état de chose. Elle est la trace de l’acte même de la sémiose : le prédicat est la trace de l’hypothèse (usage) de l’énonciateur ; Son sujet est la trace de l’acte en tant qu’il est intégré à une situation ; l’objet n’est pas directement dicible : il combine à la fois des aspects subjectifs et objectifs (composant l’acte même) et leur conjonction, en tant qu’elle coordonne une hypothèse avec une visée particulière est la marque d’une expérience consciente représentée de l’énonciateur.

Cela dit, cette expérience n’est pas discrète, séparable, elle s’effectue à travers un processus de sémiose continu. Nous exprimons cela par “l’aspect fractal” de l’énonciation. Comme on l’a vu, “le ciel est bleu” enchevêtre déjà plusieurs niveaux d’expériences, plusieurs niveaux d’engagements, plusieurs niveaux de prises de conscience : “le ciel est bleu”, “le ciel”, “ciel” et “bleu”.


3. Les hypothèses “Alcestiennes” : Le fondement topique des énoncés

Dans l’ordre d’idées précédemment développées, nous considérons que la proposition n’est plus cette unité entièrement analytique et séparable que l’on pouvait espérer d’un point de vue logique. Cette réflexion à peine ébauchée suffira ici pour justifier notre passage de la notion de proposition à la notion d’énoncé et à notre mode d’opérationalisation de cette notion.

Pour nous, en effet, un énoncé n’est pas une entité que l’on peut définir avec précision du fait même de la fractalisation de l’énonciation, processus qui se poursuit bien au delà de la phrase. Qu’on pense à la notion de paragraphe, de chapitre, de livre, d’oeuvre complète d’un auteur, d’une époque, etc.. Aussi, dans la méthode Alceste, le découpage choisi n’est pas un découpage en propositions mais en énoncés approximatifs, l’ordre de grandeur de l’énoncé définissant le type d’énonciateur auquel on s’intéresse par ce qu’il peut prendre en charge à un moment donné dans un même “ tableau logique ”. Et si des découpages voisins ne modifient pas les résultats, peu importe en effet d’avoir choisi tel découpage ou tel autre.

Que recouvre cependant un tel énoncé ? De quel objet parle-t-il ? En tant que morceau d’une fractale[11] on peut espérer qu’il garde les propriétés du tout, mais à son niveau de granulosité. Et il est en effet assez remarquable qu’un énoncé peut être interprété selon une analyse assez ressemblante à celle de la proposition.


En reprenant l’analyse de Peirce, on distinguera en effet dans un énoncé trois aspects :


1) son fondement qui est relatif à l’impression première laissée par l’énoncé en lui-même (priméïté) et dont une trace est, comme on l’a vu, constitué principalement par les mots pleins et qui joue le rôle du prédicat. Sans doute la notion de fondement développé par Peirce est plus générale. C’est la raison pour laquelle nous avons choisi d’appeler cette trace le fondement topique de l’énoncé.

Prenons par exemple ce vers de Reverdy [12] “ L’heure pleine est passée sur une autre qui sonne. Les pas des voyageurs courent déjà plus loin ” la simple présence des mots pleins comme heure, passée, pas, voyageurs, courent, loin dessinent dans ce cas une isotopie du passage indépendamment de la manière dont sont reliés ces mots au niveau syntaxique. Cette première impression isotopique de l’énoncé nous l’appelons son fondement topique. Mais contrairement à l’isotopie, on ne cherchera pas à la thématiser ou à l’identifier dans un “sème”.

2) sa dynamique : le fait que l’énoncé est l’expression d’un acte intentionnel particulier en situation, d’un engagement, et qu’il dépend de cette situation (secondéité).

Prenons un autre exemple : P. Achard (1993) définit le discours comme “ l’usage du langage en situation pratique, envisagé comme acte effectif, et en relation avec l’ensemble des actes (langagiers ou non) dont il fait partie ”. (p 10). Si l’on compare cette définition avec celle du “Quillet”, pour qui le discours est “ Toute espèce de manières d’exprimer verbalement sa pensée ”, on constate qu’aucun mot n’est commun entre ces deux définitions.  Le fondement topique de l’énoncé du “Quillet” prend évidemment racine dans une vision plus cognitive du discours, que la marque des seuls mots pleins suffit à appréhender : espèce, manière, exprime, verbe, pensée.

Dans la définition de P. Achard, l’accumulation de termes comme usage, situation, pratique, acte, effectif, oriente vers une vision plus dynamique, plus pragmatique du discours. L’opposition entre fondements topiques indique assez cet engagement des auteurs dans des projets différents. Notre notion de topoï exprime cette dynamique de l’opposition des engagements des sujets [13].

3) Enfin sa représentation : le fait que l’énoncé renvoie à une certaine schématisation de ce dont on veut parler, à un moment du discours ou du dialogue, ce que Grize appelle un micro-univers (amorce d’un espace logique entre colocuteurs qui permet d’établir un certain consensus).


Reformulons : à un tableau “sujet x prédicat” proposé par Benzécri nous avons substitué un tableau “énoncés x lexèmes”.

Au prédicat de la proposition logique on a substitué la trace du fondement topique mais tous deux se réfèrent à l’usage des choses, à un certain savoir accumulé par l’expérience.

Au sujet logique de la proposition (la place de l’objet dont on veut parler), on a substitué le sujet de l’énonciation, l’objet dont on veut parler définissant dans une certaine mesure celui qui parle. Dans les deux cas, ce dont il est question est de l’ordre d’un existant, ici et maintenant.

De ce fait, le tableau de données ne reflète plus un monde d’objets mais un monde d’usages de ces objets dont les aspects insistants marquent à la fois des centres de stabilisation des objets et des pôles de tension entre sujets.

C’est en cela que nous passons d’un système de représentation “objet” à un système de représentation au second degré de type “objet-sujet” où l’on ne cherche plus à représenter uniquement l’objet du discours mais la dynamique de construction de cet objet relativement aux sujets qu’il codétermine à travers les différents points de vue.

Bien sûr, on pourra objecter que cette représentation est encore une tentative d’occulter un sujet du second degré. C’est une autre manière de se représenter l’aspect fractal de la sémiose : nous sommes pensés par ce que nous cherchons à objectiver. Mais en l’objectivant, nous apprenons à penser autrement.


En résumé, dans notre modèle, on ne cherche plus à représenter la forme logique d’une représentation sous-jacente à un ensemble de propositions, mais à “cartographier” les principaux topoï ou “lieux communs” sur lesquels ce monde du discours se construit simultanément avec celui de ses énonciateurs.


REFERENCES

Achard, P. (1993) La sociologie du Langage, PUF

Achard, P. (1997) L’engagement de l’analyste à l’épreuve d’un événement, Langage et Société, 79, 5-38.

Bachelard, G. (1949) La psychanalyse du feu, Gallimard

Anscombre, J. C., & coll. (1995) Théorie des Topoï, Kimé.

Bakhtine, M. Volochinov (1929, tr. fr. 1977), Le marxisme et la philosophie du langage, Éditions de Minuit.

Benzécri, J.P., & coll. (1981) Pratique de l’Analyse des Données : linguistique et lexicologie, Dunod.

Bourdieu, P. (1982) Ce que parler veut dire, Fayard.

Chauviré, Ch. (1979) Peirce, le langage et l’action, Les Études philosophiques, n° 1.

Foucault, M. (1971) L’ordre du discours, Gallimard

Frege, G. (tr. fr. 1971) Ecrits logiques et philosophiques, Edition du Seuil.

Grize, J.B. (1982) De la logique à l’argumentation, DROZ, Genève.

Harris, Z.S. ( 1952) Discourse analysis, Language, 28,1-30 [tr. fr. Dubois-Chalier, Langage n° 13 (1969)]

Lahlou, S., Helka Folch (1998) “ Quelques stratégies pour l’exploitation en ADT de grands corpus hétérogènes ”, JADT 1998, Université Nice Sophia Antipolis (UPRESA), 381-389.

Lalande, A. (1988, 1ère éd. 1926) Vocabulaire technique et citrique de la philosophie , PUF.

Lebart, L., Salem, A. (1994) Statistique textuelle, Dunod.

Meyer, M. (1982), “ Logique, langage et argumentation ”, Hachette.

Mandelbrot, B. (1975, 4ème éd. 1995), Les objets fractals, Flammarion

Pécheux, M. (1969) L’analyse automatique du discours, Dunod.

Peirce, Ch. S. (tr. fr. 1987) “Textes fondamentaux de sémiotique”, Klincksieck.

Peirce, Ch. S (1978, traduit et commenté par G. Deledalle) Écrits sur le signe,

Reinert, M. (1993) “ Les “mondes lexicaux” et leur “logique” à travers l’analyse statistique d’un corpus de récits de cauchemars ”, Langage et Société, 66, 5-39.

Reinert, M. (1997) Les “mondes lexicaux” des six numéros de la revue “le surréalisme au service de la révolution”, Cahiers du centre de recherche sur le surréalisme (Mélusine), L’age d’Homme, XVI, 270-302.

Watzlawick & al (1988) L’invention de la réalité, Seuil

Wittgenstein, L. (1961, trad. fr. P. Klossovski), tractatus Philosophicus, suivi des investigations philosophiques, Gallimard

_____________________________________________________________________________________________

II – Article de Jacques Jenny

 

Pour engager un débat avec Max Reinert,

à propos des fondements théoriques et

des présupposés des logiciels d’analyse textuelle


Les pratiques d’analyses informatisées de corpus textuels en sciences sociales se développent et se diversifient (en France, pour ne parler que de notre contexte national), sans que l’on ait toujours une claire conscience des présupposés théoriques et méthodologiques dans lesquels s’inscrivent ces pratiques nouvelles et les outils logiciels qu’elles mettent en oeuvre. C’est pourquoi on ne peut que remercier Max Reinert de nous inviter à réfléchir aux modèles théoriques et aux hypothèses qui sont au fondement de la méthode qu’il a conçue et qu’il développe depuis déjà une douzaine d’années, et qui tend à devenir de facto un des standards des analyses textuelles “à la française”, aux côtés de Lexico, Hyperbase, Tropes, Prospero (et du québécois Sato), et de quelques autres, soit des “généralistes” plus classiques (Spad-N / Spad-t, Le Sphinx / Lexica, Modalisa / Interviews, …) soit des logiciels “dédiés”, conçus pour mettre à l’épreuve des “théories de portée moyenne” dans des corpus ad hoc (Evocation, Réseau-Lu, Civilité, Coconet, HCorpus, …).


Le texte proposé ici même pour engager le débat avec notre ami Max, le concepteur d’Alceste, peut être considéré comme un prolongement de deux articles que j’ai récemment publiés et qui dressaient un inventaire critique des principaux logiciels d’analyses textuelles pratiqués en France en 1996, dont un article qui représente la participation française au Trend Report de la revue internationale Current Sociology consacré à ce que nos collègues anglo-saxons appellent les CAQDAS (Computer-Assisted Qualitative Data Analysis Software) [14]. Mais il tient compte également de quelques autres publications postérieures à l’hiver 1996-97, ou qui avaient échappé à mes recherches bibliographiques en 1996, notamment celles de Paul Wald, Saadi Lahlou, Régine Scelles, France Guérin-Pace (tous quatre ayant pratiqué et évalué le logiciel Alceste), Pascal Marchand et Anne Plissonneau-Bonnaud (pour le logiciel Tropes), Marie-Christine Bureau et Francis Chateauraynaud (pour le logiciel Prospero).


Certes, on dispose déjà de quelques évaluations de la plupart de ces logiciels, évaluations faites principalement par des chercheurs en sociologie ou démographie ou psychosociologie ou psychologie clinique au terme de recherches qui ont fait largement appel à telles ou telles méthodes d’analyses textuelles informatisées. Ces chercheurs privilégient évidemment le point de vue de leur discipline scientifique de référence, de leurs problématiques de recherche spécifiques et d’objectifs qui ne s’écartent guère de ce qu’il est convenu d’appeler “analyse de contenu”. Ils adoptent le plus souvent une démarche pragmatique, en comparant au moins virtuellement les résultats de ces algorithmes de calculs textuels (ces boîtes noires plus ou moins opaques) ou, plus exactement, les interprétations que leur suggèrent a posteriori ces résultats bruts, aux résultats produits par telle ou telle méthode classique de lecture-indexation thématique de type artisanal, qui se fonde d’emblée sur des interprétations, inhérentes à toute lecture humaine [15].


Le degré de maîtrise de ces outils et procédures ne dépend pas seulement de notre (in)culture mathématique et informatique, et linguistique, ou de l’assistance technique dont nous pouvons bénéficier, mais aussi de notre (in)culture épistémologique, voire théorique et philosophique, dans la mesure où toute méthode s’inscrit dans un univers paradigmatique qui n’est pas souvent mis en question, et qu’il vaut mieux avoir identifié consciemment pour éventuellement le problématiser. Ce n’est que lorsque ces évaluations s’appuient sur l’expérience d’au moins deux méthodes d’analyse informatisées, ou lorsqu’elles procèdent explicitement d’une posture épistémologique, qu’elles sont davantage amenées à se poser la question des fondements et des présupposés comme sources possibles de variation des objectifs et des résultats et comme préalables nécessaires à la formulation des questions du sens/signification, de l’interprétation.

Mais ce qui manque le plus, à mon avis, à ces pratiques embryonnaires d’explicitation des présupposés c’est la visibilité et un projet fédérateur pour l’ensemble de la “communauté des sciences sociales”, dans le respect de la diversité et de l’autonomie des courants théoriques et méthodologiques [16].


présupposés spécifiques des logiciels lexicométriques d’inspiration benzécriste

Les logiciels français du type lexicométrique dont Alceste, Lexico et Hyperbase font partie occupent une place à part dans le paysage méthodologique, dans la mesure où ils proposent des opérations statistiques quasi-automatiques qui ne sont guère praticables sur de gros corpus sans l’aide d’ordinateurs rapides et puissants : dénombrements exhaustifs des “formes lexicales”, éventuellement catégorisées à l’aide de “systèmes-experts” linguistiques, et tous calculs dérivés de ces dénombrements, ce que l’on appelle précisément “la statistique textuelle”. D’autre part, ils semblent être une spécialité franco-française dans la mesure où la méthode dite d’“Analyse des Données” [17], ou analyse benzécriste en référence à son génial inventeur, à laquelle ils font largement appel n’a guère dépassé nos frontières hexagonales.

C’est vers 1980 que le statisticien J.P. Benzécri a fait école dans la plupart des sciences sociales françaises, en appliquant dès l’origine ses méthodes d’analyse descriptive (dont la plus emblématique est l’AFC = Analyse Factorielle des Correspondances) à des corpus textuels (avant de s’intéresser aux variétés de myosotis) qui, au début, étaient surtout des écrits littéraires, politiques ou religieux. Il revendique une double légitimation pour ces pratiques de quantification qui surprennent a priori les spécialistes de la langue et des textes [18] : d’une part, la théorie distributionnelle du linguiste Z. Harris et, d’autre part, la fameuse loi de Zipf, qui énonce ainsi une des caractéristiques structurelles fondamentales de tout corpus textuel : “le produit du rang (selon l’ordre de fréquence décroissante) et du nombre d’occurrences de chaque ‘élément’ d’un texte est à peu près constant”. Dans son article, Max Reinert rappelle d’ailleurs la filiation de la méthode Alceste par rapport à cette approche Harrissienne de Benzécri, pour exposer ensuite en quoi elle s’en démarque.


Que nous pratiquions ou non ce type de logiciels lexicométriques, nous sommes supposés savoir que leur spécificité commune consiste à comparer des profils lexicaux (distributions relatives des occurrences lexicales, sans nécessité de lecture humaine préalable) entre corpus ou segments de corpus textuels ou entre “unités de contexte” préalablement définies. Nous sommes également supposés savoir que les différents logiciels de ce type se distinguent les uns des autres selon la manière de segmenter les corpus, d’une part, et de lemmatiser et stemmatiser ou non les “lexèmes” (ou mots), de les désambiguïser et catégoriser plus ou moins “proprement”, d’inclure ou non les “mots vides”, etc…, d’autre part. Enfin, selon quelques usages énonciatifs inventoriés (concordances par proximité, segments répétés,…), ils calculent plus ou moins facilement des indicateurs de spécificité lexicale pour comparer les énoncés de catégories de locuteurs différents, par encodage péritextuel : ces modalités d’utilisation d’Alceste sont fréquentes dans les enquêtes de type sociologique, qui enregistrent parfois de nombreuses “coupures de presse” et/ou souvent de nombreux entretiens auprès de sujets-locuteurs aux positions sociales contrastées. Plus précisément, comme le résument bien les utilisateurs et les commentateurs d’Alceste (et Max lui-même dans d’autres articles), ce logiciel segmente le corpus en unités de contexte élémentaires de taille équivalente (u.c.e.), ne retient comme lexèmes que les mots dits pleins, qu’il lemmatise, et construit un “Tableau Lexical Entier” (T.L.E.) croisant ces énoncés (u.c.e.) et ces lexèmes (mots) – pour calculer une partition disjonctive de classes d’u.c.e. telle que la variance inter-classe soit maximisée au détriment de la variance intra-classe quant aux lexèmes que contiennent ces u.c.e. On notera également que les mots-outils peuvent être réintroduits dans cette classification, sans avoir contribué au calcul des classes – à la manière des variables dites supplémentaires dans toute bonne A.F.C. qui se respecte.


Le côté arbitraire et artificiel, voire parfois absurde dans la pratique, de certaines procédures automatiques de mise en forme du T.L.E., notamment du fait des ambiguïtés de certaines expressions, n’a pas échappé aux auteurs des deux principaux logiciels lexicométriques (André Salem et Max Reinert) puisque, tout en confirmant leurs options méthodologiques de base, ils avaient simultanément annoncé, aux Journées Internationales de Statistique Textuelle de 1995 (JADT, Rome) des mesures d’assouplissement portant respectivement :

– pour Lexico-1, sur la définition d’unités lexicales pour segmenter le corpus, par recours à des catégoriseurs automatiques, voire sur des modules optionnels de lemmatisation,

– pour Alceste, sur la définition d’u.c.e. moins arbitraires – par recours à des analyseurs syntaxiques.

Mais à ma connaissance ces projets n’ont pas encore été réalisés.


Force est de constater que, au-delà (ou en deçà) de la dimension technique de ces procédures lexicométriques, la plupart d’entre nous n’avons guère été sensibilisés à leurs enjeux épistémologiques cachés, notamment à leur présupposé “fréquentiste” (faire table rase des prénotions et “calculer en aveugle” sur les fréquences d’occurrences pour assembler en classes les énoncés qui se ressemblent), par opposition au présupposé “intuitionniste” (qui consiste pour chaque chercheur à assumer ses “prénotions” et à s’y référer explicitement pour construire des classes d’énoncés qui font sens dans tel contexte de recherche particulier). Or ce présupposé, rarement identifié, s’avère être un critère distinctif pertinent pour la classification des méthodes d’analyse textuelle, comme de toute analyse statistique et, plus généralement, de toute opération de classification empirique, comme j’ai essayé de le montrer dans un court article à diffusion restreinte [19]. Cette distinction peut converger avec d’autres, plus classiques, qui opposent les démarches inductive et déductive, exploratoire et confirmatoire, mais convergence ne signifie pas similitude. Et, de même qu’on propose parfois une synthèse dialectique de l’inductif et du déductif avec la démarche dite “abductive” ou encore “transductive” [20], de même on peut plaider pour une synthèse intelligente des démarches fréquentiste et “intuitionniste”.

Si Max ne nous a pas invités à réfléchir sur ces enjeux-là, sur ce type de présupposés, c’est probablement parce qu’il a appartenu à cette école de pensée benzécriste, pour laquelle le “fréquentisme” va de soi. Cependant, ne pas partager cet a priori méthodologique n’est pas une raison suffisante pour rejeter la méthode proposée : c’est seulement une raison pour la relativiser, ne pas en faire une méthode suffisante, ne pas l’appliquer sans discernement, et pour lui trouver ou inventer d’autres méthodes complémentaires. Ces réflexions que je livre au débat ne sont en effet que des critiques relatives : elles ne visent qu’à élucider certains des fondements implicites et présupposés d’une méthode que je respecte dans la mesure même où je ne prétends pas imposer à quiconque de partager mes propres présupposés, ni même ma façon personnelle d’identifier les paradigmes fondamentaux de la méthodologie en sciences sociales.


le problème du découpage des corpus en unités “calculées”, de longueur équivalente

Par rapport aux autres logiciels de sa catégorie lexicométrique, Alceste pose d’ailleurs un problème spécifique, à propos de sa méthode de découpage du corpus en u.c.e. (décrite plus haut). Autant on peut comprendre les raisons de technique statistique qui sont à l’origine de cette procédure (standardiser les unités d’information textuelle par le critère formel d’une taille équivalente, pour éliminer les “effets de structure” parasites qu’induiraient des différences importantes de taille dans le T.L.E.), autant on peut considérer que cet avantage se paie d’un prix trop élevé par rapport à ce qu’on sait (plus ou moins correctement, il est vrai) de la dynamique d’énonciation des corpus de toutes sortes, avec leurs subtiles figures de style, leurs éventuelles “rafales”, anaphores et redondances, leurs rythmes, ruptures et scansions, leurs polyphonies, bref leurs agencements intra- et inter-textuels plus ou moins normés – très variables selon les genres de discours, récits, conversations, actes de parole, pratiques langagières, dialogues, entretiens, etc….

Mais il faut bien aussi se rendre à l’évidence : la méthode, bien appliquée, produit souvent des résultats non triviaux et de “format” simple (par ex. listes de mots, diagrammes et dendogrammes, de lecture facile mais d’interprétation difficile), qu’on ne saurait négliger au moins en première analyse, tant est complexe la matérialité textuelle des discours. Cela inciterait plutôt à considérer qu’il y a peut-être, en deçà des structurations manifestes de toute production discursive, une part latente de réalité – disons psychocognitive à la manière de Kintsch et Van Dijk, cités par R. Ghiglione [21] – qui autoriserait un traitement métaphorique des énoncés “en flux continu”, les paroles prononcées et les mots écrits s’écoulant comme un fluide, régulièrement mais sans monotonie : avec des contenus pouvant changer d’une u.c.e. à l’autre. N’est-il pas significatif, d’ailleurs, qu’on rencontre cette expression d’écoulement (à propos d’une parole ou d’un acte) sous la plume de notre ami Max ?


le problème de l’ “entrée lexicale”

De même, en ce qui concerne ce qu’on peut appeler l’“entrée lexicale” de la méthode Alceste (comme des autres méthodes lexicométriques, par définition), on peut se montrer a priori réservé sur cette réduction du discours à une simple juxtaposition de ses éléments constitutifs élémentaires, les lexèmes – lorsqu’on sait par exemple, par expérience personnelle et par de bonnes lectures [22], à quel point la signification d’un texte n’est pas réductible à la somme des sens des mots qui le composent. Pour ma part, je suis enclin à penser que cette pratique de l’entrée lexicale est constitutive d’un paradigme que j’appellerais le paradigme des mots-clés, qui gouvernent nos pensées bien au-delà de l’activité documentaire où il a trouvé sa justification originelle : procédant essentiellement par formes lexicales élémentaires (les mots de la langue, rangés par ordre de commodité alphabétique dans les dictionnaires), rarement élargies aux locutions et aux syntagmes nominaux (les mêmes mots, regroupés dans les usages discursifs vivants que sont les langages), distinguant des mots dits pleins et d’autres dits vides (ou outils). Et je constate que, si ce paradigme dominait encore récemment sans partage toutes les activités documentaires au sens large, on assiste maintenant à l’éclosion de nouvelles manières de traiter, enregistrer, codifier, résumer, transmettre, de l’“information”. Et qu’il faut se préparer à entrer dans l’ère d’un nouveau paradigme, à base de “texte intégral” (avec ou sans images et graphiques) et de “connaissances”.


question préalable : une analyse de discours peut-elle être statistique ?

Mais si Max ne nous a pas invités à réfléchir sur ces enjeux-là, sur ce type de présupposés, c’est aussi tout simplement parce que son propos est ailleurs – comme l’indique bien le titre de son article, en deux parties :

– la “réponse Alceste”, sur laquelle je viens de m’interroger, à partir de mes propres questionnements a priori, qui ne sont pas ceux de Max Reinert,

– et la question posée implicitement par lui, et qui porte sur un “objet” problématique, à savoir : “une analyse de discours peut-elle être de type statistique ?”


Pour conclure par l’affirmative à cette question, Max devait effectivement indiquer le chemin qui lui a permis de rapprocher ces deux positions que sont respectivement :

– d’une part, l’approche Harrissienne (distributionnelle) de Benzécri, avec son modèle initial de proposition logique (le plus simple qui soit : sujet-prédicat), cohérent avec la notion naïve qui traite le discours comme un simple reflet du monde et par conséquent assez éloignée, à mon avis, des fondements de toute analyse de discours,

– d’autre part, l’approche Peircienne, ternaire, des “hypothèses Alcestiennes”, basées sur le fondement topique des énoncés, leur dynamique et leur représentation : la notion d’énoncé s’étant substituée à celle de proposition logique, et le sujet (locuteur) de l’énonciation s’étant substitué au sujet (grammatical) de la proposition.

D’où il résulte que l’objectif général d’Alceste (ainsi défini : “cartographier les principaux topoï ou lieux communs sur lesquels ce monde du discours se construit simultanément avec celui de ses énonciateurs”) est effectivement compatible avec un des principaux paradigmes théoriques de l’analyse de discours, celui de la co-énonciation.


Un article récent de Paul Wald [23] illustre d’ailleurs parfaitement cette compatibilité théorique par la présentation, commentée avec précision, d’une application de la méthode Alceste à un corpus composé de dix-neuf entretiens sur les “pharmacies familiales” (contenu des placards à pharmacie domestique et usages des médicaments, notamment psychotropes) et les thèmes connexes. Comme ce texte répond partiellement à mes objections, je considère qu’il fait d’emblée partie du dossier ouvert ici même sur “la réponse Alceste”, en attendant la réponse de Max lui-même.

Comme son titre l’indique, le calcul des classes d’énoncés ne représente pour Paul que la première partie de la méthode. Conscient du caractère malgré tout statique de ces classes d’énoncés, qui dessinent des “lieux” d’énonciation habituels (les topoï ou mondes lexicaux), il mobilise d’autres ressources de la méthode Alceste :

– en observant la fréquence des mots-outils de différentes catégories (exclus du calcul des classes) dans leurs u.c.e. respectives, on peut évaluer les “postures” d’énonciation associées à ces lieux : c’est la modalisation,

– en comparant au sein du corpus les lieux et les positions d’énonciation de différentes catégories de locuteurs, socialement situés, par un banal calcul de spécificité lexicale, on peut repérer des registres langagiers caractéristiques de ces catégories (par ex., ici, l’enquêtrice elle-même, opposée aux sujets interviewés – eux-mêmes subdivisés en deux groupes aux pratiques de santé différentes) : c’est la catégorisation sociale.


Il en est de même, sur un autre registre, d’un article de Saadi Lahlou [24]. Ne se référant pas au paradigme discursiviste, mais plutôt à celui des représentations sociales dans la tradition de Serge Moscovici, son texte n’en apporte pas moins un éclairage complémentaire intéressant pour notre débat : je l’inscris donc également au dossier.

Son corpus est d’un type assez particulier, puisqu’il s’agit de la totalité des définitions d’un grand dictionnaire concernant les mots qui se rattachent au premier ou au deuxième degré, par les renvois sémantiques aux mots associés, aux deux thèmes différents que sont le manger (environ 17000 mots), d’une part, et l’information (235 mots), d’autre part.

L’auteur analyse par introspection fine les procédures et les étapes qui produisent les “bonnes” interprétations concernant les classes d’énoncés calculées, celles qui seront finalement publiées. Ce faisant il nous introduit dans la cuisine où se préparent les plats et nous livre la recette réelle, faite d’essais et erreurs à la recherche du P.P.C.P. (Plus Petit Commun Paradigme) et d’“abduction” (introduction subreptice de la connaissance du monde de l’analyste) autant que d’“induction, aveugle et sourde au sens” comme le voudrait la recette prescrite (de la méthode Alceste).

Avec un effort louable pour organiser méthodiquement cet “art de l’interprétation” au point de vouloir en faire une “théorie de l’interprétation” qui ne dédaigne pas de faire appel aux éléments de connaissance du monde dont l’analyste dispose préalablement, mais au contraire qui contrôle ces recours nécessaires à l’expérience subjective, il propose un compromis pragmatique avec les principes rigoureux du “fréquentisme benzécriste” qui a inspiré Alceste.


analyses de discours et/ou analyses de contenu thématique ?

Quant à la question préalable, telle que formulée par le même Saadi tout à la fin de son article en rappel d’un fait et d’une règle méthodologique élémentaires trop souvent oubliés (“la nature du corpus influe considérablement sur les résultats [… et …] doit être adaptée à la stratégie de recherche”), je la prolongerais par cette interrogation fondamentale, qu’on ne devrait pas éluder plus longtemps, qui concerne directement le statut épistémologique de l’Analyse de Discours (A.D.), sur lequel il n’y a probablement pas consensus parmi nous :

l’A.D. est-elle un objectif de recherche en soi (et peut-elle prétendre au statut de discipline autonome ?), ou bien n’est-elle qu’une méthode, au mieux une posture théorico-méthodologique, générale mais néanmoins subordonnée à des problématiques multiples et variées, en termes de rapports sociaux et relations interpersonnelles, de pratiques et représentations sociales, d’idéologies et systèmes de valeurs, d’instances et institutions, d’intérêts et de normes, de pouvoir et de dominance sociale [25], de débats, controverses et polémiques, de conflits et mouvements sociaux, etc…, non réductibles aux seuls rapports d’énonciation et d’interlocution, pratiques et institutions langagières-discursives, etc… ?

Etant bien entendu que cette deuxième conception peut et doit intégrer tout l’apport heuristique des sociolinguistiques de l’énonciation (directement “assimilables” hors des frontières des linguistes), dans leurs définitions et leurs ambitions transdisciplinaires. Mais elle implique aussi que chaque projet et objectif de recherche se définisse d’abord en termes “disciplinaires” ou “pluridisciplinaires”. Cette conception implique d’englober de manière indissociable les analyses du dire (quoi ? et comment ?) dans celles de l’agir, du faire (quoi ? et comment ?), à traiter les échanges langagiers comme des pratiques discursives – parmi d’autres pratiques sociales. Le choix du/des corpus, parmi d’autres “objets et terrains empiriques”, et des stratégies et méthodes d’analyse- synthèse- interprétation pourrait alors intervenir en prise directe sur des problématiques pertinentes, non tronquées, et les résultats de ces analyses- synthèses- interprétations combinées, textuelles et autres, pourraient être évalués, comparés, confrontés, dans leur véritable contexte.

Au lieu de, comme on le voit faire parfois, “mettre la charrue avant les boeufs” !


D’autre part, sans cacher mes sympathies pour un certain type d’analyse de discours (cf. mes principales références dans la note de bas de page n° 22), je me demande s’il est possible d’assigner à la méthode Alceste, comme d’ailleurs à n’importe quelle méthode d’analyses textuelles informatisées, un modèle aussi exigeant et multiforme que la posture discursiviste. Tout au plus peut-on, dans l’état de l’art actuel, s’inspirer des objectifs ambitieux et complexes qui caractérisent cette posture pour dresser l’horizon utopique des procédures que l’on aimerait bien, éventuellement et partiellement, formaliser en algorithmes mais qui, longtemps encore probablement, ne serviront qu’à mesurer la distance qui sépare nos outils logiciels de cet idéal méthodologique. Et peut-être, de manière réaliste, pourrons-nous dépasser progressivement le cahier des charges, plus modeste, des méthodes d’analyse de contenu thématique, qui semble en grande partie réalisé – du moins dans ses variantes les plus classiques ; mais sans nous illusionner sur la portée théorique réelle des procédures informatisées, et sans viser a priori l’automaticité intégrale des procédures. Autant dans le choix et le déroulement des séquences de programmes informatiques que dans les possibilités de contrôle (par l’intelligence humaine) et de correction (“manuelle”, artisanale) des résultats à chaque étape, la plus grande flexibilité est nécessaire : et que l’on ne vienne pas nous dire que ce serait au détriment de l’“objectivité scientifique” !




[1] Il s’agit de l’exposé oral de ma communication aux Journées d’Analyse Statistiques des Données Textuelles (JADT98, Nice, février 1998). Ce texte est profondément remanié par rapport à la version publiée dans les actes d’où mon intérêt pour cette publication. J’ai conservé le style de l’exposé  oral qui me paraît plus apte, par ses raccourcis, à introduire des notions dont le développement dépasserait le cadre d’un article étant entendu que notre objectif est une simple incitation à la réflexion et au débat.

[2] Le sigle Alceste signifie « Analyse des Lexèmes Cooccurrents dans les Enoncés Simples d’un Texte »

[3] Notamment à l’aide des mots : « Il faut dire des mots tant qu’il y en a, il faut les dire jusqu’à ce qu’ils me trouvent, jusqu’à ce qu’ils me disent… » (M. Foucault, 1971)

[4] Cette conception nous semble très proche de la notion de pulsation chez R. Guitart pour qui « Voir ce que l’on dit, dire ce que l’on voit, c’est impossible intégralement ; entre voir ce que l’on pense et dire ce que l’on pense, il y a une dialectique non résolutive qui reste toujours un procès ouvert qui ne se referme que sur lui-même, soit plus précisément ce que j’appelle pulsation » (in « la pulsion mathématique », exposé au C.I.P.  du 7 janvier 1998 sur « le trait pulsatif » avec Evelyne Barbin, livre à paraître)

[5] Dans son article publié en 1882, Frege écrit : « Les sciences abstraites ont besoin, et ce besoin est ressenti de plus en plus vivement, d’un moyen d’expression qui permette à la fois de prévenir les erreurs d’interprétation et d’empêcher les fautes de raisonnement. Les unes et les autres ont leur cause dans l’imperfection du langage. » Si Frege est très conscient des capacités du langage naturel : « Le langage peut , à cet égard, être comparé à la main qui malgré sa capacité à remplir des tâches extrêmement diverses, ne nous suffit pas  », son idéal est cependant de trouver un langage débarrassé de toute ambiguïté : « Le langage parlé a la même insuffisance : aussi avons-nous besoin d’un ensemble de signes, purifiés de toute ambiguïté, et dont la forme strictement logique ne laisse pas échapper le contenu.. »

[6] Parlant de Russel, Michel Meyer (1982) écrit : « Son ambition était de montrer que non seulement le langage naturel dévoilait son univocité dans les relations logiques, mais qu’il en était ainsi de toute la mathématique  »

[7] On sait que la notion de fait elle-même colle déjà à sa représentation dans un espace logique particulier. Même pour Claude Bernard pour qui « ce sont les faits qui jugent l’idée », pour qui « les faits sont la seule réalité qui puisse donner la formule à l’idée expérimentale, et lui servir en même temps de contrôle,(…)c’est à condition que la raison les accepte »  (souligné par nous, d’après une citation du “Lalande” (1988) tirée de « l’Introduction à la médecine expérimentale » ).

Cette condition exprime bien que les faits “n’existent” qu’à travers une manière de les voir, cette “manière” exprimant une forme de rationalité. Mais cette forme au lieu d’être “en soi”, “universelle”,  est l’expression même de la forme d’un sujet en tant que parcours, c’est à dire portée par un projet de vie, par une certaine visée, que celle-ci soit individuelle ou collective.

[8] Voir, par exemple, L’invention de la réalité de Watzlawick, Seuil 1988.

[9] Wittgenstein écrit dans les Investigations philosophiques : « se représenter un langage, signifie se représenter une forme de vie » .

[10] Pour Bakthine (Volochinov, 1929), même un monologue constitué de différents paragraphes est construit comme un dialogue : «  Dire qu’un paragraphe doit contenir l’expression d’une pensée complète ne rime à rien (…) Pénétrant plus avant dans l’essence linguistique des paragraphes, nous nous convaincrons que, dans certains de leurs traits essentiels, ils sont analogues aux répliques d’un dialogue. »

[11] On ne retiendra d’une fractale qu’elle est une forme non représentable construite récursivement dont on peut cependant avoir une représentation, à une échelle donnée, si l’on accepte une confusion locale de la fractale dans un “grain” lié à l’échelle de la représentation : par exemple, le contour de la côte bretonne sur une carte n’est représentable que par une confusion locale liée au “grain” du trait séparant la mer de la terre (Mendelbrot). Cette notion de “grain” nous semble fondamentale pour l’analyse textuelle. C’est ce que nous visons à travers notre notion d’unité de contexte ou “énoncé élémentaire”. Cette terminologie de “grain” est aussi utilisée par S. Lahlou dans le cadre des statistiques textuelles dans un contexte qui nous semble compatible avec le nôtre (1998).

[12] extrait de « Courte vie » du recueil « Les sources du vent » (Gallimard, 1971).

[13] C’est à travers le pluriel de topoï que cette dynamique est marquée. Cela dit, notre utilisation de cette notion actuellement s’est infléchie vers un sens plus “catégorique” : les “lieux” étant aussi la trace de postures primitives vis à vis des “choses”: ce que l’on sent (Imaginaire) ; ce que l’on fait (Réel) ; ce que l’on se représente (Symbolique). (étude en cours).

[14] Analyses de contenu et de discours dans la recherche sociologique française : pratiques micro-informatiques actuelles et potentielles, p. 279-290, in :

Mangabeira Wilma (éd.), Qualitative Sociology and Computer Programs : Advent and Diffusion of CAQDAS, Current Sociology (44-3) hiver 1996, p. 187-321.

– Méthodes et pratiques formalisées d’analyse de contenu et de discours dans la recherche sociologique française contemporaine. Etat des lieux et essai de classification. Bulletin de Méthodologie Sociologique (B.M.S.), n° 54, Mars 1997, p. 64-112. LASMAS-IRESCO (CNRS), 59 rue Pouchet, 75017 Paris.

[15] cf. par exemple le mémoire de D.E.A. en sciences sociales d’Anne Plissonneau-Bonneau, Paris, Août 1997, non publié, qui consiste à appliquer à un même corpus d’entretien de recherche (un récit de vie professionnelle) la méthode dite d’“analyse structurale de récit” (selon C. Dubar et D. Demazière, dans la tradition sémiologique), non informatisée et la méthode d’“analyse cognitivo-discursive” (selon R. Ghiglione, dans la tradition psycho-cognitiviste), récemment informatisée avec le logiciel Tropes.

[16] ce à quoi précisément je m’emploie en ce moment, avec mon collègue sociologue Mohammed Hassini, avec le soutien de Jean-Claude Combessie, directeur de l’IRESCO, en essayant de mobiliser le maximum de bonnes volontés autour du projet A.R.C.A.T.I. : Atelier-Réseau Coopératif pour Analyses Textuelles Informatisées.

[17] terme générique abusif (car il y a d’autres manières d’analyser des données multidimensionnelles), auquel je préfère la désignation techniquement plus correcte d’analyse spectrale-factorielle (le spectre des facteurs additifs correspondant à la décomposition de la lumière blanche à travers le prisme, le prisme étant ici le calcul matriciel).

[18] voir en particulier : Lebart Ludovic et Salem André (1994) Statistique textuelle. Paris, Dunod: 282 p. + annexes, glossaire, bibliographie, index.

[19] Types homogènes calculés et/ou Classes significatives construites: réflexions épistémologiques sur les modes de traitement de la complexité, in Enquêtes statistiques et Indicateurs de pratiques familiales. Collectif, Paris, 1989, CNRS-IRESCO : p. 67-76. On remarquera que j’ai utilisé l’expression de types homogènes calculés, là où Alceste parle de classes (d’u.c.e.), précisément pour les opposer aux classes produites par des procédures de classification non automatiques.

[20] Jacques Jenny, Un nouveau paradigme pour penser le changement ? le processus d’individuation transductive, selon Gilbert Simondon. Les Cahiers de l’Implication, n° 1 – Groupe de Sociologie Institutionnelle, Université de PARIS VIII, Département des Sciences de l’Education, Hiver 1997/98, p. 31-44.

[21] où il est question des activités cognitives et mnémoniques fondamentales qui présideraient à toute production et compréhension langagières, telles que les limites de nos capacités de garder en mémoire tant de mots déjà prononcés et d’anticiper tant de mots dans les phrases en cours d’énonciation.

[22] En ce qui me concerne, je reconnais volontiers tout ce que je dois au regretté Pierre Achard, mais aussi à Antoine Culioli, à Josiane Boutet, à Pierre Fiala, à la regrettée Jenny Simonin-Grumbach, à Colette Guillaumin, à Dominique Maingueneau et à quelques autres, mais aussi aux collectifs de travail que sont le Séminaire d’Analyse du Discours, la revue Langage et Société, pour m’avoir sensibilisé et initié aux charmes austères de la sociolinguistique de l’énonciation.

Sur le point précis des statuts respectifs du mot et de la phrase dans le discours, on pourra relire l’article de Marc Derycke : le clivage du signe selon Benveniste, Langage et Société, n° 70, Décembre 1994, p. 35-60.

[23] Wald Paul, Classes d’énoncés, dimensions modales et catégories sociales dans ALCESTE, in revue Utinam, 1999, n° 1-2, Paris, L’Harmattan.

[24] Lahlou Saadi, La modélisation de représentations sociales à partir d’un corpus de définitions, in :

Martin Evelyne (éd.). Informatique textuelle. Coll. Etudes de Sémantique Lexicale. Institut National de la Langue Française. Paris, Didier Eruditions, 1996, p 55-98.

[25] comme par exemple la proposition théorique que j’ai exposée dans :

JENNY Jacques. Rapports sociaux de sexe et autres rapports de dominance sociale : pour une intégration conceptuelle des rapports sociaux fondamentaux. Cahiers du GEDISST, 1995, n° 13, p. 109-130.

Une réponse à to “à propos du logiciel Alceste : débat avec Max Reinert”

  • je ne vois pas bien le rapport entre ce beau texte de Paul Eluard et mon article “à propos du logiciel Alceste”. Mais peu importe, je vous remercie de m’avoir fait connaître ces lyriques sensations du poète, qui expriment bien mieux que je ne saurais dire ce que je ressens dans mes randonnées en montagne, ou en forêt ou dans la campagne et même en ville – tout simplement !

Laisser un commentaire