Saillance : Différence entre versions
(Remplissage de la section 2.) |
(Remplissage de la dernière section.) |
||
Ligne 70 : | Ligne 70 : | ||
==Types d'analyses linguistiques de la saillance== | ==Types d'analyses linguistiques de la saillance== | ||
− | + | La remarque précédente nous permet d’expliquer pourquoi ce sont essentiellement des méthodes de quantification qui ont été exploitées en linguistique computationnelle pour déterminer les entités saillantes d’une phrase, d’un énoncé ou d’un discours. Car en effet, ce sont des comparaisons quantitatives qui sont détaillées dans les approches fondatrices déjà citées que sont la thèse de Sidner puis la Théorie du Centrage, mais aussi et surtout le livre d’Alshawi qui décrit le calcul de scores numériques, avec l’attribution du score le plus élevé à l’entité la plus saillante. D’une manière générale, le principe est de déterminer un ensemble de facteurs de saillance puis, pour chaque entité du discours, d’attribuer un score qui dépend du nombre et de l’importance des facteurs jouant en faveur de l’entité. Les scores obtenus peuvent finalement être comparés, ce qui permet de déterminer la ou les entités les plus saillantes, ou éventuellement de considérer qu’aucune entité n’est vraiment saillante. Lors de la détermination des scores, les principales méthodes de calcul qui sont utilisées peuvent se répartir selon les catégories suivantes : | |
+ | |||
+ | — La somme ou la moyenne des facteurs : c’est sans doute la méthode la plus simple car elle consiste à compter les facteurs jouant en faveur de l’entité considérée, en divisant éventuellement ensuite par le nombre de facteurs. L’inconvénient principal est que les facteurs ont alors tous la même importance, or il se peut au contraire qu’un facteur ait beaucoup plus d’influence qu’un autre. | ||
+ | |||
+ | — La prise en compte du facteur optimal : il s’agit ici de classer ''a priori'' les facteurs de saillance par ordre d’importance, et de tester leur application sur chacune des entités du discours, en commençant par le facteur le plus important. Dès qu’un facteur s’applique, l’entité correspondante est considérée comme la plus saillante. L’inconvénient ici est qu’une entité peut satisfaire le seul facteur optimal alors qu’une autre entité peut satisfaire une multitude de facteurs secondaires et constituer ainsi un candidat théoriquement plus pertinent. | ||
+ | |||
+ | — La moyenne pondérée des facteurs : la pondération des facteurs selon leur importance et la prise en compte de l’ensemble par une moyenne s’avère une solution aux problèmes des deux méthodes précédentes. C’est d’ailleurs le choix d’Alshawi. Déterminer des poids s’avère cependant délicat : l’intuition seule ne suffit pas à justifier des chiffres tels que 0.8 ou 0.6, et une analyse de corpus peut aboutir à des résultats biaisés de par la nature du corpus ou les difficultés que pose l’identification par l’annotateur des causes de saillance. | ||
+ | |||
+ | — Les méthodes statistiques : il s’agit de calculer des statistiques, par exemple sur les influences relatives entre facteurs. C’est le choix de Pattabhiraman qui utilise un réseau de relations statistiques entre concepts pour identifier la catégorie la plus saillante dans une situation donnée. | ||
+ | |||
+ | — Les méthodes procédurales : il s’agit cette fois de définir un ensemble ordonné de procédures, une procédure consistant par exemple en l’ajout d’un certain chiffre si un élément particulier apparaît (article indéfini, catégorie verbale particulière, etc.). Ce principe constitue le recours à une méthode calculatoire extrême, qui s’éloigne des théories et modèles linguistiques. | ||
Version du 23 février 2006 à 18:50
par Frédéric Landragin |
Sommaire
Définition et portée du phénomène
Est saillant ce qui vient en premier à l’esprit, ce qui capte l’attention. Cette propriété, parfois appelée prosexigène (obtrusive en anglais), s’applique aux entités du discours via les caractéristiques lexicales, syntaxiques et sémantiques du discours, auxquelles il faut ajouter les caractéristiques phonétiques et prosodiques dans le cas du discours oral et les caractéristiques visuelles dans le cas du discours écrit. La notion de saillance (salience ou saliency en anglais) est ainsi liée à l’émergence d’une figure sur un fond, que cette émergence soit motivée par des aspects physiques liés à la perception de la parole ou du texte écrit, ou par des aspects plus sémantiques voire cognitifs liés à la compréhension du langage. C’est pourquoi on peut distinguer la saillance physique de la saillance cognitive, de manière à mieux rendre compte de phénomènes qui peuvent jouer dans le même sens ou dans des sens opposés.
Ainsi, si l’on considère l’exemple (1) du point de vue de sa forme, l’utilisation de caractères gras rend l’expression « le long du mur » saillante, comme l’aurait fait à l’oral un accent de focalisation (augmentation de la fréquence fondamentale et de l’intensité). Cette saillance physique explicite entraîne une saillance cognitive, se traduisant par quelque chose comme la phrase (2). Si l’on considère ce même exemple (2) comme un énoncé ne comportant ni accent ni prosodie particulière, aucune saillance physique ne s’identifie. Par contre, son analyse syntaxique rend compte d’un présentatif (ou construction clivée), dont l’utilisation est clairement liée à une mise en saillance, en l’occurrence de l’emplacement « le long du mur ». Il est alors légitime de supposer que cet emplacement deviendra cognitivement saillant pour l’interlocuteur, d’où la notion de saillance cognitive. En considérant maintenant l’exemple (3) où aucun caractère gras ni présentatif n’apparaît, on peut supposer dans un premier temps qu’aucune saillance n’intervient. En fait, toute phrase est la matérialisation d’un certain nombre de choix qui peuvent avoir des conséquences en terme de saillance. Le choix de l’ordre des mots, le choix d’attribuer telle fonction grammaticale ou tel rôle thématique à telle entité, le choix du thème de la phrase, quand ils sont possibles, constituent autant de facteurs potentiels de saillance. Une analyse rapide de l’exemple (3) aboutit ainsi à l’affectation de la plus grande saillance cognitive à l’entité « table », du fait de sa position initiale, de sa fonction grammaticale sujet et de son statut de thème dans la phrase. Comme nous l’avons fait avec le premier exemple, une telle analyse revient à paraphraser (3) par (4).
- (1) « La table doit se mettre le long du mur. »
- (2) « C’est le long du mur que la table doit se mettre. »
- (3) « La table doit se mettre le long du mur. »
- (4) « C’est la table qui doit se mettre le long du mur. »
Avec ces considérations, l’exemple (1) conduit schématiquement à une entité physiquement saillante (« le long du mur ») et une autre entité cognitivement saillante (« la table »). On en déduit ainsi qu’il n’y a pas de saillance absolue d’une et une seule entité du discours, mais des saillances relatives des différentes entités, selon des facteurs et des plans d’analyse différents. A l’image de la distinction entre saillance physique et saillance cognitive (Landragin, 2004), c’est ce constat qui a amené certains auteurs à distinguer la saillance perceptive de la saillance conceptuelle (Pattabhiraman & Cercone, 1990), la saillance de la pertinence (Ibid.), ou encore, mais cette fois dans un registre très général, la saillance de la prégnance (Thom, 1988).
C’est d’ailleurs avec le terme de prégnance (Prägnanz en allemand) que les recherches sur ce phénomène trouvent leurs origines dans la Théorie de la Gestalt (Gestalttheorie), appelée aussi psychologie de la forme, et plus précisément dans les travaux de Max Wertheimer concernant la physiologie de la perception visuelle (cf. Guillaume, 1979). C’est dans le domaine de la perception visuelle que la notion de saillance et la distinction entre figure et fond ont été explorées, avec des approches et des objectifs variés. D’une manière générale, l’unité à laquelle s’applique la saillance est le percept, c’est-à-dire un élément visuel distinguable (doté d’un contour, ce qui constitue la différence fondamentale entre figure et fond). Quant aux facteurs de saillance visuelle, ils concernent aussi bien les propriétés physiques des percepts que les aspects cognitifs mis en jeu lors de leur perception. L’apparition du concept de saillance en linguistique est plus tardive et n’est à l’heure actuelle pas l’objet d’un consensus dans la communauté. A l’image des aspects visuels, un premier problème concerne l’identification de l’unité à laquelle s’applique la saillance linguistique. Nos exemples ont mis en jeu le mot ou groupe de mots (voir la lettre) pour la saillance physique dans le cas d’une phrase écrite, le phonème ou groupe de phonèmes pour la saillance physique dans le cas d’un énoncé oral, et l’entité du discours pour la saillance cognitive. Quant aux facteurs de saillance linguistique, nous allons les détailler plus loin en reprenant des éléments de théories dont l’objectif ne se réduit jamais à la saillance, mais porte par exemple sur les anaphores (Sidner, 1979) ou sur la notion de structure informationnelle (Lambrecht, 1994). C’est en effet à travers de telles théories que l’on peut appréhender le concept de saillance.
Les domaines d’application de la saillance linguistique sont variés. Ajouter aux représentations et formalisations sémantiques les aspects de saillance permet tout d’abord de faciliter la résolution des anaphores, en proposant par exemple une solution privilégiée dans les cas ambigus, c’est-à-dire lorsque plusieurs antécédents restent possibles une fois que les contraintes de genre et de nombre ont été prises en compte. Non seulement les anaphores, mais en fait toutes les références sont concernées : une expression référentielle telle que « le N » peut apparaître dans un contexte comportant plusieurs N sans pour autant que l’énoncé soit incompréhensible. Selon les cas, « le N » pourra désigner « le N le plus saillant dans la situation de dialogue », « le N le plus saillant dans le contexte visuel », ou encore « le N le plus saillant compte tenu du but ou de l’activité en cours ». La saillance intervient ainsi lors de l’interprétation du langage, et par conséquent dans les applications correspondantes du domaine du traitement automatique des langues. La production de langage fait elle aussi intervenir la saillance, toute sélection pouvant reposer sur un critère de saillance afin de hiérarchiser les solutions possibles. Certains auteurs comme Pattabhiraman exploitent ce principe pour la sélection lexicale, d’autres l’utilisent pour la détermination d’expressions référentielles à la fois simples et non ambiguës compte tenu du contexte (Stevenson, 2002). D’autre part, la production d’un énoncé peut avoir comme but principal de mettre en saillance une entité donnée. De manière un peu schématique, l’interprétation repose ainsi sur la saillance préalable des entités du discours et des objets perceptibles dans la situation de communication, alors que la production de langage s’attache à gérer, c’est-à-dire à mettre en rapport saillance préalable et saillance nouvelle en fonction du but communicatif recherché. La génération automatique de textes est donc un domaine directement concerné, de même que le dialogue homme-machine qui peut faire intervenir la saillance aussi bien en compréhension qu’en génération. Enfin, les domaines liés au traitement du document numérique (et à l’analyse de l’information en général) peuvent reposer sur la détection et l’exploitation des éléments saillants, qu’il s’agisse d’extraction d’information, de résumé automatique voire de traduction automatique, qu’il s’agisse de textes ou de documents multimedia associant textes, graphiques et images.
Propriétés linguistiques liées à la saillance
Nous avons évoqué la fonction grammaticale sujet, le statut de thème et la position initiale de l’entité du discours dans la phrase comme des facteurs augmentant la saillance de cette entité. En continuant dans cette voie, quels sont donc les facteurs de saillance, et dans quelles catégories peut-on les regrouper ?
A la suite de (Stevenson, 2002), on peut distinguer les aspects formels des aspects sémantiques. Concernant les premiers, il s’agit avant tout des caractéristiques lexicales, prosodiques et grammaticales de l’énoncé. Dans la majorité des travaux, par exemple dans (Alshawi, 1987) ou dans la Théorie du Centrage (Grosz et al., 1995), ce sont essentiellement ces caractéristiques qui définissent la saillance. Le critère souvent mis en avant est la récence, c’est-à-dire la proximité textuelle ou temporelle de la dernière mention. Les entités les plus saillantes se réduisent ainsi parfois à celles mentionnées le plus récemment. Dans des travaux plus récents, par exemple dans (Wolters, 2001) ou (Landragin, 2004), la saillance couvre un ensemble d’aspects variés et constitue une tendance générale. Une entité de discours devient l’entité la plus saillante de par la combinaison de plusieurs critères parmi un ensemble comprenant : accent de focalisation ; intonation montante ; prosodie particulière ; rupture dans le rythme d’élocution ; ordre et fréquence d’apparition des mots ; constructions syntaxiques quasiment dédiées à la saillance telles que les constructions clivées avec présentatif, les constructions en « il y a », les détachements en tête de phrase ou encore les mises en apposition, etc. Nous avons déjà vu un exemple faisant intervenir un présentatif. (Lambrecht, 1994) mentionne les exemples (6) et (8) dans lesquels la saillance est renforcée par rapport à (5) et (7), soit par une construction en « j’ai », soit par une construction en « il y a ».
- (5) « Ma voiture est en panne. »
- (6) « J’ai ma voiture qui est en panne. »
- (7) « Le téléphone sonne. »
- (8) « Y’a le téléphone qui sonne. »
De même, les constructions à topique telles que (9) et (10), en jouant sur l’ordre des mots et les détachements en tête de phrase, renforcent la saillance du premier groupe nominal. En restant dans les exemples de Lambrecht, une entité de discours peut également être rendue plus saillante à l’aide d’une construction syntaxique renforcée, telle que (12) plutôt que (11) : la saillance du destinataire « lui » est plus forte grâce au rôle de renforcement qu’a ici la préposition « à ».
- (9) « Jean, sa sœur, je la déteste. »
- (10) « La mer, tu vois de l’eau. »
- (11) « Donne-le-lui ! »
- (12) « Donne-le à lui ! »
Enfin, une entité va être plus ou saillante selon sa fonction grammaticale dans la phrase. Il est ainsi possible de classer les constituants principaux que sont le sujet grammatical, le complément d’objet direct et le complément d’objet indirect. Le sujet est souvent considéré comme le constituant le plus saillant, en particulier dans certaines constructions telles que (13) (Sidner, 1979). Il se trouve généralement au début de l’énoncé, ce qui renforce la saillance liée à cette position. Les constructions passives, qui permettent d’inverser les fonctions grammaticales, se justifient ainsi. Comme le faisait déjà la thèse de Sidner, la Théorie du Centrage (Grosz et al., 1995) propose la hiérarchie suivante des fonctions grammaticales : sujet, plus complément d’objet, puis autres catégories.
- (13) « A est un X. »
Concernant les aspects plus sémantiques voire cognitifs, on peut considérer premièrement la sémantique des mots en faisant intervenir le domaine de la sémantique lexicale, deuxièmement la sémantique de l’énoncé avec les notions de rôle thématique, de thème et de topique phrastique, et troisièmement la sémantique du discours avec les notions de topique discursif et de propos. C’est surtout dans ces domaines que les approches et les théories divergent, non seulement dans les définitions des notions, mais aussi dans la façon de rattacher la saillance : en considérant les distinctions entre agent versus patient, thème versus rhème, topique versus commentaire, posé versus présupposé, connu versus nouveau, etc., certains auteurs élisent parfois le premier terme de l’opposition au statut de saillant, parfois le second. Les paramètres qui entrent en compte sont nombreux, complexes, parfois antithétiques, et c’est pourquoi il est difficile d’arriver à un consensus. Néanmoins, quelques principes forts peuvent être identifiés. Ainsi, concernant la sémantique des mots, il est admis que certains traits sémantiques comme « animé » et surtout « humain » augmentent la saillance de l’entité correspondante. Concernant la sémantique de l’énoncé, il est admis que les caractéristiques sémantiques du verbe vont avoir des conséquences sur la classification des rôles thématiques. Par exemple, dans les phrases décrivant un événement, les conséquences de cet événement vont être plus présentes dans l’esprit de l’interlocuteur que les conditions initiales. Si ces conséquences s’appliquent à l’agent, celui-ci en devient plus saillant que le patient. Des exemples classiques font intervenir des verbes de transfert, et montrent que le receveur est plus saillant que le donneur et que l’objet transféré. « Marie » est ainsi la personne saillante, aussi bien dans (14) que dans (15). D’autres exemples font intervenir des verbes de causalité, et montrent à l’aide de reprise pronominales que la personne saillante est celle qui est liée à la cause, c’est-à-dire l’agent « Sue » dans (16) et le patient « Peg » dans (17).
- (14) « Jean donne un livre à Marie. »
- (15) « Marie reçoit un livre de Jean. »
- (16) « Sue étonne Peg à cause du genre de personne qu’elle est. »
- (17) « Sue admire Peg à cause du genre de personne qu’elle est. »
Toujours au niveau de la sémantique de l’énoncé, on retrouve les notions de thème et de topique qui désignent toutes les deux l’entité dont l’énoncé parle, le rhème ou commentaire correspondant à ce qui est dit de cette entité. Ces notions sont fréquemment mises en rapport avec des critères tels que la fonction grammaticale (certains auteurs comme Hockett considèrent que le thème correspond au sujet grammatical) ou la position initiale (Halliday considère que c’est une condition nécessaire du statut thématique). Il est également fréquent de faire correspondre le thème à ce qui est connu de l’interlocuteur et le rhème à ce qui est nouveau. Dans ces conditions, il est difficile d’attribuer une saillance inhérente aux statuts de thème et de topique ou à leurs opposés, et nous en conclurons que ces notions se définissent à l’aide de paramètres déjà décrits plus haut, et donc que rien ne nous incite à les considérer comme des facteurs supplémentaires de saillance.
Il en est un peu de même avec la sémantique du discours et les notions de topique discursif et de propos : comme le décrivent par exemple (Wolters, 2001) et (Grobet, 2002), ces notions peuvent recouvrir plusieurs entités de discours, avec des liens complexes et de ce fait une impossibilité à déterminer les saillances relatives des éléments en présence. Il est en effet difficile de hiérarchiser en terme de saillance les agrégats complexes de Chafe ou les macrostructures et les superstructures de van Dijk. Encore une fois, il semble prématuré d’intégrer ces aspects à un modèle de saillance. Au final, ce sont donc les propriétés linguistiques classiques qui définissent la saillance, sans pour autant réduire celle-ci à un aspect particulier. Toutes les entités du discours sont plus ou moins saillantes, et ceci selon des facteurs variés qui couvrent un grand nombre de domaines de la linguistique.
Types d'analyses linguistiques de la saillance
La remarque précédente nous permet d’expliquer pourquoi ce sont essentiellement des méthodes de quantification qui ont été exploitées en linguistique computationnelle pour déterminer les entités saillantes d’une phrase, d’un énoncé ou d’un discours. Car en effet, ce sont des comparaisons quantitatives qui sont détaillées dans les approches fondatrices déjà citées que sont la thèse de Sidner puis la Théorie du Centrage, mais aussi et surtout le livre d’Alshawi qui décrit le calcul de scores numériques, avec l’attribution du score le plus élevé à l’entité la plus saillante. D’une manière générale, le principe est de déterminer un ensemble de facteurs de saillance puis, pour chaque entité du discours, d’attribuer un score qui dépend du nombre et de l’importance des facteurs jouant en faveur de l’entité. Les scores obtenus peuvent finalement être comparés, ce qui permet de déterminer la ou les entités les plus saillantes, ou éventuellement de considérer qu’aucune entité n’est vraiment saillante. Lors de la détermination des scores, les principales méthodes de calcul qui sont utilisées peuvent se répartir selon les catégories suivantes :
— La somme ou la moyenne des facteurs : c’est sans doute la méthode la plus simple car elle consiste à compter les facteurs jouant en faveur de l’entité considérée, en divisant éventuellement ensuite par le nombre de facteurs. L’inconvénient principal est que les facteurs ont alors tous la même importance, or il se peut au contraire qu’un facteur ait beaucoup plus d’influence qu’un autre.
— La prise en compte du facteur optimal : il s’agit ici de classer a priori les facteurs de saillance par ordre d’importance, et de tester leur application sur chacune des entités du discours, en commençant par le facteur le plus important. Dès qu’un facteur s’applique, l’entité correspondante est considérée comme la plus saillante. L’inconvénient ici est qu’une entité peut satisfaire le seul facteur optimal alors qu’une autre entité peut satisfaire une multitude de facteurs secondaires et constituer ainsi un candidat théoriquement plus pertinent.
— La moyenne pondérée des facteurs : la pondération des facteurs selon leur importance et la prise en compte de l’ensemble par une moyenne s’avère une solution aux problèmes des deux méthodes précédentes. C’est d’ailleurs le choix d’Alshawi. Déterminer des poids s’avère cependant délicat : l’intuition seule ne suffit pas à justifier des chiffres tels que 0.8 ou 0.6, et une analyse de corpus peut aboutir à des résultats biaisés de par la nature du corpus ou les difficultés que pose l’identification par l’annotateur des causes de saillance.
— Les méthodes statistiques : il s’agit de calculer des statistiques, par exemple sur les influences relatives entre facteurs. C’est le choix de Pattabhiraman qui utilise un réseau de relations statistiques entre concepts pour identifier la catégorie la plus saillante dans une situation donnée.
— Les méthodes procédurales : il s’agit cette fois de définir un ensemble ordonné de procédures, une procédure consistant par exemple en l’ajout d’un certain chiffre si un élément particulier apparaît (article indéfini, catégorie verbale particulière, etc.). Ce principe constitue le recours à une méthode calculatoire extrême, qui s’éloigne des théories et modèles linguistiques.
Références fondamentales
- Alshawi, H. (1987). Memory and Context for Language Interpretation, Cambridge: Cambridge University Press.
- Grosz, B.J., Joshi, A.K., Weinstein, S. (1995). Centering: A Framework for Modelling the Local Coherence of Discourse, Computational Linguistics 21(2), pp. 203-225.
- Guillaume, P. (1979). La psychologie de la forme, Paris : Flammarion.
- Lambrecht, K. (1994). Information Structure and Sentence Form. Topic, Focus and the Mental Representations of Discourse Referents, Cambridge: Cambridge University Press.
- Osgood, C.E., Bock, J.K. (1977). Salience and Sentencing: Some Production Principles, In Rosenberg, S. (Ed.), Sentence Production: Developments in Research and Theory, Hillsdale: Erlbaum, pp. 89-140.
- Sidner, C.L. (1979). Towards a Computational Theory of Definite Anaphora in English Discourse, Ph.D. Thesis, MIT.
- Thom, R. (1988). Esquisse d’une sémiophysique, InterEditions, Paris.
Discussions et travaux récents
- Grobet, A. (2002). L’identification des topiques dans les dialogues, Bruxelles : Duculot.
-24.
- Landragin, F. (2004). Saillance physique et saillance cognitive, Cognition, Représentation, Langage (CORELA) 2(2), http://edel.univ-poitiers.fr/corela.
- Pattabhiraman, T., Cercone, N. (1990). Selection: Salience, Relevance and the Coupling between Domain-Level Tasks and Text Planning, In Proceedings of the Fifth International Workshop on Natural Language Generation, Dawson, pp. 79-86.
- Stevenson, R.J. (2002). The Role of Salience in the Production of Referring Expressions, In Van Deemter, K., Kibble, R. (Eds.), Information Sharing: Reference and Presupposition in Language Generation and Interpretation, Stanford: CSLI Publications, pp. 167-192.
- Wolters, M.K. (2001). Towards Entity Status, Ph.D. Thesis, Bonn University.
Articles connexes
- Anaphore ;
- Figure vs fond ;
- Focus ;
- Pronom ;
- Référence ;
- Thème vs rhème.