Synonymie : Différence entre versions

De Sémanticlopédie
Aller à : navigation, rechercher
 
m (Un peu de lecture)
 
(14 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
 
[[catégorie:notions sémantiques|Synonymie]]
 
[[catégorie:notions sémantiques|Synonymie]]
 
{{auteur|[[Utilisateur:PatrickStDizier|Patrick Saint-Dizier]]}}
 
{{auteur|[[Utilisateur:PatrickStDizier|Patrick Saint-Dizier]]}}
 +
 +
{{en cours}}
 +
 +
<!--
 +
{{relecture}}
 +
-->
  
  
 
== Situation ==
 
== Situation ==
  
La synonymie est un phénomène difficile à caractériser.
+
La synonymie est un phénomène difficile à caractériser, en particulier parce qu'il existe très peu de vrais synonymes. En cela, la langue est rationelle et économe en moyens. La définition stricte de la synonymie est que A et B sont synonymes si dans tout énoncé E où A apparaît, A peut être substitué par B sans en affecter aucunement le sens.
 +
Cette définition est bien entendu peu applicable dans la réalité, même via le déploiement de grands corpus, car il faudrait contrôler tous les emplois, qui sont en général infinis. De plus, si des paires de termes étaient trouvés, cette relation de synonymie absolue serait très instable: il suffirait qu'un jour un usage vienne la contrarier.
 +
 
 +
S'il existe un très petit nombre de vrais synonymes (par exemple ''débuter'' et ''commencer''), il existe en revanche un grand nombre de termes qui sont très proches et interchangeables dans de nombreux contextes, mais pas systématiquement. Cette perspective est nettement plus interessante et utile. Ces termes peuvent être proches sémantiquement, mais avec quelques éléments qui vont les différencier. Des paires de termes ayant à la fois un recouvrement sémantique fort et un faible degré de différenciation sont souvent appelés '''quasi-synonymes'''. Les quelques points ci-dessous illustrent ces différences:
 +
 
 +
* niveau de langue: ''voiture'' et ''bagnole'' sont synonymes, mais avec des connotations différentes, voiture est neutre, bagnole populaire, voire péjoratif, notons concernant cet exemple, l'emploi de ''caisse'' qui est à la fois métaphorique et probablement une focalisation sur la carrosserie dont il est dit qu'elle est de piètre qualité ou d'une esthétique médiocre,
 +
 
 +
* langue de spécialité: sur un niveau davantage horizontal, on peut trouver des termes synonymes, mais projetés dans des domaines de spécialité différents. Ainsi, dans le domaine de l'informatique ''répertoire'' est synonyme de celui de ''dossier'' dans le domaine du secrétariat,
 +
 
 +
* Ethymologie différente: c'est le cas en particulier de l'anglais qui a souvent deux termes, l'un d'origine latine, l'autre germanique, pour désigner le même concept. Le terme latin est souvent interprété comme étant plus littéraire: ''elevator/lift, commence/begin'', des mots d'autres langues proches peuvent aussi être employés, comme le gaellique: ''valley/glen''.
 +
 
 +
Comme dans beaucoup de situations, certaines paires de termes sont plus proches que d'autres; ''fauteuil'' et ''sofa'' sont plus proches que ''fauteuil'' et ''banquette'', par exemple, bien que ceci reste subjectif, et entâché de considérations de prototypicalité.
 +
 
 +
== Les synonymes cognitifs ==
 +
 
 +
On peut considérer que la synonymie absolue est un point ultime. En s'en éloignant quelque peu sur une échelle de différenciation, on trouve les synonymes cognitifs. Cetrte échelle se prolonge jusqu'à atteindre la non-synonymie, voire les opposés. Dans chaquez région de l'échelle, le degré de synonymie varie de plusieurs façons.
 +
 
 +
Deux termes sont des synonymes cognitifs si ils ont les mêmes traits propositionnels (aussi appelés définitoires) mais diffèrent quant à leurs traits dits ''expressifs'', caractéristiques d'attitudes psychologiques telles que le doute, la certitude, l'espoir, l'attente, la surprise, la déception, le sérieux, etc. C'est ainsi le cas de ''maman'' et de ''mère'' et de ''bébé'' et de ''nourrisson''.
 +
 
 +
Plusieurs travaux ont alors introduit la notion de micro-relation, qui permet de représenter des contrastes de faible amplitude entre des termes jugés quasi-synonymes. Nous donnons les trois principales ici:
 +
 
 +
* micro-incompatibilité: comme entre ''prêtre/pasteur, éxécuter/assassiner'',où apparaissent des nuances dans certaines propriétés (religion, délit ou pas),
 +
 
 +
* micro-compatibilité: comme dans les paires: ''lettre/message, article/analyse'', où l'on perçoit des objectifs qui peuvent être différents,
 +
 
 +
* micro-hyponymie: comme dans les paires: ''courageux/brave, tuer/executer'',
 +
où l'on note que le second membre de la paire est quelque peu plus spécifique: executer est une façon de tuer, mais la distance conceptuelle est faible.
 +
 
 +
== Synonymie et distance conceptuelle ==
 +
 
 +
Une des préoccupations importantes des travaux en recherche d'information,
 +
en question-réponses et en résumé automatique est la mesure de similarité,
 +
ou dissimilarité, entre deux concepts, eux-même lexicalisés de différentes manières. Ces mesures de similarité sont souvent consacrées à déterminer en quoi deux concepts sont proches. Bien que n'étant pas a priori orientés vers la recherche de synonymes, ces travaux n'en n'éclairent pas moins cette notion d'un façon opérationelle intéressante. Nous n'allons pas ici faire un résumé de ces très nombreux travaux, mais simplement indiquer quelques pistes à même de guider le lecteur.
 +
 
 +
Lorsque l'ensemble des concepts que l'on considère sont rassemblés au sein d'une même ontologie, des méthodes simples vont considérer une mesure de distance entre deux concepts basées sur le nombre d'arcs qui les séparent (Rada et al. 89), ou bien le nombre d'arcs qui les distinguent par rapport à la racine (Wu et Palmer 94) ou par rapport aux feuilles (Zargayouna et al. 04).
 +
(Resnik 94) introduit une métrique basée globalement sur le contenu informationnel des deux concepts comparés. Il introduit une mesure non linéaire basée sur les concepts subsumés par ces duex concepts à comparer. (Lin 97) introduit une notion de norme sur cette mesure, tandis que (Hirst et al. 98) introduisent [http://wordnet.princeton.edu/ WordNet] et son ensemble de synsets structurés.
 +
 
 +
Les métriques qui opèrent sur des ontologies différentes sont plus complexes, du fait des décalages structurels et événtuellement de conception. Plusieurs métriques terminologiques (mesure basée sur les termes liés aux concepts), extensionelles (mesure des instances connues), et mesures basées sur la prise en compte des relations lexicales qui relient les termes (Ehrig et al. 04) par exemple. Les méthodes peuvent être locales (on considère strictement les concepts à comparer) ou bien globales (on considère aussi les voisinages de ces concepts).
 +
 
 +
Au sein d’une même ontologie, la distance sémantique est induite essentiellement par la relation ‘est-un’, basée sur une similarité fortement liée à la conception de l’ontologie quant à son contenu informationnel. Dans deux ou plusieurs ontologies, la similarité entre concepts  est le plus souvent évaluée selon des méthodes terminologiques: comparaison des noms des concepts, synonymes, comparaison des propriétés lorsqu'elles sont spécifiées et qu'elles sont relativement complètes, comparaison des instances via les valeurs de domaine et de co-domaine ou bien encore comparaison par la similarité basée sur la notion de voisinage. Toutes ces métriques sont à base statistique, avec des fonctions de lissage, en particulier logarithmiques.
 +
 
 +
== Un peu de lecture ==
 +
 
 +
Cruse, A., ''Lexical Semantics'', Cambridge University Press, 1986.
 +
 
 +
Ehrig et Sure, Ontology Mapping — an Integrated Approach, ''Proc. 1st ESWS'', Hersounisous (GR), lecture notes in Computer Science, pages 76-91
 +
Springer verlay, May 2004
 +
 
 +
Hirst et Onge, Lexical chains as representations of context for the detection and correction of malapropisms, dans ''WordNet : An Electronic Lexical Database'', Cambridge MA – The MIT Press
 +
 
 +
Lin, Y., Using Syntactic Dependency as Local Context to resolve word sense ambiguity, ''Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics''
 +
 
 +
Rada et al., Development and Application of a metric on Semantic Nets, ''IEEE Transaction on Systems, Man and cybernetics'', vol 19 pp 17-30, 1989
 +
 
 +
Resnik, P., Using Information Content to Evaluate Semantic Similarity in a Taxonomy, ''Proceedings of the 14th International Joint Conference on Artificial Intelligence'', Montreal, 2004.
 +
 
 +
Wu, Z. et Palmer, M., Verb Semantics and Lexical Selection, ''Proceedings of the 32nd Annual meetings of the Associations for Computational Linguistics'', Pages 133-138
 +
 
 +
Zargayouna, H. et Salotti, S., Mesure de similarité sémantique pour l’indexation de documents semi-structurés, ''12ème Atelier de Raisonnement à partir de Cas'', Ingénierie des Connaissances, Mars 2004

Version actuelle datée du 24 mars 2007 à 11:55

par Patrick Saint-Dizier
Page en cours de rédaction
Fairytale waring.png En cours de rédaction
Cet article est actuellement en cours de rédaction par son auteur. Veuillez en tenir compte à la lecture.


Situation

La synonymie est un phénomène difficile à caractériser, en particulier parce qu'il existe très peu de vrais synonymes. En cela, la langue est rationelle et économe en moyens. La définition stricte de la synonymie est que A et B sont synonymes si dans tout énoncé E où A apparaît, A peut être substitué par B sans en affecter aucunement le sens. Cette définition est bien entendu peu applicable dans la réalité, même via le déploiement de grands corpus, car il faudrait contrôler tous les emplois, qui sont en général infinis. De plus, si des paires de termes étaient trouvés, cette relation de synonymie absolue serait très instable: il suffirait qu'un jour un usage vienne la contrarier.

S'il existe un très petit nombre de vrais synonymes (par exemple débuter et commencer), il existe en revanche un grand nombre de termes qui sont très proches et interchangeables dans de nombreux contextes, mais pas systématiquement. Cette perspective est nettement plus interessante et utile. Ces termes peuvent être proches sémantiquement, mais avec quelques éléments qui vont les différencier. Des paires de termes ayant à la fois un recouvrement sémantique fort et un faible degré de différenciation sont souvent appelés quasi-synonymes. Les quelques points ci-dessous illustrent ces différences:

  • niveau de langue: voiture et bagnole sont synonymes, mais avec des connotations différentes, voiture est neutre, bagnole populaire, voire péjoratif, notons concernant cet exemple, l'emploi de caisse qui est à la fois métaphorique et probablement une focalisation sur la carrosserie dont il est dit qu'elle est de piètre qualité ou d'une esthétique médiocre,
  • langue de spécialité: sur un niveau davantage horizontal, on peut trouver des termes synonymes, mais projetés dans des domaines de spécialité différents. Ainsi, dans le domaine de l'informatique répertoire est synonyme de celui de dossier dans le domaine du secrétariat,
  • Ethymologie différente: c'est le cas en particulier de l'anglais qui a souvent deux termes, l'un d'origine latine, l'autre germanique, pour désigner le même concept. Le terme latin est souvent interprété comme étant plus littéraire: elevator/lift, commence/begin, des mots d'autres langues proches peuvent aussi être employés, comme le gaellique: valley/glen.

Comme dans beaucoup de situations, certaines paires de termes sont plus proches que d'autres; fauteuil et sofa sont plus proches que fauteuil et banquette, par exemple, bien que ceci reste subjectif, et entâché de considérations de prototypicalité.

Les synonymes cognitifs

On peut considérer que la synonymie absolue est un point ultime. En s'en éloignant quelque peu sur une échelle de différenciation, on trouve les synonymes cognitifs. Cetrte échelle se prolonge jusqu'à atteindre la non-synonymie, voire les opposés. Dans chaquez région de l'échelle, le degré de synonymie varie de plusieurs façons.

Deux termes sont des synonymes cognitifs si ils ont les mêmes traits propositionnels (aussi appelés définitoires) mais diffèrent quant à leurs traits dits expressifs, caractéristiques d'attitudes psychologiques telles que le doute, la certitude, l'espoir, l'attente, la surprise, la déception, le sérieux, etc. C'est ainsi le cas de maman et de mère et de bébé et de nourrisson.

Plusieurs travaux ont alors introduit la notion de micro-relation, qui permet de représenter des contrastes de faible amplitude entre des termes jugés quasi-synonymes. Nous donnons les trois principales ici:

  • micro-incompatibilité: comme entre prêtre/pasteur, éxécuter/assassiner,où apparaissent des nuances dans certaines propriétés (religion, délit ou pas),
  • micro-compatibilité: comme dans les paires: lettre/message, article/analyse, où l'on perçoit des objectifs qui peuvent être différents,
  • micro-hyponymie: comme dans les paires: courageux/brave, tuer/executer,

où l'on note que le second membre de la paire est quelque peu plus spécifique: executer est une façon de tuer, mais la distance conceptuelle est faible.

Synonymie et distance conceptuelle

Une des préoccupations importantes des travaux en recherche d'information, en question-réponses et en résumé automatique est la mesure de similarité, ou dissimilarité, entre deux concepts, eux-même lexicalisés de différentes manières. Ces mesures de similarité sont souvent consacrées à déterminer en quoi deux concepts sont proches. Bien que n'étant pas a priori orientés vers la recherche de synonymes, ces travaux n'en n'éclairent pas moins cette notion d'un façon opérationelle intéressante. Nous n'allons pas ici faire un résumé de ces très nombreux travaux, mais simplement indiquer quelques pistes à même de guider le lecteur.

Lorsque l'ensemble des concepts que l'on considère sont rassemblés au sein d'une même ontologie, des méthodes simples vont considérer une mesure de distance entre deux concepts basées sur le nombre d'arcs qui les séparent (Rada et al. 89), ou bien le nombre d'arcs qui les distinguent par rapport à la racine (Wu et Palmer 94) ou par rapport aux feuilles (Zargayouna et al. 04). (Resnik 94) introduit une métrique basée globalement sur le contenu informationnel des deux concepts comparés. Il introduit une mesure non linéaire basée sur les concepts subsumés par ces duex concepts à comparer. (Lin 97) introduit une notion de norme sur cette mesure, tandis que (Hirst et al. 98) introduisent WordNet et son ensemble de synsets structurés.

Les métriques qui opèrent sur des ontologies différentes sont plus complexes, du fait des décalages structurels et événtuellement de conception. Plusieurs métriques terminologiques (mesure basée sur les termes liés aux concepts), extensionelles (mesure des instances connues), et mesures basées sur la prise en compte des relations lexicales qui relient les termes (Ehrig et al. 04) par exemple. Les méthodes peuvent être locales (on considère strictement les concepts à comparer) ou bien globales (on considère aussi les voisinages de ces concepts).

Au sein d’une même ontologie, la distance sémantique est induite essentiellement par la relation ‘est-un’, basée sur une similarité fortement liée à la conception de l’ontologie quant à son contenu informationnel. Dans deux ou plusieurs ontologies, la similarité entre concepts est le plus souvent évaluée selon des méthodes terminologiques: comparaison des noms des concepts, synonymes, comparaison des propriétés lorsqu'elles sont spécifiées et qu'elles sont relativement complètes, comparaison des instances via les valeurs de domaine et de co-domaine ou bien encore comparaison par la similarité basée sur la notion de voisinage. Toutes ces métriques sont à base statistique, avec des fonctions de lissage, en particulier logarithmiques.

Un peu de lecture

Cruse, A., Lexical Semantics, Cambridge University Press, 1986.

Ehrig et Sure, Ontology Mapping — an Integrated Approach, Proc. 1st ESWS, Hersounisous (GR), lecture notes in Computer Science, pages 76-91 Springer verlay, May 2004

Hirst et Onge, Lexical chains as representations of context for the detection and correction of malapropisms, dans WordNet : An Electronic Lexical Database, Cambridge MA – The MIT Press

Lin, Y., Using Syntactic Dependency as Local Context to resolve word sense ambiguity, Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics

Rada et al., Development and Application of a metric on Semantic Nets, IEEE Transaction on Systems, Man and cybernetics, vol 19 pp 17-30, 1989

Resnik, P., Using Information Content to Evaluate Semantic Similarity in a Taxonomy, Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal, 2004.

Wu, Z. et Palmer, M., Verb Semantics and Lexical Selection, Proceedings of the 32nd Annual meetings of the Associations for Computational Linguistics, Pages 133-138

Zargayouna, H. et Salotti, S., Mesure de similarité sémantique pour l’indexation de documents semi-structurés, 12ème Atelier de Raisonnement à partir de Cas, Ingénierie des Connaissances, Mars 2004