Taxonomie

De Sémanticlopédie
Aller à : navigation, rechercher
par Patrick Saint-Dizier


Situation

Les Taxonomies décrivent essentiellement ce qui est plus connu sous le nom de relation est-un ou générique-spécifique. Cette relation crée une structure arborescente, hiérarchique, appelée taxonymie qui organise des concepts (eux-mêmes lexicalisés, éventuellement de différentes façons). Cette relation est la plus connue des relations de la sémantique lexicale. Elle est très employée dans la description d'ontologies ainsi qu'en intelligence artificielle, associée à des mécanismes d'unification basés sur la notion de subsomption.

Dans une taxonymie, les fils sont appelés hyponymes de leur père, de plus, et idéalement, les frères sont incompatibles entre eux, mais sont de même nature pour que la décomposition soit cohérente (par exemple, sous oiseau, on aura merle, mésange, bouvreuil, pie, etc.). De la même façon que pour les méronomies, la décomposition d'un objet en ses sous-types doit suivre des règles rigoureuses d'homogénéïté des niveaux de décomposition. Le concept de livre a comme sous-types, par exemple, roman, dictionnaire, livre pratique, etc., ces sous-types étant du même niveau. Dictionnaire peut ensuite être décomposé, par exemple, en dictionnaire d'usages, dictionnaire bilingue, dictionnaire encyclopédique, dictionnaire de synonymes, de citations, etc. Il ne faut pas non plus confondre sous-type et facette d'un concept. Ainsi, livre a deux facettes: le contenu et le contenant (l'objet physique). Aucun de ces deux éléments n'est un sous-type de livre, ni une partie, du reste.

Les taxonomies permettent de structurer une grande variété d'objets: des objets concrets, désignés par des noms, mais aussi des événements, souvent désignés par des formes verbales ou des formes dérivées, des propriétés et leur(s) valeur(s) (rouge est une couleur), etc.

Le test linguistique le plus simple qui établit que Y est un sous-type de X consiste à vérifier la validité de:

Y est un X ou bien Y est une sorte de X (un perroquet est une sorte d'oiseau),

et en ce qui concerne les événements:

Y est une façon de faire X. (courir est une façon de se déplacer)

Les taxonomies naturelles

La définition de taxonomies sur une grande échelle, par exemple pour structurer les connaissances d'un domaine, pose de très gros problèmes de méthode et de cohérence. Nous en présentons quelques éléments ici, préalables à toute mise en place d'une telle structure.

Les taxonomies naturelles ont été étudiées de façon approfondie en particulier par des linguistes anthropologues. Une caractéristique importante est que ces structures ont au plus 5 niveaux, que l'on définit usuellement comme suit: racine/famille/genre/espèce/variété. Dans des domaines techniques, on a observé des taxonomies allant jusqu'à 7 niveaux, mais cela semble alors difficile à intégrer conceptuellement pour l'utilisateur.

La zone la plus intéressante et la plus développée dans les taxonomies naturelles est sans aucun doute celle qui correspond aux concepts dits génériques, qui caractérisent des objets courants, tels que pomme, maison, tasse, lapin, morphologiquement simples, et a priori non métaphoriques. Cette zone est constituée en général par les deux niveaux les plus bas de l'arbre taxonomique.

Dans les taxonomies naturelles apparaissent aussi des concepts qui sont plus prototypiquement des sous-types d'autres. Ainsi, merle est-il plus prototypique d'oiseau que, par exemple, autruche. Beaucoup de concepts (ou catégories) ont donc des exemplaires (sous-types) prototypiques et des exemplaires plus périphériques (comme par exemple chaussure comme sous-type de vêtement).

Enfin, l'un des grands débats autour des taxonomies est de savoir si elles sont représentées par des arbres ou par des graphes. Il semble que la communauté linguistique penche plutôt pour l'emploi d'arbres, à cause de leur simplicité et de leur clarté. Les praticiens des ontologies sont moins clairs sur ce problème, et préconisent qu'un concept puisse avoir plusieurs parents, qui, en quelque sorte, apportent des éclairages différents sur celui-ci. Par exemple, un camping-car est à la fois un sous-type de véhicule et de logement de tourisme, ce au même titre que mobile-home, tente, chalet, caravane, etc. Nous sommes bien ici dans une situation de sous-type et non pas de facette (logement + tourisme), ce qui justifie l'introduction de graphes.

Taxonomies et ontologies

Les taxonomies sont utilisées de façon intensive dans la mise en place d'ontologies, générales ou de spécialité. Les systèmes d'ontologies les plus récents postulent une architecture de représentation de connaissances quelque peu avancée qui nécéssite un approfondissement de la notion de taxonomie.

Dans un premier lieu, les noeuds des taxonomies sont des concepts (et non pas des mots), donc des abstractions sur des connaissances. A chaque noeud, donc concept, est associé, dans une langue donnée, ses différentes lexicalisations (les différents mots ou groupes de mots utilisés pour désigner ce concept). Souvent, la lexicalisation la plus usuelle est utilisée pour nommer le noeud. Les différentes lexicalisations sont autant de termes équivalents, ou presque, compte tenu du niveau de granularité considéré dans la taxonymie. Les lexicalisations incluent en particulier des termes quasi-synonymes et des termes qui évoluent dans des niveaux de langue différents. Nous avons ainsi le concept désigné par voiture auquel est associé un ensemble de termes: {voiture, bagnole, caisse, conduite intérieure, ...}.

Une ontologie a aussi vocation à un emploi multilingue: pour chaque concept on peut associer des ensembles de réalisations, différents pour chaque langue. Certaines langues peuvent manquer de termes pour désigner un concept (en anglais, selon A. Cruse, il n'y a pas de terme générique pour désigner l'ensemble des couverts), dans ce cas, le concept existe mais il n'est pas lexicalisé.

A côté des lexicalisations, des propriétés, en général simples et prototypiques, sont souvent associées aux concepts. Elles en définissent les contours essentiels et sont utilisées dans différentes tâches descriptives ou inférentielles, comme par exemple pour mesurer la distance entre deux concepts. Les propriétés sont codées en général sous la forme attribut-valeur. Elles permettent de décrire des aspects assez concrets et génériques, tels que des propriétés physiques. Il est possible d'associer un type à chaque propriété qui en décrit l'ensemble des valeurs qui peuvent lui être associée.

Propriétés des taxonomies

Les taxonomies se caractérisent par deux propriétés fondamentales: la transitivité et l'héritage de propriétés. La transitivité permet de dire que:

si C est un sous-type de B et B un sous-type de A alors C est un sous-type de A.

Cette propriété fonctionne bien, même si parfois son expression en langue peut paraître parfois un peu bizarre par le raccourci qu'elle autorise, mais de façon moins marquée que pour les méronomies où elle s'emploie peu.

La seconde propriété est l'héritage descendant des propriétés. Si B est un sous-type de A, alors, sauf mention contraire, il hérite de toutes ses propriétés. B n'héritera pas d'une propriété particulière de A si lui-même contient une mention de cette propriété avec une valeur différente et contradictoire ou plus spécifique. La spécification de plus bas niveau est préférée. On appelle ceci un blocage. On a, par exemple, le cas de pinguoin qui est un oiseau, mais pour lequel la propriété a des ailes sera à faux, alors que pour oiseau celle-ci est à vrai. Si B est un sous-type de plusieurs noeuds, alors il hérite de l'ensemble des propriétés de ces noeuds. A ce niveau, peut se poser la cohérence des informations héritées, quand, par exemple, ces noeuds pères ont une propriété commune, mais avec une valeur (ou un ensemble de valeurs) différente(s). Dans ce cas, plusieurs types de mécanismes ont été développés qui proposent des solutions minimales (intersection, par exemple) ou au contraire qui englobent l'ensemble de celles-ci (union).