Textopol > Outils> En savoir plus sur ...
Hyperbase
Version Analyses contrastives Chronologie Cooccurrences Prise en charge catégorisation 5.5. Pour PC.
sur cd rom Sur formes, codes, syntaxes (loi binomiale ou loi normale)
Graphiques, histogrammes Corrélation chronologique (commande évolution) Environnement thématique (à partir de la recherche de contextes) Par cordial selon options définies par Hyperbase Fonctions stylistiques Mesures multidimensionnelles Fonctions documentaires Recherche de motifs Multi balisage Richesse, accroissement structure du vocabulaire Analyse factorielle des correspondantes, analyses arborées, (radiales ou rectangulaire), portant sur les formes, lemmes, structures syntaxiques, codes grammaticaux, liste de formes ou des catégories Concordances, contextes. Pôle : forme, lemme, code grammatical, structure syntaxique, co-présence de termes, initiale, finale, chaîne de caractères, liste…(pas d’expression rationnelle) Non, autant de bases que d’états du corpus
Cette section non exhaustive sera complétée régulièrement. Il ne s’agit pas ici d’un manuel mais d’une présentation illustrée des principales fonctionnalités du logiciel. De plus amples informations figureront dans la section enseignement de Textopol. Des exemples d’applications seront prochainement mis en lignes sur ce même site.
Préparation du texte : nous ne reviendrons pas en détail sur la préparation du corpus à soumettre à Hyperbase. Notons toutefois que la procédure est sensiblement différente selon que l’on veut analyser la surface du texte ou travailler sur un corpus catégorisé.
Un exemple de texte balisé pour Hyperbase sous système PC (casse originale, partition matérialisés par trois le nom de la partie encadrée de trois &)
Dans la configuration d’un corpus catégorisé, aucun balisage préalable puisque à chaque partie du corpus correspond un ficher texte que l’on soumet à Cordial puis à Hyperbase.
1. Approche de la chronologie : La corrélation chronologique :
- Le coefficient de corrélation, (Bravais-Pearson) mesure l’évolution d’une forme (ou d’un lemme) et permet de repérer celles qui globalement sont en progression de celles qui ont tendance à régresser. Pour chaque mot, ce coefficient établit un rapport entre le rang de l’élément et les valeurs de l’écart réduit. On obtient ainsi, pour un seuil défini préalablement une liste des termes qui subissent un accroissement ou qui au contraire sont progressivement abandonnés. Le diagnostic s’exprime par un indice, positif ou négatif, selon que la forme s’accroît ou diminue, la significativité étant proportionnelle à la valeur absolue de cet indice.
Illustration :
>>> Evolution du lexique des vœux présidentiels (1959-2001). Sur une partition en locuteurs.
2. Statistique multidimensionnelle.2.1 Connexion des textes, connexion des vocabulaires.
Les distances textuelles, permettent de porter un jugement en termes de proximités ou d’éloignement entre les textes du point de vue de leur contenu lexical, mais peuvent aussi s’appliquer à d’autres unités, lemmes, catégories morphosyntaxiques…
Cette préoccupation a été introduite par Muller sous la dénomination de connexion lexicale qu’il définissait comme « l’intersection du vocabulaire de deux textes ».
Deux méthodes sont implémentées sous Hyperbase.
La première reprend la méthode de Jacquart en considérant les présences absences des textes dont on cherche à mesurer la distance.
La deuxième est inspirée de la méthode Labbé qui tient compte des fréquences réelles et théoriques. Ces distances peuvent être traduites graphiquement en Analyses factorielles des correspondances (à distinguer de l’AFC telle que pratiquée sous lexico par exemple) ou en arborées
On opère généralement la distinction entre connexion des vocabulaires (distance sur V) et connexion des textes ou connexion intertextuelle (distance sur N)
- Connexion des vocabulaires : (distance sur V, méthode Jacquart)
La connexion des vocabulaires - ou distance sur V - consiste à évaluer la distance entre des textes pris deux à deux en considérant la présence ou l’absence des vocables dans chacun de ces textes, sans se préoccuper de leur fréquence. Ce calcul est fondé sur l’indice de Jacquart. Un mot contribuera à rapprocher deux textes s’il est commun aux deux et à les éloigner s’il est privatif et n’apparaît que dans un seul.
Ce calcul a été remanié pour faire entrer les mots absents dans les textes A et B mais présents dans les autres textes du corpus, soit le nombre de mots ne figurant dans aucun des deux textes.
Ainsi le calcul tient compte :
- De la part commune du vocabulaire des textes dont on cherche à évaluer la distance
- De la part du vocabulaire privatif
- De la fréquence des formes absentes dans A et B mais présentes dans les autres parties du corpus
- De l’étendue du vocabulaire de chaque texte.
Deux textes sont jugés proches selon le vocabulaire qu’ils partagent et celui qu’ils rejettent tous deux par rapport à l’ensemble.- Connexion intertextuelle : (distance sur N, méthode Labbé)
La connexion des textes ou connexion intertextuelle (distance sur N) vise à comparer la surface des textes en tenant compte des fréquences d’emploi. On cherche ainsi à évaluer combien de mots sont communs aux textes soumis à cette mesure. Pour chacun des mots on calcule la différence entre fréquence théorique et la fréquence observée. Cet indice est insensible aux différences de longueur entre textes, encore s’agit-il de conserver des proportions comparables. Selon D. Labbé, ce calcul ne peut être opéré sur des textes trop petits (pas moins de 1000 mots), l’algorithme serait plus sensible au fréquences basses qu’aux mots fréquents, il convient d’éliminer les hapax et plus particulièrement les mots rares rencontrés dans le texte le plus long (Brunet apporte un correctif en refusant les hapax des deux textes, du plus long mais aussi du plus court), il convient de ne pas tenir compte des écarts inférieurs à 0,5.
Illustrations :Représentation arborée des distances (sur N et V) du corpus majpres, radial, sur le Khi2.
Représentation rectangulaire de la distance sur N
Analyse factorielle de la distance sur V du même corpus partition locuteur
Distance sur N et sur V d’un texte pris comme référence.
Références sur la connexion des textes et connexion des vocabulaires :…
Arborées Luong : Ce mode de représentation consiste à matérialiser sur un plan la distance d’un texte à tous les autres et des textes deux à deux en traduisant directement cette distance par la longueur des segments qui mène de l’un à l’autre des textes, soit d’une feuille terminale de l’arbre à une autre. Ces distances sont ainsi plus faciles à interpréter puisque directement transposées par la représentation et proportionnelles à la longueur des segments. La distance parcourue entre les différents points du graphique, retranscrit donc fidèlement les distances produites par les calculs précédemment présentés. On se gardera cependant d’évaluer cette distance à vol d’oiseau mais bien de la mesurer en rendant compte du chemin parcouru. Le niveau et la forme des embranchements sont également significatifs. Ainsi, des branches resserrées ou largement déployées donneront lieu à des interprétations différentes. Ce type de représentation est particulièrement approprié ainsi que le souligne (Brunet 2004) lorsqu’il s’agit d’analyser un tableau où lignes et colonnes désignent les mêmes objets et où les valeurs sont lues symétriquement (matrices carrées), ce qui est le cas du tableau produit par le calcul de distance où la distance de A vers B est nécessairement identique à celle de B vers A.
- Analyse factorielle des correspondances :
Illustration :
Analyse factorielle du dictionnaire : corpus vœux (lien)
Opérations sur une liste de formes
Illustration :Marques personnelles dans le corpus vœux
3. Fonctionnalités « stylistiques »s ou « stylométriques »
3.1 Richesse, accroissement du vocabulaire
Illustrations : (lien)4. Fonctionnalités avancées :
Couplé à Cordial, Hyperbase offre de multiples possibilités de recherches et d’analyses portant sur des propriétés morphosyntaxiques
4.1. A partir d’une catégorisation (dont il n’est pas possible de choisir les options)
L’exploration (concordance contexte) peut désormais prendre pour pôle une forme, un lemme un code ou une combinaison de codes grammaticaux (exemple Vmn ; verbe principal à l’infinitif), une structure syntaxique (ex : bvv (subordination, verbe, verbe), une chaîne de caractères, deux co-présences…le résultat obtenu peut être la base d’un calcul de cooccurrences (environnement thématique),
Les mêmes motifs de recherche peuvent être appliqués pour la création d’un graphique, d’une liste et donc donner lieu à une factorielle ou une arborée.
Quelques exemples (lien)
4.2. A partir des statistiques complètes du texte (voir savoir plus sur Cordial)
(indices).
Cordial établit des statistiques complètes sur les textes selon trois niveaux d’analyse : les moyennes grammaticales, en fonction de la sémantique, et ;;;. On peut combiner ces données et les analyser sous formes d’analyses factorielles ou de …Quelques exemples…(lien)
<< Retour Outils -Quels outils, pour quoi faire - Vers le site Hyperbase -Vers les autres outils >>