Balisage xml sur la forme graphique

1. Encoder le fichier xml

Lors de la création du fichier xml choisir un encodage ANSI ou UTF-8 mais bien le préciser à l’entrée dans TextObserver afin que les accents se codent correctement. En enregistrant en texte brut avec word vous obtiendrez du ANSI.

Lors de cet enregistrement pensez à cocher « autoriser le replacement des caractères » pour éviter entre autre les problèmes d’encodage des guillemets.

textebrut-autoriser-remplacement-caracteres

Nb : le logiciel Notepad++ permet de convertir l’encodage proprement si nécessaire (menu Encodage>Convertir en …)

2. Baliser le corpus

Chaque division du corpus (partition) doit être encadrée par un balisage.

balise1

extrait du fichier balisé :

balisage-xml

Les caractères interdits :

  • Les textes ne doivent en aucun cas contenir des chevrons (‹ ou › ) car ces caractères perturbent le fonctionnement des balises xml.
  • Ne pas laisser de & (esperluette) dans le texte.
  • les ~ (tildes) posent également problème
  • pas de tabulations
  • Ne pas utiliser les codes html pour remplacer les caractères spéciaux ou accentués dans le texte.
  • la balise (en anglais) est une balise réservée… ne pas l’utiliser pour encadrer les divisions du corpus.

NB : Le fichier ne doit en aucun cas comporter de balise vide (partition ou W)
exemple de balise vide :

exemple-balise-xml-vide
(un mot doit figurer entre la balise ouvrante et la balise fermante )

Une fois le corpus balisé, enregistrer en txt puis changer l’extension .txt pour .xml
Copier ce fichier dans un dossier en racine de TextObserver.

>> importer un corpus