Manuel d'encodage à destination des transcripteurs



Avant-propos

  • L'objectif de ce manuel est de présenter le plus pratiquement possible les tâches de transcription et d'encodage du projet Tacitus On Line, ainsi que les concepts qui les sous-tendent.
  • Il est à destination des personnes qui participent à ces tâches.
  • Encodage = transcrire un texte dans un format donné (selon des codes)

Le projet Tacitus On Line

  • Le but est de présenter le plus grand nombre de commentaires possibles, écrits à partir du XVe siècle, autour des Annales de Tacite, pour permettre un développement des recherches.
  • En tant qu’encodeur, votre rôle est de transcrire les commentaires au texte de Tacite et d’en annoter certains phénomènes.
  • À partir du PDF de l’édition de référence et du fichier XML-TEI où se trouve déjà le texte de Tacite encodé, vous allez encoder les commentaires en utilisant le logiciel Oxygen.

Étapes du projet

Vocabulaire du projet

  • Selon l’édition des Belles Lettres, chaque livre des Annales de Tacite est divisé en paragraphes, à l’intérieur desquels les phrases sont numérotées
    • Division des Annales de Tacite
    • Exemple : 1.7. 4 chez Tacite correspond à la quatrième phrase du septième paragraphe du livre 1
  • Lemme : premiers mots de la petite phrase commentée, repris en majuscules en début de commentaire

Lemme

Le XML

  • Le format de transcription choisi pour le projet est le XML
  • Le XML… qu’est-ce que c’est ?
    • comprenez « Extensible Markup Language » ou langage de balisage extensible
    • langage de description informatique
    • permet de décrire des données, ou un texte, en utilisant des balises
  • Pour en savoir plus sur le XML : lien

Vocabulaire du XML

Le XML - Balises

  • Les éléments de base du XML sont les balises, elles permettent d’encadrer l’information, en disant : « ici il y a quelque chose d’intéressant, et voilà ce que c’est ».
  • Exemple :
    Le projet Tacitus On Line commence par proposer à la lecture et à l’étude les commentaires de <auteur>Juste Lipse</auteur>, en offrant des analyses qui, en se fondant sur une typologie, font apparaître la nature de leur contenu.
  • Comme on peut le voir dans cet exemple, les balises fonctionnent en paire :
    • la balise ouvrante (<…>) se situe juste avant l’information à encadrer
    • la balise fermante (</…>) se situe juste après
  • L’information encadrée par deux balises est appelée valeur.

Vocabulaire du XML

Le XML - Arborescence

  • Le document doit respecter le principe d’arborescence :
    • une paire de balises peut contenir plusieurs autres paires de balises
    • si et seulement si les deux balises (ouvrante et fermante) de chaque paire sont contenues dans cette paire de balises

Imbrication et chevauchement

Le XML - Attributs

Les balises peuvent avoir des attributs, qui permettent de donner des renseignements supplémentaires sur le contenu des balises.

Svetonius cap. C. in Aug. <q xml:id="LIPS_59_q1" who= "#svetonius"> Inter alia complura censuerunt quidam, funus porta triumphali ducendum, praecedente Victoria <q>. Neque dicit id factum

  • La balise <q> (pour « quote ») encadre une citation et possède plusieurs attributs.
  • Les attributs sont notés à l’intérieur de la balise ouvrante.
  • Chaque attribut apporte une information supplémentaire :

Vocabulaire du XML

Le XML - "bien formé"

  • Un document XML doit impérativement être bien formé pour être utilisable.
  • Pour cela, il doit impérativement respecter certaines règles de base, notamment :
    1. toute balise ouvrante doit être suivie d’une balise fermante.
    2. les balises ne doivent jamais se chevaucher, c’est-à-dire que si une balise contient une balise ouvrante, la balise fermante associée doit également se retrouver dans la première balise (imbrication des balises).

La TEI

  • Tacitus On Line a choisi de travailler avec des fichiers XML-TEI
  • La TEI, qu’est-ce que c’est ?
    • une « façon » de faire du XML où le jeu de balises que l’on va utiliser est déjà défini
    • un standard, très largement utilisé qui permet d’échanger des données en utilisant la « même langue » (principe d’interopérabilité)
  • fichier XML qui respecte ce jeu de balises = « fichier XML-TEI » ou « fichier TEI »
  • Un fichier XML-TEI possède toujours un header TEI qui comprend des métadonnées, c’est-à-dire des informations à propos du projet, du fichier lui-même ou du document source.
TEI

Oxygen

Pour l’encodage on utilise le logiciel Oxygen, éditeur XML, qui permet de créer et de modifier des fichiers XML.

Ouvrir un fichier : Ouvrir Oxygen > Fichier > Ouvrir > *choisir le fichier*

Interface Oxygen

Oxygen - Comment faire pour...

  • Ajouter une balise ?
    • Sélectionner la portion de texte à baliser et double-cliquer sur le nom de la balise dans la fenêtre des éléments
    • ou, sélectionner la portion de texte à baliser et faire CTRL E ou Cmd E  pour choisir la balise à ajouter
    • ou, directement écrire la balise ouvrante et la balise fermante de chaque côté de la portion de texte à baliser
  • Ajouter un attribut ?
    • Placer le curseur dans une balise et remplir la valeur d’un des attributs dans la zone des attributs
    • ou, directement écrire l’attribut et sa valeur dans la balise ouvrante
  • Supprimer une balise ?
    • Sélectionner la balise ouvrante et la supprimer, ce qui supprimera la balise fermante aussi

Oxygen - Document Valide

  • Lorsque le document comporte des erreurs, le logiciel l’indique et signale les erreurs en question dans le document.
  • Il peut s’agir d’une balise non fermée, d’un caractère interdit, ou autre.
  • Un message précise le type d’erreur pour la corriger plus facilement.

Document invalide Document valide

La foire aux erreurs répertorie les erreurs les plus fréquentes, allez voir !

Encoder pour Tacitus On Line

À partir du PDF de l’édition de référence (Paris, Pierre Chevallier, 1608) :

  • Transcrire et encoder les commentaires dans un fichier XML-TEI
  • Dans les commentaires, effectuer les annotations pour repérer :
    • Les citations
    • Les passages en grec

  • Signaler :
    • les problèmes de ponctuation : encadrer par <sic> </sic>
    • les erreurs présentes dans l’édition imprimée (par exemple un même numéro pour deux commentaires) : encadrer l’erreur par <sic></sic>
  • Il est possible que vous rencontriez des balises <span> et/ou des attributs ana. C’est Isabelle Cogitore qui effectue ces annotations, ne vous en préoccupez pas.

Encoder - Marche à suivre

  1. Télécharger Oxygen (lien) et lancer l’installation
  2. Licence Oxygen (nécessaire pour utiliser le logiciel)
  3. Récupérer le fichier sur le dossier partagé (lien)
    • Pour chaque encodeur, il y a un fichier : Tacite_livre[num]_[NomEncodeur].xml
    • Exemple : si le transcripteur Jean Dupont est chargé de transcrire les commentaires du livre 3, le fichier dont il devra s’occuper sera nommé : Tacite_livreIII_JeanDupont.xml
  4. Ouvrir le fichier avec Oxygen
  5. Récupérer le PDF sur le dossier partagé (lien)

Organisation du fichier

Organisation du fichier XML-TEI

Transcription des commentaires

Principes de base

  • Dans le body du fichier XML-TEI (comme vu à la diapositive précédente)
  • 1 commentaire = 1 balise <div>
  • Transcription du commentaire, de son numéro, de son lemme et des notes marginales s‘il y en a

Éléments à annoter

  • Encodage des citations et des passages en grec
  • Si vous n’êtes pas sûrs, utilisez l’attribut cert="low"
  • Règles de transcriptions propres au latin spécifiées plus loin

Exemple d'une transcription d'un commentaire

Transcription du commentaire 1.2.2


Exercice d'entraînement : (à venir)

Règles de transcription du latin

  • "&" dans le texte doit être transcrit par "&" (voir balise <choice>)
  • Transcription du latin selon les règles des éditions actuelles françaises :
    • des "i" et pas de "j" systématiquement : iam et pas jam ; Iulius et pas Julius
    • des "u" et pas de "v" sauf en majuscule à l’initiale des noms propres et en début de phrase : uirtus et pas virtus ; Vrbs et pas Urbs
  • Les finales longues notées dans l'édition de 1608 comme "ij" ou "iy" sont notées "ii"
  • Les voyelles ne sont pas accentuées
  • Les diphtongues restent notées comme deux voyelles à la suite, non liées : coepi et non cœpi
  • Les "∫" correspondant à la graphie Renaissance des s sont notés "s"

Structure - Balises et attributs

Balise Signification Valeur Attribut(s) Valeur des attributs
<div> Contient le commentaire Tout le commentaire xml:id : identifiant unique du commentaire (voir page xml:id) numéro de paragraphe des Belles Lettres
→ "LIPS_" + numéro du livre + "." + numéro du commentaire
ana : c'est Isabelle Cogitore qui fait ces annotations
resp : auteur du commentaire #lips
<p> Paragraphe Le paragraphe, c'est-à-dire le corps du commentaire, hors notes marginales pas d'attribut
Exemple <div>
<ref> Appel de référence avec la phrase numérotée Contient le numéro du commentaire et le lemme target numéro de livre, de paragraphe et de phrase numérotée selon l’édition des Belles Lettres
Exemple <ref>
<note> Note marginale (en dehors du paragraphe) Contenu de la note xml:id : identifiant unique de la note (voir page xml:id) identifiant du commentaire + "_n" + numéro de la note
rend="marge"
Exemple <note>
<unclear> Lecture ou transcription incertaine Segment de texte concerné pas d'attribut

Annotation - Balises et attributs

Balise Signification Valeur Attribut(s) Valeur des attributs
<choice> Regroupe deux versions d'une même forme Les deux versions de la forme en question pas d'attribut
<orig> Forme originale pas d'attribut
<reg> Forme régularisée/normalisée pas d'attribut
Exemple <choice>
<q> Citation Passage cité xml:id : identifiant unique de la citation (voir page xml:id) identifiant du commentaire + "_q" + numéro de la citation dans le commentaire
ana : c'est Isabelle Cogitore qui fait ces annotations
who : auteur de la citation, si connu voir liste des auteurs (toujours précédés d'un #)
xml:lang : si la citation n'est pas en latin "GR" pour grec
Exemple <q>
Exemple <q> avec grec
<l> Vers, à l’intérieur d’une citation Vers cité pas d'attribut
Exemple <l>
<foreign> Passage en grec (hors citation) Tout le segment de texte en grec xml:lang="GR"

Valeurs de l'attribut xml:id

Organisation du fichier XML-TEI

Liste des auteurs (attributs who et resp)

Attention, toujours précédés d'un #

#ammianus #florus #muretus #suetonius
#appianus #glossae_priscae #ouidius #tacitus
#aristophanes #herodianus #pincianus #tert
#beroaldus #hieronymus #plinius #tertullianus
#caesar #homerus #plutarchus #thucidides
#calpurnius #horatius #quintilianus #torrentius
#capitolinus #iunius #seneca #valerius
#censorinus #iuuuenalis #sidonius #varro
#claudianus #julianus_apostata #spartianus #velleius
#cornelius #lampridius #statius #virgilius
#dio #liuius #strabo #xiphilinus
#euripides #lucanus #suidas #zonaras

Exemple d'un commentaire transcrit


Transcription du commentaire 1.25.2

Encoder - Dernières étapes

  • Ajouter sa contribution au header :
    • Aller dans le header, au niveau de la balise <titleStmt>
    • À la suite de la liste de balises <respStmt>, ajoutez la vôtre comme ceci : (en fonction de ce que vous avez fait)
  • Sauvegarder (régulièrement !!)
  • Vérifier que le fichier est correctement nommé : Tacite_livreIII_JeanDupont.xml
  • Mettre en ligne le fichier sur le dossier partagé (lien)
  • Prévenir Isabelle Cogitore par mail isabelle.cogitore@univ-grenoble-alpes.fr

Foire aux questions

  1. A-t-on besoin d'encoder la position de la note (marge de gauche, de droite) ?
    • Non, car ce n’est pas une édition diplomatique.

  2. A-t-on besoin d'encoder les lettrines ?
    • Non, car ce n’est pas une édition diplomatique.

  3. Que faire si l’on n’identifie pas l’auteur d’une citation ?
    • Dans la balise, ne pas mettre l’attribut who mais ajouter l’attribut cert="low"

  4. Que faire si on n’est pas sûr d’une annotation ?
    • Dans la balise, ajoutez l’attribut cert="low"

  5. A-t-on besoin d’indiquer que le texte est en italique ?
    • Non, c’est le texte par défaut, il n’y a pas de balise particulière.

  6. Que faire si on ne lit pas le grec dans l’édition 1608 et/ou si on ne sait pas le transcrire ?
    • Dans la balise, ajoutez l’attribut cert="low"

  7. Que faire lorsque je rencontre un passage en grec ?
    • Si vous pouvez le lire et le transcrire, utilisez la balise <foreign> avec l’attribut xml:lang="GR"

Foire aux erreurs

  1. « Le type d’élément "p" doit se terminer par la balise de fin correspondante "</p>" »
    • Solution : trouver là où manque la balise fermante, probablement juste au-dessus de la ligne d’erreur signalée par Oxygen

  2. « element "..." not allowed here; expected the element end-tag or element "...", "...", etc. »
    • Solution : la hiérarchie des balises n’a pas été respectée, il doit certainement y avoir une balise manquante avant l’élément souligné en rouge

  3. « ID "..." has already been defined »
    • Solution : corriger l’identifiant car celui-ci a déjà été utilisé


Accéder à la version PDF de ce manuel.