Manuel d'encodage pour la transcription



Avant-propos

  • L'objectif de ce manuel est de présenter le plus pratiquement possible les tâches de transcription et d'encodage du projet Tacitus On Line, ainsi que les concepts qui les sous-tendent.
  • Il est à destination des personnes qui participent à ces tâches.
  • Encodage = transcrire un texte dans un format donné (selon des codes)

Le projet Tacitus On Line

  • Le but est de présenter le plus grand nombre de commentaires possibles, écrits à partir du XVe siècle, autour des Annales de Tacite, pour permettre un développement des recherches.
  • En tant qu’encodeur, votre rôle est de transcrire les commentaires au texte de Tacite et d’en annoter certains phénomènes.
  • À partir du PDF de l’édition de référence et du fichier XML-TEI où se trouve déjà le texte de Tacite encodé, vous allez encoder les commentaires en utilisant le logiciel Oxygen.
Étapes du projet

Vocabulaire du projet

  • Selon l’édition des Belles Lettres, chaque livre des Annales de Tacite est divisé en paragraphes, à l’intérieur desquels les phrases sont numérotées
    • Division des Annales de Tacite
    • Exemple : 1.7. 4 chez Tacite correspond à la quatrième phrase du septième paragraphe du livre 1
  • Lemme : premiers mots de la petite phrase commentée, repris en majuscules en début de commentaire
Lemme

Le XML

  • Le format de transcription choisi pour le projet est le XML
  • Le XML… qu’est-ce que c’est ?
    • comprenez « Extensible Markup Language » ou langage de balisage extensible
    • langage de description informatique
    • permet de décrire des données, ou un texte, en utilisant des balises
  • Pour en savoir plus sur le XML : lien
Vocabulaire du XML

Le XML - Balises

  • Les éléments de base du XML sont les balises, elles permettent d’encadrer l’information, en disant : « ici il y a quelque chose d’intéressant, et voilà ce que c’est ».
  • Exemple :
    Le projet Tacitus On Line commence par proposer à la lecture et à l’étude les commentaires de <auteur>Juste Lipse</auteur>, en offrant des analyses qui, en se fondant sur une typologie, font apparaître la nature de leur contenu.
  • Comme on peut le voir dans cet exemple, les balises fonctionnent par paire :
    • la balise ouvrante (<…>) se situe juste avant l’information à encadrer
    • la balise fermante (</…>) se situe juste après
  • L’information encadrée par deux balises est appelée valeur.
Vocabulaire du XML
  • Remarque : Dans certains cas, une balise peut-être auto-fermante. Elle ressemble à une balise ouvrante, mais sa syntaxe diffère légèrement et elle n'a ainsi pas besoin d'être accompagnée par une balise fermante.
    • une balise auto-fermante (<…/>) se compose comme une balise ouvrante mais contient un slash (/) juste avant son chevron fermant final (>).

Le XML - Arborescence

  • Le document doit respecter le principe d’arborescence :
    • une paire de balises peut contenir plusieurs autres paires de balises
    • si et seulement si les deux balises (ouvrante et fermante) de chaque paire sont contenues dans cette paire de balises
Imbrication et chevauchement

Le XML - Attributs

Les balises peuvent avoir des attributs, qui permettent de donner des renseignements supplémentaires sur le contenu des balises.

Svetonius cap. C. in Aug. <q xml:id="LIPS_59_q1" who= "#svetonius"> Inter alia complura censuerunt quidam, funus porta triumphali ducendum, praecedente Victoria <q>. Neque dicit id factum

  • La balise <q> (pour « quote ») encadre une citation et possède plusieurs attributs.
  • Les attributs sont notés à l’intérieur de la balise ouvrante.
  • Chaque attribut apporte une information supplémentaire. Dans cet exemple :

Vocabulaire du XML

Le XML - "Bien formé"

  • Un document XML doit impérativement être bien formé pour être utilisable.
  • Pour cela, il doit impérativement respecter certaines règles de base, notamment :
    1. toute balise ouvrante doit être suivie d’une balise fermante.
    2. les balises ne doivent jamais se chevaucher, c’est-à-dire que si une balise contient une balise ouvrante, la balise fermante associée doit également se retrouver dans la première balise (imbrication des balises).

La TEI

TEI
  • Tacitus On Line a choisi de travailler avec des fichiers XML-TEI
  • La TEI, qu’est-ce que c’est ?
    • une « façon » de faire du XML où le jeu de balises que l’on va utiliser est déjà défini
    • un standard, très largement utilisé qui permet d’échanger des données en utilisant la « même langue » (principe d’interopérabilité)
  • fichier XML qui respecte ce jeu de balises = « fichier XML-TEI » ou « fichier TEI »
  • Un fichier XML-TEI possède toujours un header TEI qui comprend des métadonnées, c’est-à-dire des informations à propos du projet, du fichier lui-même ou du document source.

Oxygen

Pour l’encodage on utilise le logiciel Oxygen, éditeur XML, qui permet de créer et de modifier des fichiers XML.

Ouvrir un fichier : Ouvrir Oxygen > Fichier > Ouvrir > *choisir le fichier*

Interface Oxygen

Oxygen - Comment faire pour...

  • Ajouter une balise ?
    • Sélectionner la portion de texte à baliser et double-cliquer sur le nom de la balise dans la fenêtre des éléments
    • ou sélectionner la portion de texte à baliser et faire CTRL E ou Cmd E  pour choisir la balise à ajouter
    • ou directement écrire la balise ouvrante et la balise fermante de chaque côté de la portion de texte à baliser
  • Ajouter un attribut ?
    • Placer le curseur dans une balise et remplir la valeur d’un des attributs dans la zone des attributs
    • ou directement écrire l’attribut et sa valeur dans la balise ouvrante
  • Supprimer une balise ?
    • Sélectionner la balise ouvrante et la supprimer. Ceci supprimera aussi la balise fermante

Oxygen - Document Valide

  • Lorsque le document comporte des erreurs, le logiciel l’indique et signale les erreurs en question dans le document.
  • Il peut s’agir d’une balise non fermée, d’un caractère interdit ou autre.
  • Un message précise le type d’erreur pour la corriger plus facilement.
Document invalide Document valide

La foire aux erreurs répertorie les erreurs les plus fréquentes, allez voir !

Encoder pour Tacitus On Line

À partir du PDF de l’édition de référence (Paris, Pierre Chevallier, 1608) :

  • Transcrire et encoder les commentaires dans un fichier XML-TEI
  • Dans les commentaires, effectuer les annotations pour repérer :
    • Les citations
    • Les passages en grec
  • Signaler :
    • les problèmes de ponctuation : encadrer par <sic> </sic>
    • les erreurs présentes dans l’édition imprimée (par exemple un même numéro pour deux commentaires) : encadrer l’erreur par <sic></sic>
  • Il est possible que vous rencontriez des balises <span> et/ou des attributs ana. C’est Isabelle Cogitore qui effectue ces annotations, ne vous en préoccupez pas.

Encoder - Marche à suivre

  1. Télécharger Oxygen (lien) et lancer l’installation
  2. Licence Oxygen (nécessaire pour utiliser le logiciel)
  3. Récupérer les fichiers de travail et le PDF de la source sur le dossier partagé (accès à demander à l'équipe ELAN et/ou Isabelle Cogitore)
    • Attention avant de vous lancer :
      • l'oganisation en dossier/sous-dossier doit être conservée
      • ne modifiez que le fichier dont vous avez la charge (voir ci-après)
    • En tant que transcripteur ou transcriptrice, un fichier de travail est préparé pour vous : Tacite_livre[num]_[NomEncodeur].xml
    • Exemple : si le transcripteur Jean Dupont est chargé de transcrire les commentaires du livre 3, le fichier dont il devra s’occuper se trouvera dans le dossier tei/Encodage/Livre III sous le nom : Tacite_livreIII_JeanDupont.xml et sera
  4. Ouvrir le fichier avec Oxygen et effectuer vos modifications
  5. Après chaque séance de travail, re-déposer votre fichier de travail sur le dossier partagé dans le dossier approprié : tei/Encodage/Livre [num].

Organisation du fichier

Organisation du fichier XML-TEI

Au sein du fichier, vous devez intervenir à l'interieur de la balise <body>. En principe, une <div> prévue pour recevoir votre travail est présente.

<body>
    <div resp="#[NomEncodeur]">
        <!-- Transcriptions à insérer ici -->

    </div>
</body>

Transcription des commentaires

Principes de base

  • Dans le <body> du fichier XML-TEI (comme vu à la diapositive précédente)
  • 1 commentaire = 1 balise <div>
  • Transcription du commentaire, de son numéro, de son lemme et des notes marginales s‘il y en a

Éléments à annoter

  • Encodage des citations et des passages en grec
  • Si vous n’êtes pas sûrs, utilisez l’attribut cert="low"
  • Règles de transcriptions propres au latin spécifiées plus loin

Exemple d'une transcription d'un commentaire

Transcription du commentaire 1.2.2


Exercice d'entraînement : (à venir)

Règles de transcription du latin

  • "&" dans le texte doit être transcrit par "&amp;" (voir balise <choice>)
  • Transcription du latin selon les règles des éditions françaises actuelles :
    • des "i", pas de "j", systématiquement : iam et pas jam ; Iulius et pas Julius
    • des "u", pas de "v" sauf en majuscule à l’initiale des noms propres et en début de phrase : uirtus et pas virtus ; Vrbs et pas Urbs
  • Les finales longues notées dans l'édition de 1608 comme "ij" ou "iy" sont notées "ii"
  • Les voyelles ne sont pas accentuées
  • Les diphtongues restent notées comme deux voyelles à la suite, non liées : coepi et non cœpi
  • Les "∫" correspondant à la graphie Renaissance des s sont notés "s"

Ce qui n'a pas besoin d'être encodé

  • Pas besoin d'encoder l'apparence droit/italique du texte.
    • En effet, par défaut, le texte est écrit en italique. Les passages en droit correspondent systématiquement à une valeur sémantique (citation, lemme...). Un passage en droit équivaut systématiquement à un encodage particulier : <q> s'il s'agit d'une citation, <ref> s'il s'agit de la référence d'accroche du commentaire, etc. Ces différents cas sont spécifiés par la suite.
  • Pas besoin d'indiquer systématiquement la langue. Elle n'est spécifiée que si le passage n'est pas en latin.
    • En effet, la langue par défaut est le latin. Tout passage en grec par exemple, est encodé grâce soit à l'attribut xml:lang, soit au sein d'une balise <foreing>. Les différents cas sont exposés par la suite.
  • Pas besoin d'encoder ni de respecter la mise en page, les sauts de ligne, etc.
    • En effet, nous ne visons pas à produire une édition diplomatique.

Structure - Balises et attributs

Balise Signification Valeur Attribut(s) Valeur des attributs
<div> Contient le commentaire Tout le commentaire xml:id : identifiant unique du commentaire (voir xml:id) identifiant commentateur + "_" + numéro du livre + "." + numéro du commentaire
Par exemple, "LIPS_1.207" pour le commentaire 207 de Lips au Livre I de Tacite.
ana : c'est Isabelle Cogitore qui fait ces annotations
resp : auteur du commentaire Voir la liste des identifiants des commentateurs.
Par exemple, #lips, #ALC...
<p> Paragraphe Le paragraphe, c'est-à-dire le corps du commentaire, hors notes marginales pas d'attribut
Exemple <div>
<ref> Référence à une portion de texte de Tacite, ancrage du commentaire Contient le numéro du commentaire et le lemme jusqu'au crochet fermant "]" target : identifiant unique de la phrase commentée (voir xml:id) # + numéro de livre + . + numéro de paragraphe + . + numéro de la phrase, selon la numérotation des édition des Belles Lettres.
Par exemple, "#1.35.2" pour le commentaire 154 de Lips au Livre I dont le lemme "MEDERETVR FESSIS" fait référence à la phrase 2.
Exemple <ref>
<note> Note marginale Contenu de la note xml:id : identifiant unique de la note (voir xml:id) identifiant du commentaire + _n + numéro de la note.
Par exemple, "LIPS_1.214_n1" pour la première note du commentaire 214 de Lipse au Livre I.
rend="marge"
Exemple <note>

Citations - Balises et attributs

Balise Signification Valeur Attribut(s) Valeur des attributs
<q> Citation Passage cité xml:id : identifiant unique de la citation (voir page xml:id) identifiant du commentaire + "_q" + numéro de la citation dans le commentaire
ana : c'est Isabelle Cogitore qui fait ces annotations
who : auteur de la citation, si connu voir liste des auteurs (toujours précédé d'un #)
xml:lang : si la citation n'est pas en latin "GR" pour grec
Exemple <q>
Exemple <q> avec grec
<span> Traduction de la citation L'ensemble de la traduction type="#translatio"
<q xml:id="LIPS_1.19_q1" type="#litt" who="#dio" xml:lang="GR">
    αἰτίαν μὲν οὖν ἡ Λιβία τοῦ θανάτου τοῦ Μαρκέλλου εἴχεν, ὅτι τῶν υἵεων αὐτῆς προετετίμητο:
    <span ana="#translatio" >
        Caussam mortis Marcelli Livia habuit, quod is eius filiis anteponeretur
    </span>
</q>
<l> Vers, à l’intérieur d’une citation Vers cité pas d'attribut
Exemple <l>

Annotation - Balises et attributs

Balise Signification Valeur Attribut(s) Valeur des attributs
<choice> Regroupe deux versions d'une même forme Les deux versions de la forme en question pas d'attribut
<orig> Forme originale pas d'attribut
<reg> Forme régularisée/normalisée pas d'attribut
Exemple <choice>
<corr> Forme corrigée pas d'attribut
<foreign> Passage en grec (hors citation) Tout le segment de texte en grec xml:lang="GR"
<unclear> Lecture ou transcription incertaine Segment de texte concerné pas d'attribut
<persName> Nom de personne Segment de texte concerné xml:id (optionnel) Identifiant de la personne si elle se trouve dans la liste des commentateurs ou des sources

Valeurs de l'attribut xml:id

Organisation du fichier XML-TEI

Liste des auteurs et commentateurs (attributs who et resp)

Attention, toujours précédés d'un #

Ambrosius  #AMBR
Apollodorus  #APOLLOD
Arnobius  #ARN
Acidalius Valens  #ACID
Albinovanus Pedo  #ALBIN
Alciat  #ALC
Ammianus Marcellinus  #AMM.MARC
Appianus  #APP
Apuleius  #APVL
Aristophanes  #AR
Arrianus  #ARR
Atheneus  #ATH
Augerius Busbequius  #BUSB
Aurelius Victor  #AVR.VICT
Beatus Rhenanus  #BEAT
Beroaldus  #BER
Bianor  #BIAN
Caesar  #CAES
Calpurnius Flaccus  #CALP.FLAC
Carolus Clusius  #CLUS
Censorinus  #CENSOR
Christophorus Colerus  #COL
Cicero  #CIC
Claudianus  #CLAVD
Clemens Alexandrinus  #CLEM.AL
Cujacius  #CUJAC
Curtius  #CVRT
Deckerius  #DECK
Demosthenes  #DEM
Dio Cassius  #D.C
Diogenes Laertius  #DIOG.L
Dionysius  #D.H
Ennius  #ENN
Epictetus  #EPICT
Epitome  #LIV.PER
Euripides  #EVR
Eusebius  #EVSEB
Eutropius  #EVTR
Ferretti  #FERR
Festus  #FEST
Flauius Iosephus  #IOS
Florus  #FLOR
Frontinus  #FRONTIN
Gellius  #GELL
Gruter  #GRUT
Hadrianus Junius  #JUN
Hegesippus  #HEGES
Herodianus  #HEROD
Hieronymus  #HIER
Hieronymus Groslotius  #GRO
Hirtius  #HIRT
Homerus  #HOM
Horatius  #HOR
Hyginus  #HYG.GROM
Iacobus Campius  #CAMP
Iornandes, Iordanes  #IORD
Iosias Mercerius  #MERC
Irenaeus  #IREN
Isidorus  #ISID
Iuenalis  #IVV
Iulianus  #IVLIAN
Iulianus Apostata  #IVL.AP
Iulius Capitolinus  #CAPIT
Iulius Obsequens  #OBSEQ
Iustinus  #IVST
Janus Douza  #DOUS
Juste Lipse  #LIPS
Lampridius  #LAMP
Liuius  #LIV
Lucanus  #LVC
Lucilius  #LVCIL
Lucretius  #LVCR
Lupanus  #LUP
Marcellus Donatus  #MARC.DON
Martialis  #MART
Maximus Taurinensis  #MAX.TAVR
Minucius Felix  #MINVC
Modius  #MOD
Muretus  #MUR
Nazarius  #NAZAR
Nicolas Faber  #NIC.FAB
Onofrius  #ONUF
Orosius  #OROS
Ouidius  #OV
Paulus  #PAVL
Pausanias  #PAVS
Petrarca  #PETRARC
Petrus Faber  #PETR.FAB
Pichenas  #PIC
Pighius  #PIGH
Pincianus  #PINC
Plato  #PLATO
Plautus  #PL
Plinius  #PLIN
Plinius  #PLIN.MIN
Plutarchus  #PLV
Pollux  #POLL
Polybius  #POLY
Propertius  #PROP
Quintilianus, Quinctilianus  #QVINT
Sallustius  #SALL
Seneca  #SEN
Seneca pater  #SEN.PAT
Sergius  #SERG
Servius  #SERV
Siculus Flaccus  #SIC.FLACC
Sidonius  #SID
Silius Italicus  #SIL
Solinus  #SOL
Sozomenus  #SOZ
Spartianus  #SPART
Statius  #STAT
Strabo  #STRAB
Suetonius  #SVET
Suidas  #SVID
Tacitus  #TAC
Tertullianus  #TERT
Theodosius  #THEOD
Thucydides  #THVC
Tibullus  #TIB
Torrentius  #TORR
Turnebus  #TURN
Ulpianus  #VLP
Ursinus  #URS
Valerius Maximus  #VAL.MAX
Varro  #VARRO
Velleius Paterculus  #VELL
Vertranius  #VERT
Virgilius  #VIRG
Vopiscus, Vospicus  #VOP
Xenophon  #XEN
Xiphilinus  #XIPH
Zonaras  #ZON
Zosimus  #ZOSIM
panegyrici  #PANEG

Exemple d'un commentaire transcrit

Transcription du commentaire 1.25.2

Encoder - Dernières étapes

  • Sauvegarder (régulièrement)
  • Vérifier que le fichier est correctement nommé : Tacite_livreIII_JeanDupont.xml
  • Mettre à disposition le fichier sur le dossier partagé
  • Prévenir Isabelle Cogitore par mail pour
    • 1/ relecture,
    • 2/ ajout de votre contribution au sein des entêtes TEI.
    Elle pourrait ainsi aussi débuter l'analyse des commentaires transcrit !
Étape 2/ - Rappel :
  • Aller dans le header, au niveau de la balise <titleStmt>
  • À la suite de la liste de balises <respStmt>, ajoutez la vôtre comme ceci : (en fonction de ce que vous avez fait)

Foire aux questions

  1. A-t-on besoin d'encoder la position de la note (marge de gauche, de droite) ?
    • Non, car ce n’est pas une édition diplomatique.

  2. A-t-on besoin d'encoder les lettrines ?
    • Non, car ce n’est pas une édition diplomatique.

  3. Que faire si l’on n’identifie pas l’auteur d’une citation ?
    • Dans la balise, ne pas mettre l’attribut who mais ajouter l’attribut cert="low"

  4. Que faire si on n’est pas sûr d’une annotation ?
    • Dans la balise, ajoutez l’attribut cert="low"

  5. A-t-on besoin d’indiquer que le texte est en italique ?
    • Non, c’est le texte par défaut, il n’y a pas de balise particulière.

  6. Que faire si on ne lit pas le grec dans l’édition 1608 et/ou si on ne sait pas le transcrire ?
    • Dans la balise, ajoutez l’attribut cert="low"

  7. Que faire lorsque je rencontre un passage en grec ?
    • Si vous pouvez le lire et le transcrire, utilisez la balise <foreign> avec l’attribut xml:lang="GR"

Foire aux erreurs

  1. « Le type d’élément "p" doit se terminer par la balise de fin correspondante "</p>" »
    • Solution : trouver là où manque la balise fermante, probablement juste au-dessus de la ligne d’erreur signalée par Oxygen

  2. « element "..." not allowed here; expected the element end-tag or element "...", "...", etc. »
    • Solution : la hiérarchie des balises n’a pas été respectée, il doit certainement y avoir une balise manquante avant l’élément souligné en rouge

  3. « ID "..." has already been defined »
    • Solution : corriger l’identifiant car celui-ci a déjà été utilisé

Accéder à la version PDF de ce manuel ( dernière mise à jour janvier 2020).