Manuel d'encodage pour la transcription
Avant-propos
- L'objectif de ce manuel est de présenter le plus pratiquement possible les tâches de transcription et d'encodage du projet Tacitus On Line, ainsi que les concepts qui les sous-tendent.
- Il est à destination des personnes qui participent à ces tâches.
- Encodage = transcrire un texte dans un format donné (selon des codes)
Le projet Tacitus On Line
- Le but est de présenter le plus grand nombre de commentaires possibles, écrits à partir du XVe siècle, autour des Annales de Tacite, pour permettre un développement des recherches.
- En tant qu’encodeur, votre rôle est de transcrire les commentaires au texte de Tacite et d’en annoter certains phénomènes.
- À partir du PDF de l’édition de référence et du fichier XML-TEI où se trouve déjà le texte de Tacite encodé, vous allez encoder les commentaires en utilisant le logiciel Oxygen.
Vocabulaire du projet
- Selon l’édition des Belles Lettres, chaque livre des Annales de Tacite est divisé en paragraphes, à l’intérieur desquels les phrases sont numérotées
- Exemple : 1.7. 4 chez Tacite correspond à la quatrième phrase du septième paragraphe du livre 1
- Lemme : premiers mots de la petite phrase commentée, repris en majuscules en début de commentaire
Le XML
- Le format de transcription choisi pour le projet est le XML
-
Le XML… qu’est-ce que c’est ?
- comprenez « Extensible Markup Language » ou langage de balisage extensible
- langage de description informatique
- permet de décrire des données, ou un texte, en utilisant des balises
- Pour en savoir plus sur le XML : lien
Le XML - Arborescence
-
Le document doit respecter le principe d’arborescence :
- une paire de balises peut contenir plusieurs autres paires de balises
- si et seulement si les deux balises (ouvrante et fermante) de chaque paire sont contenues dans cette paire de balises
Le XML - Attributs
Les balises peuvent avoir des attributs, qui permettent de donner des renseignements supplémentaires sur le contenu des balises.
- La balise
<q>
(pour « quote ») encadre une citation et possède plusieurs attributs. - Les attributs sont notés à l’intérieur de la balise ouvrante.
-
Chaque attribut apporte une information supplémentaire. Dans cet exemple :
xml:id
: attribut qui donne un identifiant à la citation (voir détail des identifiants)who
: attribut qui renseigne l’auteur cité (d’après une liste préétablie)
Le XML - "Bien formé"
- Un document XML doit impérativement être bien formé pour être utilisable.
-
Pour cela, il doit impérativement respecter certaines règles de base,
notamment :
- toute balise ouvrante doit être suivie d’une balise fermante.
- les balises ne doivent jamais se chevaucher, c’est-à-dire que si une balise contient une balise ouvrante, la balise fermante associée doit également se retrouver dans la première balise (imbrication des balises).
La TEI
- Tacitus On Line a choisi de travailler avec des fichiers XML-TEI
-
La TEI, qu’est-ce que c’est ?
- une « façon » de faire du XML où le jeu de balises que l’on va utiliser est déjà défini
- un standard, très largement utilisé qui permet d’échanger des données en utilisant la « même langue » (principe d’interopérabilité)
- fichier XML qui respecte ce jeu de balises = « fichier XML-TEI » ou « fichier TEI »
- Un fichier XML-TEI possède toujours un header TEI qui comprend des métadonnées, c’est-à-dire des informations à propos du projet, du fichier lui-même ou du document source.
Oxygen
Pour l’encodage on utilise le logiciel Oxygen, éditeur XML, qui permet de créer et de modifier des fichiers XML.
Ouvrir un fichier : Ouvrir Oxygen > Fichier > Ouvrir > *choisir le fichier*
Oxygen - Comment faire pour...
-
Ajouter une balise ?
- Sélectionner la portion de texte à baliser et double-cliquer sur le nom de la balise dans la fenêtre des éléments
- ou sélectionner la portion de texte à baliser et faire CTRL E ou Cmd E pour choisir la balise à ajouter
- ou directement écrire la balise ouvrante et la balise fermante de chaque côté de la portion de texte à baliser
-
Ajouter un attribut ?
- Placer le curseur dans une balise et remplir la valeur d’un des attributs dans la zone des attributs
- ou directement écrire l’attribut et sa valeur dans la balise ouvrante
-
Supprimer une balise ?
- Sélectionner la balise ouvrante et la supprimer. Ceci supprimera aussi la balise fermante
Oxygen - Document Valide
- Lorsque le document comporte des erreurs, le logiciel l’indique et signale les erreurs en question dans le document.
- Il peut s’agir d’une balise non fermée, d’un caractère interdit ou autre.
- Un message précise le type d’erreur pour la corriger plus facilement.
La foire aux erreurs répertorie les erreurs les plus fréquentes, allez voir !
Encoder pour Tacitus On Line
À partir du PDF de l’édition de référence (Paris, Pierre Chevallier, 1608) :
- Transcrire et encoder les commentaires dans un fichier XML-TEI
- Dans les commentaires, effectuer les annotations pour repérer :
- Les citations
- Les passages en grec
- Signaler :
- les problèmes de ponctuation : encadrer par
<sic>
</sic>
- les erreurs présentes dans l’édition imprimée (par exemple un même
numéro pour deux commentaires) : encadrer l’erreur par
<sic>
</sic>
- les problèmes de ponctuation : encadrer par
- Il est possible que vous rencontriez des balises
<span>
et/ou des attributsana
. C’est Isabelle Cogitore qui effectue ces annotations, ne vous en préoccupez pas.
Encoder - Marche à suivre
- Télécharger Oxygen (lien) et lancer l’installation
- Licence Oxygen (nécessaire pour utiliser le logiciel)
- Demander à l'équipe ELAN litt-et-arts-elan@univ-grenoble-alpes.fr en mettant Isabelle Cogitore en copie et préciser qu’il s’agit d’un travail pour Tacitus On Line
- Récupérer les fichiers de travail et le PDF de la source sur le dossier partagé (accès à demander à l'équipe ELAN et/ou Isabelle Cogitore)
- Attention avant de vous lancer :
- l'oganisation en dossier/sous-dossier doit être conservée
- ne modifiez que le fichier dont vous avez la charge (voir ci-après)
- En tant que transcripteur ou transcriptrice, un fichier de travail est préparé pour vous :
Tacite_livre[num]_[NomEncodeur].xml
- Exemple : si le transcripteur Jean Dupont est chargé de transcrire
les commentaires du livre 3, le fichier dont il devra s’occuper se trouvera dans le dossier
tei/Encodage/Livre III
sous le nom :Tacite_livreIII_JeanDupont.xml
et sera
- Attention avant de vous lancer :
- Ouvrir le fichier avec Oxygen et effectuer vos modifications
- Après chaque séance de travail, re-déposer votre fichier de travail sur le dossier partagé dans le dossier approprié :
tei/Encodage/Livre [num]
.
Organisation du fichier
Au sein du fichier, vous devez intervenir à l'interieur de la balise <body>
.
En principe, une <div>
prévue pour recevoir votre travail est présente.
<body>
<div resp="#[NomEncodeur]">
<!-- Transcriptions à insérer ici -->
</div>
</body>
Transcription des commentaires
Principes de base
- Dans le
<body>
du fichier XML-TEI (comme vu à la diapositive précédente) - 1 commentaire = 1 balise
<div>
- Transcription du commentaire, de son numéro, de son lemme et des notes marginales s‘il y en a
Éléments à annoter
- Encodage des citations et des passages en grec
- Si vous n’êtes pas sûrs, utilisez l’attribut
cert="low"
- Règles de transcriptions propres au latin spécifiées plus loin
Exemple d'une transcription d'un commentaire
Exercice d'entraînement : (à venir)
Règles de transcription du latin
- "&" dans le texte doit être transcrit par "
&
" (voir balise<choice>
) - Transcription du latin selon les règles des éditions françaises actuelles :
- des "i", pas de "j", systématiquement : iam et pas jam ; Iulius et pas Julius
- des "u", pas de "v" sauf en majuscule à l’initiale des noms propres et en début de phrase : uirtus et pas virtus ; Vrbs et pas Urbs
- Les finales longues notées dans l'édition de 1608 comme "ij" ou "iy" sont notées "ii"
- Les voyelles ne sont pas accentuées
- Les diphtongues restent notées comme deux voyelles à la suite, non liées : coepi et non cœpi
- Les "∫" correspondant à la graphie Renaissance des s sont notés "s"
Ce qui n'a pas besoin d'être encodé
- Pas besoin d'encoder l'apparence droit/italique du texte.
- En effet, par défaut, le texte est écrit en italique. Les passages en droit correspondent
systématiquement à une valeur sémantique (citation, lemme...). Un passage en droit équivaut systématiquement à un
encodage particulier :
<q>
s'il s'agit d'une citation,<ref>
s'il s'agit de la référence d'accroche du commentaire, etc. Ces différents cas sont spécifiés par la suite.
- En effet, par défaut, le texte est écrit en italique. Les passages en droit correspondent
systématiquement à une valeur sémantique (citation, lemme...). Un passage en droit équivaut systématiquement à un
encodage particulier :
- Pas besoin d'indiquer systématiquement la langue. Elle n'est spécifiée que si le passage n'est pas en latin.
- En effet, la langue par défaut est le latin. Tout passage en grec par exemple, est encodé grâce soit à l'attribut xml:lang,
soit au sein d'une balise
<foreing>
. Les différents cas sont exposés par la suite.
- En effet, la langue par défaut est le latin. Tout passage en grec par exemple, est encodé grâce soit à l'attribut xml:lang,
soit au sein d'une balise
- Pas besoin d'encoder ni de respecter la mise en page, les sauts de ligne, etc.
- En effet, nous ne visons pas à produire une édition diplomatique.
Valeurs de l'attribut xml:id
Exemple d'un commentaire transcrit
Encoder - Dernières étapes
- Sauvegarder (régulièrement)
- Vérifier que le fichier est correctement nommé : Tacite_livreIII_JeanDupont.xml
- Mettre à disposition le fichier sur le dossier partagé
- Prévenir Isabelle Cogitore par mail pour
- 1/ relecture,
- 2/ ajout de votre contribution au sein des entêtes TEI.
- Aller dans le header, au niveau de la balise
<titleStmt>
- À la suite de la liste de balises
<respStmt>
, ajoutez la vôtre comme ceci : (en fonction de ce que vous avez fait)
Foire aux questions
- A-t-on besoin d'encoder la position de la note (marge de gauche, de droite) ?
- Non, car ce n’est pas une édition diplomatique.
- A-t-on besoin d'encoder les lettrines ?
- Non, car ce n’est pas une édition diplomatique.
- Que faire si l’on n’identifie pas l’auteur d’une citation ?
- Dans la balise, ne pas mettre l’attribut who mais ajouter l’attribut
cert="low"
- Dans la balise, ne pas mettre l’attribut who mais ajouter l’attribut
- Que faire si on n’est pas sûr d’une annotation ?
- Dans la balise, ajoutez l’attribut
cert="low"
- Dans la balise, ajoutez l’attribut
- A-t-on besoin d’indiquer que le texte est en italique ?
- Non, c’est le texte par défaut, il n’y a pas de balise particulière.
- Que faire si on ne lit pas le grec dans l’édition 1608 et/ou si on ne sait pas le transcrire ?
- Dans la balise, ajoutez l’attribut
cert="low"
- Dans la balise, ajoutez l’attribut
- Que faire lorsque je rencontre un passage en grec ?
- Si vous pouvez le lire et le transcrire, utilisez la balise
<foreign>
avec l’attributxml:lang="GR"
- Si vous pouvez le lire et le transcrire, utilisez la balise
Foire aux erreurs
- « Le type d’élément "p" doit se terminer par la balise de fin
correspondante "</p>" »
- Solution : trouver là où manque la balise fermante, probablement juste au-dessus de la ligne d’erreur signalée par Oxygen
- « element "..." not allowed here; expected the element end-tag or element "...", "...", etc. »
- Solution : la hiérarchie des balises n’a pas été respectée, il doit certainement y avoir une balise manquante avant l’élément souligné en rouge
- « ID "..." has already been defined »
- Solution : corriger l’identifiant car celui-ci a déjà été utilisé
Accéder à la version PDF de ce manuel ( dernière mise à jour janvier 2020).