Annexe B. Schéma d’annotation

B.0. Fonction de l’annexe

Cette annexe définit le schéma d’annotation qui permet de transformer le corpus pilote en données analysables. Elle complète l’annexe A : l’annexe A fournit le catalogue des opérateurs discursifs ; l’annexe B précise comment ces opérateurs doivent être encodés dans un fichier de travail, champ par champ.

Le principe méthodologique est simple : l’unité pertinente n’est ni le verset entier ni la forme verbale isolée, mais la clause dans laquelle la forme apparaît. Une même forme peut recevoir des valeurs différentes selon son ordre syntaxique, son environnement discursif, son statut dans le discours direct, son genre textuel et sa relation avec les clauses voisines. Le schéma doit donc conserver simultanément des informations de localisation, de morphologie, de syntaxe, de discours et d’interprétation.

Le fichier visé n’est pas un simple inventaire de formes. Il est une grille de décision. Chaque ligne doit rendre explicite pourquoi une occurrence est analysée comme MAINLINE, BACKGROUND, PROJECTION, CONDITION, PARALLELISM, COMMENT, etc. L’annotation doit éviter deux erreurs symétriques : réduire une forme à une valeur unique, ou multiplier les étiquettes sans critères contrôlables.

Une ligne d’annotation doit donc garder la forme originale, par exemple וַיֹּאמֶר wayyōmer ‘et il dit’, יְהִי yəhî ‘qu’il soit’, וַיְהִי wayhî ‘et il fut’, avant de l’assigner à une classe et à un opérateur.

Genèse 1.3 ID 3 · Gn 1-3
וַיֹּ֥אמֶר אֱלֹהִ֖ים יְהִ֣י א֑וֹר וַֽיְהִי ־אֽוֹר׃
wa-y-yṓmer ʾĕlōhī́m yᵉhī́ ʾṓr wá yᵉhī -ʾṓr
Dieu dit : "Que la lumière soit !" Et la lumière fut .
wayyiqtol yiqtol
Genèse 1.5a ID 5 · Gn 1-5a
וַיִּקְרָ֨א אֱלֹהִ֤ים ׀ לָאוֹר֙ י֔וֹם וְלַחֹ֖שֶׁךְ קָ֣רָא לָ֑יְלָה
wa-y-yiqrā́ ʾĕlōhī́m lā ʾōr yṓm wᵉ la ḥṓšex ́́yᵉlā
Dieu appela la lumière jour, et les ténèbres, il les appela Nuit.
wayyiqtol qatal
Genèse 28.20-21 ID 794 · Gn 28-20-21
(20) וַיִּדַּ֥ר יַעֲקֹ֖ב נֶ֣דֶר לֵאמֹ֑ר אִם־יִהְיֶ֨ה אֱלֹהִ֜ים עִמָּדִ֗י וּשְׁמָרַ֙נִי֙ בַּדֶּ֤רֶךְ הַזֶּה֙ אֲשֶׁ֣ר אָנֹכִ֣י הוֹלֵ֔ךְ וְנָֽתַן ־לִ֥י לֶ֛חֶם לֶאֱכֹ֖ל וּבֶ֥גֶד לִלְבֹּֽשׁ ׃ (21) וְשַׁבְתִּ֥י בְשָׁל֖וֹם אֶל־בֵּ֣ית אָבִ֑י וְהָיָ֧ה יְהוָ֛ה לִ֖י לֵאלֹהִֽים׃
(20) wa-y-yiddár yaʿăqṓv néder lē ʾmṓr ʾim-yihyéh ʾĕlōhī́m ʿimmādī́ ū šᵉmārá ba-d-dérex ha-z-zéh ʾăšér ʾānōxī́ hōlḗx wᵉ nā́tan -lī́ léḥem le ʾĕxṓl ū véged li lᵉbbṓš (21) wᵉ šavtī́ vᵉ šālṓm ʾel-bḗt ʾāvī́ wᵉ hāyā́ ʔăḏōnā́y lī́ lē ʾlōhī́m
(20) Jacob prononça un vœu en ces termes : "Si le Seigneur est avec moi, s’il me protège dans la voie où je marche , s’il me donne du pain à manger et des vêtements pour me couvrir ; (21) si je retourne en paix à la maison paternelle, alors le Seigneur aura été un Dieu pour moi
wayyiqtol infinitif yiqtol weqatal participe

B.1. Fichier de travail et conventions techniques

Le fichier de travail prévu est :

data/operator-annotation.csv

Depuis le dossier des annexes, le même fichier peut être référencé comme :

../data/operator-annotation.csv

Les conventions suivantes devront être appliquées.

Élément Convention
Encodage UTF-8
Format CSV avec en-tête sur la première ligne
Unité de ligne une occurrence verbale située dans une clause segmentée
Valeurs absentes none si le champ ne s’applique pas ; unknown si l’information devrait exister mais n’est pas déterminée
Valeurs incertaines valeur probable dans le champ, justification dans notes, ambiguity_level au moins medium
Codes d’opérateurs majuscules, selon l’annexe A
Valeurs descriptives minuscules, avec trait d’union ou soulignement selon le champ
Notes prose brève, sans remplacer les champs contrôlés

Quand une clause contient plusieurs formes verbales pertinentes, deux solutions sont possibles. La solution minimale consiste à créer une ligne par forme verbale en conservant le même repère de clause et en distinguant les occurrences dans notes. La solution préférable, pour une version élargie du fichier, sera d’ajouter un champ predicate_id. Comme ce champ n’appartient pas au schéma minimal retenu dans le mémoire, le présent protocole conserve clause_id comme identifiant principal.

B.2. Colonnes minimales

Le fichier doit contenir les colonnes suivantes, dans cet ordre.

ref
book
chapter
verse
clause_id
hebrew_form
form_class
preceding_form
following_form
word_order
waw_presence
clause_type
speech_status
genre_macro
discourse_type
tam_primary
modality
operator_primary
operator_secondary
transition_type
topic_continuity
fronting_type
poetic_relation
root_semantics
ambiguity_level
notes
source_file

Ces colonnes se répartissent en cinq groupes.

Groupe Colonnes Fonction
Identification ref, book, chapter, verse, clause_id, source_file localiser la clause et préserver la provenance
Morphologie hebrew_form, form_class, preceding_form, following_form, waw_presence, root_semantics identifier la forme et son environnement verbal
Syntaxe word_order, clause_type, fronting_type décrire la structure de la clause
Discours speech_status, genre_macro, discourse_type, transition_type, topic_continuity, poetic_relation situer la clause dans son régime textuel
Interprétation tam_primary, modality, operator_primary, operator_secondary, ambiguity_level, notes formuler l’analyse contrôlée

B.3. Identification et segmentation

Les champs d’identification doivent permettre de retrouver l’occurrence sans ambiguïté.

Champ Description Exemple de valeur
ref référence lisible Gen 1:5
book livre biblique selon l’abréviation retenue Gen
chapter chapitre en chiffres arabes 1
verse verset en chiffres arabes 5
clause_id identifiant stable de clause Gen.1.5.c01
source_file fichier d’origine ou fichier de sélection bible-selected.csv

Le champ clause_id doit être stable. Une bonne convention est :

Livre.Chapitre.Verset.cXX

Exemples :

Gen.1.5.c01
Gen.1.5.c02
Ps.25.11.c01

Dans la poésie, un verset peut contenir plusieurs cola. Le clause_id ne doit donc pas suivre automatiquement le découpage massorétique en versets. Il doit suivre le découpage syntaxico-discursif : un bicolon peut produire deux clauses, et un tricolon trois clauses, si chaque membre porte une prédication distincte.

B.4. Morphologie verbale

Le champ form_class encode la classe morphologique ou morphosyntaxique de la forme verbale. Les valeurs minimales sont les suivantes.

Valeur Définition pratique
qatal forme suffixale finie
yiqtol forme préfixale finie hors wayyiqtol
wayyiqtol forme préfixale avec waw narratif / séquentiel traditionnellement identifié comme wayyiqtol
weqatal forme suffixale avec waw dans un environnement projectif, consécutif, procédural ou modal
participle participe verbal à fonction prédicative ou discursive pertinente
infinitive infinitif construit ou absolu pertinent pour la relation clausale
imperative impératif
other autre forme ou cas non classable dans les catégories précédentes

Les champs preceding_form et following_form utilisent les mêmes valeurs que form_class, avec none lorsqu’il n’y a pas de forme pertinente dans le voisinage immédiat. Ils ne doivent pas seulement noter la forme précédente dans le verset, mais la forme précédente dans la séquence discursive annotée.

Le champ waw_presence distingue la simple présence graphique de waw et sa fonction dans la clause.

Valeur Emploi
none aucune conjonction waw pertinente
simple-waw coordination ou liaison sans changement de classe verbale
wayyiqtol-waw waw intégré à une forme wayyiqtol
weqatal-waw waw intégré à une forme weqatal
uncertain présence ou fonction du waw incertaine

Le champ root_semantics ne remplace pas l’analyse discursive, mais il aide à contrôler les effets du type de prédicat. Un verbe statif, un verbe de mouvement, un verbe de parole et un verbe de perception ne produisent pas les mêmes effets aspectuels. Les valeurs suivantes suffisent pour une première annotation :

stative
motion
speech
perception
cognition
creation
possession
transfer
destruction
cultic
juridical
affective
other
unknown

B.5. Syntaxe de la clause

Le champ word_order est décisif, car l’ordre des mots est l’un des diagnostics principaux de la fonction discursive. Les valeurs minimales sont :

Valeur Définition
V1 verbe en première position clausale
SV sujet explicite avant le verbe
VS verbe suivi d’un sujet explicite
XV constituant non sujet avant le verbe
OV objet avant le verbe
ADV-V adverbial, cadre temporel ou spatial avant le verbe
NEG-V négation immédiatement préverbale
unknown ordre non déterminé ou analyse suspendue

Le champ fronting_type précise la fonction du constituant préverbal lorsque word_order n’est pas simplement V1.

Valeur Fonction
none aucun constituant fronté pertinent
subject sujet préverbal
object objet préverbal
adverbial cadre temporel, spatial ou circonstanciel
topic topique maintenu ou réintroduit
focus focus informationnel
contrast contraste explicite ou implicite
frame cadre scénique ou discursif
left-dislocation dislocation à gauche
negation négation préverbale
unknown fonction incertaine

Le champ clause_type encode le statut syntaxique de la clause.

Valeur Emploi
main clause indépendante
subordinate subordonnée non spécifiée
relative relative
temporal clause temporelle
causal clause causale ou explicative
conditional-protasis protase conditionnelle
conditional-apodosis apodose conditionnelle
purpose clause finale
result clause consécutive
speech-intro clause introduisant une parole
poetic-colon membre poétique analysé comme clause
other autre type
unknown type non déterminé

B.6. Discours, genre et transitions

Le champ speech_status distingue le régime énonciatif.

Valeur Définition
narrative narration hors discours direct
direct_speech parole directe d’un personnage, d’un prophète, du psalmiste ou de Dieu
embedded_speech parole enchâssée ou rapportée à l’intérieur d’une autre parole
unknown statut incertain

Pour une annotation élargie du discours direct, trois champs facultatifs pourront être ajoutés : speech_boundary (entry, internal, exit), speaker_shift (yes, no, unknown) et addressee_shift (yes, no, unknown). Ils ne figurent pas dans le schéma minimal, mais ils sont recommandés pour les passages où le changement de locuteur modifie la valeur de yiqtol, weqatal ou qatal.

Le champ genre_macro situe la clause dans un grand domaine littéraire.

narrative
poetry
law
prophecy
wisdom
cultic
genealogy
mixed
unknown

Le champ discourse_type précise le régime discursif local. Il reprend, de manière simplifiée, les distinctions utiles pour l’analyse des formes verbales.

narrative
predictive
procedural
instructional
legal
expository
hortatory
prophetic-oracle
prayer
lament
hymn
wisdom
genealogy
direct-speech
mixed
unknown

Le champ transition_type indique la relation avec la clause précédente.

Valeur Définition
continuation poursuite de la même chaîne ou du même régime
rupture interruption ou changement de régime
resumption reprise après discours direct, commentaire, arrière-plan ou digression
backgrounding passage vers une information de fond
foregrounding mise au premier plan
projection passage vers un domaine futur, modal, volitif ou non réalisé
explanation justification, cause, commentaire ou clarification
condition relation protase-apodose ou hypothèse
parallelism relation poétique de parallélisme
speech_boundary entrée ou sortie de discours direct
unknown transition non déterminée

Le champ topic_continuity encode la continuité du participant ou du topique principal.

same
switch
reintroduced
contrastive
generic
unknown

Le champ poetic_relation reste none hors poésie, sauf si une structure rhétorique évidente apparaît en prose. En poésie, il peut recevoir les codes de l’annexe A : PARALLELISM, SYN-PAR, ANT-PAR, SYNTH-PAR, CLIMAX, CHIASM, BICOLON-A, BICOLON-B, TRICOLON, LITURGICAL-MEMORY, etc.

B.7. TAM, modalité et opérateurs

Le champ tam_primary encode la valeur temporelle, aspectuelle ou actionnelle dominante. Il utilise les codes de l’annexe A, notamment :

PAST
ANTERIOR
SIMULTANEOUS
FUTURE
PERFECTIVE
IMPERFECTIVE
PROGRESSIVE
HABITUAL
ITERATIVE
RESULTATIVE
STATIVE
GNOMIC

Le champ modality encode la valeur modale lorsqu’elle est pertinente. Si aucune modalité particulière n’est active, on note none. Les valeurs possibles incluent :

none
REALIS
IRREALIS
PROJECTION
MODALITY
DEONTIC
PERMISSION
ABILITY
VOLITION
COMMAND
PROHIBITION
REQUEST
OPTATIVE
PRAYER
EPISTEMIC
CONDITION
PURPOSE
CONSEQUENCE
PREDICTION
PROMISE
THREAT
INSTRUCTION
PROCEDURE
PROJECTED-SEQUENCE

Le champ operator_primary contient l’opérateur discursif dominant. Il doit être choisi dans le catalogue de l’annexe A. Le champ operator_secondary reçoit none lorsque l’analyse primaire suffit, ou un second opérateur lorsque la clause accomplit réellement deux opérations.

La règle centrale est la suivante : form_class et operator_primary ne doivent jamais être identiques par automatisme. Une forme wayyiqtol peut être MAINLINE, mais aussi RESUMPTION ou SPEECH-ENTRY. Une forme qatal peut être FACT, BACKGROUND, FLASHBACK, COMMENT, CONFIDENCE ou PARALLELISM. Une forme yiqtol peut être FUTURE, VOLITION, CONDITION, HABITUAL, GNOMIC ou PRETERITAL-RESIDUE selon le contexte. Une forme weqatal peut être PROJECTED-SEQUENCE, INSTRUCTION, PROCEDURE, CONSEQUENCE, PROMISE ou PRAYER.

B.8. Degré d’ambiguïté

Le champ ambiguity_level évalue la stabilité de l’analyse.

Valeur Définition Exigence dans notes
low plusieurs diagnostics convergent vers la même analyse note brève possible
medium l’analyse est probable, mais une autre lecture reste plausible mentionner la lecture concurrente
high l’occurrence est réellement ambiguë ou sous-spécifiée expliquer pourquoi la décision reste ouverte

Il faut distinguer ambiguïté et sous-spécification. Une occurrence est ambiguë lorsque deux analyses incompatibles restent possibles. Elle est sous-spécifiée lorsque plusieurs traits compatibles demeurent ouverts sans que le texte oblige à choisir. La poésie produit souvent de la sous-spécification : l’alternance qatal / yiqtol peut ne pas opposer deux temps, mais deux perspectives parallèles.

B.9. Procédure d’annotation

Chaque occurrence doit être annotée selon la procédure suivante.

  1. Localiser l’unité source et établir ref, book, chapter, verse.
  2. Segmenter l’unité en clauses et attribuer clause_id.
  3. Identifier la forme verbale et remplir hebrew_form, form_class, waw_presence.
  4. Identifier preceding_form et following_form dans la séquence locale.
  5. Décrire la syntaxe : word_order, clause_type, fronting_type.
  6. Déterminer speech_status, genre_macro et discourse_type.
  7. Décrire la relation avec la clause précédente dans transition_type.
  8. Évaluer topic_continuity et, en poésie, poetic_relation.
  9. Attribuer tam_primary et, si nécessaire, modality.
  10. Choisir operator_primary, puis operator_secondary seulement si une seconde fonction est réellement active.
  11. Déterminer ambiguity_level.
  12. Justifier brièvement les décisions non évidentes dans notes.

Cette procédure doit être suivie dans cet ordre. Si l’on choisit l’opérateur avant d’avoir décrit l’ordre des mots, le statut de discours et la transition, l’annotation risque de reconduire l’ancienne lecture automatique des formes.

B.10. Règles pour les cas difficiles

Les cas difficiles ne doivent pas être éliminés du corpus. Ils sont précisément les lieux où le modèle devient utile. Les règles suivantes serviront de garde-fous.

Cas Risque Règle d’annotation
qatal dans une chaîne narrative le traduire automatiquement par un passé simple narratif vérifier word_order, fronting_type, transition_type et operator_primary
wayyiqtol après discours direct le classer mécaniquement comme MAINLINE tester RESUMPTION ou SPEECH-EXIT
yiqtol en discours direct confondre futur, volonté, ordre et modalité annoter modality avant operator_primary
weqatal après yiqtol le traiter comme simple futur vérifier PROJECTED-SEQUENCE, PROCEDURE, CONSEQUENCE, PROMISE, INSTRUCTION
qatal // yiqtol en poésie imposer une opposition temporelle stricte annoter poetic_relation et tester PARALLELISM
yiqtol passé en poésie historique le corriger en anomalie tester ARCHAIC-PRET ou PRETERITAL-RESIDUE seulement après examen du genre
clause avec constituant préverbal négliger la structure informationnelle remplir fronting_type et topic_continuity
protase / apodose mélanger condition et conséquence distinguer clause_type, transition_type, modality et operator_primary

Une divergence entre forme attendue et fonction observée doit être classée dans notes selon le facteur principal : genre-driven, syntax-driven, modality-driven, discourse-driven, rhetoric-driven ou diachronic.

B.11. Exemples de lignes annotées

Les exemples suivants sont illustratifs. Ils montrent le type de raisonnement attendu ; ils ne remplacent pas l’annotation complète du corpus.

ref clause_id form_class word_order speech_status discourse_type tam_primary modality operator_primary operator_secondary transition_type ambiguity_level notes
Gen 1:5 Gen.1.5.c01 wayyiqtol V1 narrative narrative PAST REALIS MAINLINE SPEECH-ENTRY continuation low acte de nomination dans chaîne narrative
Gen 1:5 Gen.1.5.c02 qatal XV narrative narrative PERFECTIVE REALIS FACT CONTRAST rupture medium constituant préverbal ; fait correspondant plutôt que nouveau pas narratif
Ps 25:11 Ps.25.11.c01 weqatal V1 direct_speech prayer FUTURE REQUEST PRAYER PURPOSE projection medium demande motivée par l’appel au nom divin
poésie historique example.c01 yiqtol V1 narrative hymn PAST none LITURGICAL-MEMORY PRETERITAL-RESIDUE parallelism high lecture diachronique possible, à confirmer par le parallélisme

Ces lignes montrent pourquoi l’annotation doit être multicouche. Dans Genèse 1:5, le contraste entre wayyiqtol et qatal ne peut pas être expliqué par la seule chronologie. Dans le psaume, weqatal reçoit sa valeur du régime de prière. Dans la poésie historique, l’interprétation du yiqtol dépend à la fois du genre, de la mémoire liturgique et d’une possible survivance diachronique.

B.12. Contrôles de cohérence

Avant d’utiliser le fichier pour l’analyse, les contrôles suivants devront être effectués.

Contrôle Objectif
aucun champ obligatoire vide éviter les lignes inutilisables
form_class appartient à la liste contrôlée maintenir la comparabilité des occurrences
operator_primary appartient à l’annexe A éviter les étiquettes spontanées
operator_secondary vaut none ou un code de l’annexe A contrôler les analyses mixtes
ambiguity_level = medium/high implique une note rendre les décisions interprétatives vérifiables
word_order non V1 implique un examen de fronting_type ne pas perdre le diagnostic syntaxique
speech_status = direct_speech implique un contrôle de la modalité éviter les erreurs de centre déictique
genre_macro = poetry implique un contrôle de poetic_relation ne pas réduire la poésie à une anomalie verbale
transition_type = condition implique une vérification protase/apodose distinguer condition et conséquence
waw_presence ne détermine pas seul operator_primary éviter le retour au modèle du waw conversif

Le fichier annoté devra donc être relu à deux niveaux : ligne par ligne, pour vérifier les décisions locales, puis par séries, pour repérer les incohérences globales. Par exemple, si tous les wayyiqtol sont annotés MAINLINE, le fichier a probablement reconduit une hypothèse automatique ; si tous les qatal sont annotés PERFECTIVE sans distinction entre FACT, BACKGROUND, COMMENT et FLASHBACK, l’annotation n’a pas encore atteint le niveau discursif nécessaire.

B.13. Résultat attendu

Le schéma d’annotation doit produire un fichier capable de répondre à trois questions.

  1. Quelles formes apparaissent dans quels environnements syntaxiques et discursifs ?
  2. Quels opérateurs sont effectivement associés à chaque forme dans le corpus pilote ?
  3. Quels cas obligent à distinguer forme, TAM, modalité, genre et relation interclausale ?

L’objectif n’est pas de masquer la complexité du système verbal de l’hébreu biblique, mais de la rendre vérifiable. Une annotation réussie ne transforme pas chaque occurrence en certitude ; elle indique pourquoi une lecture est stable, probable, ambiguë ou sous-spécifiée.