Annexe B. Schéma d’annotation
B.0. Fonction de l’annexe
Cette annexe définit le schéma d’annotation qui permet de transformer le corpus pilote en données analysables. Elle complète l’annexe A : l’annexe A fournit le catalogue des opérateurs discursifs ; l’annexe B précise comment ces opérateurs doivent être encodés dans un fichier de travail, champ par champ.
Le principe méthodologique est simple : l’unité pertinente n’est ni le verset entier ni la forme verbale isolée, mais la clause dans laquelle la forme apparaît. Une même forme peut recevoir des valeurs différentes selon son ordre syntaxique, son environnement discursif, son statut dans le discours direct, son genre textuel et sa relation avec les clauses voisines. Le schéma doit donc conserver simultanément des informations de localisation, de morphologie, de syntaxe, de discours et d’interprétation.
Le fichier visé n’est pas un simple inventaire de formes. Il est une grille de décision. Chaque ligne doit rendre explicite pourquoi une occurrence est analysée comme MAINLINE, BACKGROUND, PROJECTION, CONDITION, PARALLELISM, COMMENT, etc. L’annotation doit éviter deux erreurs symétriques : réduire une forme à une valeur unique, ou multiplier les étiquettes sans critères contrôlables.
Une ligne d’annotation doit donc garder la forme originale, par exemple וַיֹּאמֶר wayyōmer ‘et il dit’, יְהִי yəhî ‘qu’il soit’, וַיְהִי wayhî ‘et il fut’, avant de l’assigner à une classe et à un opérateur.
B.1. Fichier de travail et conventions techniques
Le fichier de travail prévu est :
data/operator-annotation.csv
Depuis le dossier des annexes, le même fichier peut être référencé comme :
../data/operator-annotation.csv
Les conventions suivantes devront être appliquées.
| Élément | Convention |
|---|---|
| Encodage | UTF-8 |
| Format | CSV avec en-tête sur la première ligne |
| Unité de ligne | une occurrence verbale située dans une clause segmentée |
| Valeurs absentes | none si le champ ne s’applique pas ; unknown si l’information devrait exister mais n’est pas déterminée |
| Valeurs incertaines | valeur probable dans le champ, justification dans notes, ambiguity_level au moins medium |
| Codes d’opérateurs | majuscules, selon l’annexe A |
| Valeurs descriptives | minuscules, avec trait d’union ou soulignement selon le champ |
| Notes | prose brève, sans remplacer les champs contrôlés |
Quand une clause contient plusieurs formes verbales pertinentes, deux solutions sont possibles. La solution minimale consiste à créer une ligne par forme verbale en conservant le même repère de clause et en distinguant les occurrences dans notes. La solution préférable, pour une version élargie du fichier, sera d’ajouter un champ predicate_id. Comme ce champ n’appartient pas au schéma minimal retenu dans le mémoire, le présent protocole conserve clause_id comme identifiant principal.
B.2. Colonnes minimales
Le fichier doit contenir les colonnes suivantes, dans cet ordre.
ref
book
chapter
verse
clause_id
hebrew_form
form_class
preceding_form
following_form
word_order
waw_presence
clause_type
speech_status
genre_macro
discourse_type
tam_primary
modality
operator_primary
operator_secondary
transition_type
topic_continuity
fronting_type
poetic_relation
root_semantics
ambiguity_level
notes
source_file
Ces colonnes se répartissent en cinq groupes.
| Groupe | Colonnes | Fonction |
|---|---|---|
| Identification | ref, book, chapter, verse, clause_id, source_file |
localiser la clause et préserver la provenance |
| Morphologie | hebrew_form, form_class, preceding_form, following_form, waw_presence, root_semantics |
identifier la forme et son environnement verbal |
| Syntaxe | word_order, clause_type, fronting_type |
décrire la structure de la clause |
| Discours | speech_status, genre_macro, discourse_type, transition_type, topic_continuity, poetic_relation |
situer la clause dans son régime textuel |
| Interprétation | tam_primary, modality, operator_primary, operator_secondary, ambiguity_level, notes |
formuler l’analyse contrôlée |
B.3. Identification et segmentation
Les champs d’identification doivent permettre de retrouver l’occurrence sans ambiguïté.
| Champ | Description | Exemple de valeur |
|---|---|---|
ref |
référence lisible | Gen 1:5 |
book |
livre biblique selon l’abréviation retenue | Gen |
chapter |
chapitre en chiffres arabes | 1 |
verse |
verset en chiffres arabes | 5 |
clause_id |
identifiant stable de clause | Gen.1.5.c01 |
source_file |
fichier d’origine ou fichier de sélection | bible-selected.csv |
Le champ clause_id doit être stable. Une bonne convention est :
Livre.Chapitre.Verset.cXX
Exemples :
Gen.1.5.c01
Gen.1.5.c02
Ps.25.11.c01
Dans la poésie, un verset peut contenir plusieurs cola. Le clause_id ne doit donc pas suivre automatiquement le découpage massorétique en versets. Il doit suivre le découpage syntaxico-discursif : un bicolon peut produire deux clauses, et un tricolon trois clauses, si chaque membre porte une prédication distincte.
B.4. Morphologie verbale
Le champ form_class encode la classe morphologique ou morphosyntaxique de la forme verbale. Les valeurs minimales sont les suivantes.
| Valeur | Définition pratique |
|---|---|
qatal |
forme suffixale finie |
yiqtol |
forme préfixale finie hors wayyiqtol |
wayyiqtol |
forme préfixale avec waw narratif / séquentiel traditionnellement identifié comme wayyiqtol |
weqatal |
forme suffixale avec waw dans un environnement projectif, consécutif, procédural ou modal |
participle |
participe verbal à fonction prédicative ou discursive pertinente |
infinitive |
infinitif construit ou absolu pertinent pour la relation clausale |
imperative |
impératif |
other |
autre forme ou cas non classable dans les catégories précédentes |
Les champs preceding_form et following_form utilisent les mêmes valeurs que form_class, avec none lorsqu’il n’y a pas de forme pertinente dans le voisinage immédiat. Ils ne doivent pas seulement noter la forme précédente dans le verset, mais la forme précédente dans la séquence discursive annotée.
Le champ waw_presence distingue la simple présence graphique de waw et sa fonction dans la clause.
| Valeur | Emploi |
|---|---|
none |
aucune conjonction waw pertinente |
simple-waw |
coordination ou liaison sans changement de classe verbale |
wayyiqtol-waw |
waw intégré à une forme wayyiqtol |
weqatal-waw |
waw intégré à une forme weqatal |
uncertain |
présence ou fonction du waw incertaine |
Le champ root_semantics ne remplace pas l’analyse discursive, mais il aide à contrôler les effets du type de prédicat. Un verbe statif, un verbe de mouvement, un verbe de parole et un verbe de perception ne produisent pas les mêmes effets aspectuels. Les valeurs suivantes suffisent pour une première annotation :
stative
motion
speech
perception
cognition
creation
possession
transfer
destruction
cultic
juridical
affective
other
unknown
B.5. Syntaxe de la clause
Le champ word_order est décisif, car l’ordre des mots est l’un des diagnostics principaux de la fonction discursive. Les valeurs minimales sont :
| Valeur | Définition |
|---|---|
V1 |
verbe en première position clausale |
SV |
sujet explicite avant le verbe |
VS |
verbe suivi d’un sujet explicite |
XV |
constituant non sujet avant le verbe |
OV |
objet avant le verbe |
ADV-V |
adverbial, cadre temporel ou spatial avant le verbe |
NEG-V |
négation immédiatement préverbale |
unknown |
ordre non déterminé ou analyse suspendue |
Le champ fronting_type précise la fonction du constituant préverbal lorsque word_order n’est pas simplement V1.
| Valeur | Fonction |
|---|---|
none |
aucun constituant fronté pertinent |
subject |
sujet préverbal |
object |
objet préverbal |
adverbial |
cadre temporel, spatial ou circonstanciel |
topic |
topique maintenu ou réintroduit |
focus |
focus informationnel |
contrast |
contraste explicite ou implicite |
frame |
cadre scénique ou discursif |
left-dislocation |
dislocation à gauche |
negation |
négation préverbale |
unknown |
fonction incertaine |
Le champ clause_type encode le statut syntaxique de la clause.
| Valeur | Emploi |
|---|---|
main |
clause indépendante |
subordinate |
subordonnée non spécifiée |
relative |
relative |
temporal |
clause temporelle |
causal |
clause causale ou explicative |
conditional-protasis |
protase conditionnelle |
conditional-apodosis |
apodose conditionnelle |
purpose |
clause finale |
result |
clause consécutive |
speech-intro |
clause introduisant une parole |
poetic-colon |
membre poétique analysé comme clause |
other |
autre type |
unknown |
type non déterminé |
B.6. Discours, genre et transitions
Le champ speech_status distingue le régime énonciatif.
| Valeur | Définition |
|---|---|
narrative |
narration hors discours direct |
direct_speech |
parole directe d’un personnage, d’un prophète, du psalmiste ou de Dieu |
embedded_speech |
parole enchâssée ou rapportée à l’intérieur d’une autre parole |
unknown |
statut incertain |
Pour une annotation élargie du discours direct, trois champs facultatifs pourront être ajoutés : speech_boundary (entry, internal, exit), speaker_shift (yes, no, unknown) et addressee_shift (yes, no, unknown). Ils ne figurent pas dans le schéma minimal, mais ils sont recommandés pour les passages où le changement de locuteur modifie la valeur de yiqtol, weqatal ou qatal.
Le champ genre_macro situe la clause dans un grand domaine littéraire.
narrative
poetry
law
prophecy
wisdom
cultic
genealogy
mixed
unknown
Le champ discourse_type précise le régime discursif local. Il reprend, de manière simplifiée, les distinctions utiles pour l’analyse des formes verbales.
narrative
predictive
procedural
instructional
legal
expository
hortatory
prophetic-oracle
prayer
lament
hymn
wisdom
genealogy
direct-speech
mixed
unknown
Le champ transition_type indique la relation avec la clause précédente.
| Valeur | Définition |
|---|---|
continuation |
poursuite de la même chaîne ou du même régime |
rupture |
interruption ou changement de régime |
resumption |
reprise après discours direct, commentaire, arrière-plan ou digression |
backgrounding |
passage vers une information de fond |
foregrounding |
mise au premier plan |
projection |
passage vers un domaine futur, modal, volitif ou non réalisé |
explanation |
justification, cause, commentaire ou clarification |
condition |
relation protase-apodose ou hypothèse |
parallelism |
relation poétique de parallélisme |
speech_boundary |
entrée ou sortie de discours direct |
unknown |
transition non déterminée |
Le champ topic_continuity encode la continuité du participant ou du topique principal.
same
switch
reintroduced
contrastive
generic
unknown
Le champ poetic_relation reste none hors poésie, sauf si une structure rhétorique évidente apparaît en prose. En poésie, il peut recevoir les codes de l’annexe A : PARALLELISM, SYN-PAR, ANT-PAR, SYNTH-PAR, CLIMAX, CHIASM, BICOLON-A, BICOLON-B, TRICOLON, LITURGICAL-MEMORY, etc.
B.7. TAM, modalité et opérateurs
Le champ tam_primary encode la valeur temporelle, aspectuelle ou actionnelle dominante. Il utilise les codes de l’annexe A, notamment :
PAST
ANTERIOR
SIMULTANEOUS
FUTURE
PERFECTIVE
IMPERFECTIVE
PROGRESSIVE
HABITUAL
ITERATIVE
RESULTATIVE
STATIVE
GNOMIC
Le champ modality encode la valeur modale lorsqu’elle est pertinente. Si aucune modalité particulière n’est active, on note none. Les valeurs possibles incluent :
none
REALIS
IRREALIS
PROJECTION
MODALITY
DEONTIC
PERMISSION
ABILITY
VOLITION
COMMAND
PROHIBITION
REQUEST
OPTATIVE
PRAYER
EPISTEMIC
CONDITION
PURPOSE
CONSEQUENCE
PREDICTION
PROMISE
THREAT
INSTRUCTION
PROCEDURE
PROJECTED-SEQUENCE
Le champ operator_primary contient l’opérateur discursif dominant. Il doit être choisi dans le catalogue de l’annexe A. Le champ operator_secondary reçoit none lorsque l’analyse primaire suffit, ou un second opérateur lorsque la clause accomplit réellement deux opérations.
La règle centrale est la suivante : form_class et operator_primary ne doivent jamais être identiques par automatisme. Une forme wayyiqtol peut être MAINLINE, mais aussi RESUMPTION ou SPEECH-ENTRY. Une forme qatal peut être FACT, BACKGROUND, FLASHBACK, COMMENT, CONFIDENCE ou PARALLELISM. Une forme yiqtol peut être FUTURE, VOLITION, CONDITION, HABITUAL, GNOMIC ou PRETERITAL-RESIDUE selon le contexte. Une forme weqatal peut être PROJECTED-SEQUENCE, INSTRUCTION, PROCEDURE, CONSEQUENCE, PROMISE ou PRAYER.
B.8. Degré d’ambiguïté
Le champ ambiguity_level évalue la stabilité de l’analyse.
| Valeur | Définition | Exigence dans notes |
|---|---|---|
low |
plusieurs diagnostics convergent vers la même analyse | note brève possible |
medium |
l’analyse est probable, mais une autre lecture reste plausible | mentionner la lecture concurrente |
high |
l’occurrence est réellement ambiguë ou sous-spécifiée | expliquer pourquoi la décision reste ouverte |
Il faut distinguer ambiguïté et sous-spécification. Une occurrence est ambiguë lorsque deux analyses incompatibles restent possibles. Elle est sous-spécifiée lorsque plusieurs traits compatibles demeurent ouverts sans que le texte oblige à choisir. La poésie produit souvent de la sous-spécification : l’alternance qatal / yiqtol peut ne pas opposer deux temps, mais deux perspectives parallèles.
B.9. Procédure d’annotation
Chaque occurrence doit être annotée selon la procédure suivante.
- Localiser l’unité source et établir
ref,book,chapter,verse. - Segmenter l’unité en clauses et attribuer
clause_id. - Identifier la forme verbale et remplir
hebrew_form,form_class,waw_presence. - Identifier
preceding_formetfollowing_formdans la séquence locale. - Décrire la syntaxe :
word_order,clause_type,fronting_type. - Déterminer
speech_status,genre_macroetdiscourse_type. - Décrire la relation avec la clause précédente dans
transition_type. - Évaluer
topic_continuityet, en poésie,poetic_relation. - Attribuer
tam_primaryet, si nécessaire,modality. - Choisir
operator_primary, puisoperator_secondaryseulement si une seconde fonction est réellement active. - Déterminer
ambiguity_level. - Justifier brièvement les décisions non évidentes dans
notes.
Cette procédure doit être suivie dans cet ordre. Si l’on choisit l’opérateur avant d’avoir décrit l’ordre des mots, le statut de discours et la transition, l’annotation risque de reconduire l’ancienne lecture automatique des formes.
B.10. Règles pour les cas difficiles
Les cas difficiles ne doivent pas être éliminés du corpus. Ils sont précisément les lieux où le modèle devient utile. Les règles suivantes serviront de garde-fous.
| Cas | Risque | Règle d’annotation |
|---|---|---|
qatal dans une chaîne narrative |
le traduire automatiquement par un passé simple narratif | vérifier word_order, fronting_type, transition_type et operator_primary |
wayyiqtol après discours direct |
le classer mécaniquement comme MAINLINE | tester RESUMPTION ou SPEECH-EXIT |
yiqtol en discours direct |
confondre futur, volonté, ordre et modalité | annoter modality avant operator_primary |
weqatal après yiqtol |
le traiter comme simple futur | vérifier PROJECTED-SEQUENCE, PROCEDURE, CONSEQUENCE, PROMISE, INSTRUCTION |
qatal // yiqtol en poésie |
imposer une opposition temporelle stricte | annoter poetic_relation et tester PARALLELISM |
yiqtol passé en poésie historique |
le corriger en anomalie | tester ARCHAIC-PRET ou PRETERITAL-RESIDUE seulement après examen du genre |
| clause avec constituant préverbal | négliger la structure informationnelle | remplir fronting_type et topic_continuity |
| protase / apodose | mélanger condition et conséquence | distinguer clause_type, transition_type, modality et operator_primary |
Une divergence entre forme attendue et fonction observée doit être classée dans notes selon le facteur principal : genre-driven, syntax-driven, modality-driven, discourse-driven, rhetoric-driven ou diachronic.
B.11. Exemples de lignes annotées
Les exemples suivants sont illustratifs. Ils montrent le type de raisonnement attendu ; ils ne remplacent pas l’annotation complète du corpus.
| ref | clause_id | form_class | word_order | speech_status | discourse_type | tam_primary | modality | operator_primary | operator_secondary | transition_type | ambiguity_level | notes |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Gen 1:5 | Gen.1.5.c01 | wayyiqtol |
V1 |
narrative |
narrative |
PAST |
REALIS |
MAINLINE | SPEECH-ENTRY | continuation | low | acte de nomination dans chaîne narrative |
| Gen 1:5 | Gen.1.5.c02 | qatal |
XV |
narrative |
narrative |
PERFECTIVE |
REALIS |
FACT | CONTRAST | rupture | medium | constituant préverbal ; fait correspondant plutôt que nouveau pas narratif |
| Ps 25:11 | Ps.25.11.c01 | weqatal |
V1 |
direct_speech |
prayer |
FUTURE |
REQUEST |
PRAYER | PURPOSE | projection | medium | demande motivée par l’appel au nom divin |
| poésie historique | example.c01 | yiqtol |
V1 |
narrative |
hymn |
PAST |
none |
LITURGICAL-MEMORY | PRETERITAL-RESIDUE | parallelism | high | lecture diachronique possible, à confirmer par le parallélisme |
Ces lignes montrent pourquoi l’annotation doit être multicouche. Dans Genèse 1:5, le contraste entre wayyiqtol et qatal ne peut pas être expliqué par la seule chronologie. Dans le psaume, weqatal reçoit sa valeur du régime de prière. Dans la poésie historique, l’interprétation du yiqtol dépend à la fois du genre, de la mémoire liturgique et d’une possible survivance diachronique.
B.12. Contrôles de cohérence
Avant d’utiliser le fichier pour l’analyse, les contrôles suivants devront être effectués.
| Contrôle | Objectif |
|---|---|
| aucun champ obligatoire vide | éviter les lignes inutilisables |
form_class appartient à la liste contrôlée |
maintenir la comparabilité des occurrences |
operator_primary appartient à l’annexe A |
éviter les étiquettes spontanées |
operator_secondary vaut none ou un code de l’annexe A |
contrôler les analyses mixtes |
ambiguity_level = medium/high implique une note |
rendre les décisions interprétatives vérifiables |
word_order non V1 implique un examen de fronting_type |
ne pas perdre le diagnostic syntaxique |
speech_status = direct_speech implique un contrôle de la modalité |
éviter les erreurs de centre déictique |
genre_macro = poetry implique un contrôle de poetic_relation |
ne pas réduire la poésie à une anomalie verbale |
transition_type = condition implique une vérification protase/apodose |
distinguer condition et conséquence |
waw_presence ne détermine pas seul operator_primary |
éviter le retour au modèle du waw conversif |
Le fichier annoté devra donc être relu à deux niveaux : ligne par ligne, pour vérifier les décisions locales, puis par séries, pour repérer les incohérences globales. Par exemple, si tous les wayyiqtol sont annotés MAINLINE, le fichier a probablement reconduit une hypothèse automatique ; si tous les qatal sont annotés PERFECTIVE sans distinction entre FACT, BACKGROUND, COMMENT et FLASHBACK, l’annotation n’a pas encore atteint le niveau discursif nécessaire.
B.13. Résultat attendu
Le schéma d’annotation doit produire un fichier capable de répondre à trois questions.
- Quelles formes apparaissent dans quels environnements syntaxiques et discursifs ?
- Quels opérateurs sont effectivement associés à chaque forme dans le corpus pilote ?
- Quels cas obligent à distinguer forme, TAM, modalité, genre et relation interclausale ?
L’objectif n’est pas de masquer la complexité du système verbal de l’hébreu biblique, mais de la rendre vérifiable. Une annotation réussie ne transforme pas chaque occurrence en certitude ; elle indique pourquoi une lecture est stable, probable, ambiguë ou sous-spécifiée.