lectaurep-mariages-et-divorces

Lectaurep-Mariages-et-Divorces, ground truth for the Registres des Contrats de Mariages et des Séparations et Divorces (French 19th century)

https://github.com/htr-united/lectaurep-mariages-et-divorces

Science Score: 49.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
    Found 1 DOI reference(s) in README
  • Academic publication links
    Links to: zenodo.org
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (4.3%) to scientific vocabulary

Keywords

ground-truth handwritten htr lectaurep trainset
Last synced: 9 months ago · JSON representation

Repository

Lectaurep-Mariages-et-Divorces, ground truth for the Registres des Contrats de Mariages et des Séparations et Divorces (French 19th century)

Basic Info
  • Host: GitHub
  • Owner: HTR-United
  • License: cc-by-4.0
  • Default Branch: main
  • Homepage:
  • Size: 463 MB
Statistics
  • Stars: 0
  • Watchers: 2
  • Forks: 0
  • Open Issues: 2
  • Releases: 2
Topics
ground-truth handwritten htr lectaurep trainset
Created over 4 years ago · Last pushed over 2 years ago
Metadata Files
Readme License Citation

README.md

lectaurep-mariages-et-divorces

CC BY 4.0

DOI

Files Badges Regions Badges Lines Badges Chars Badges

Contexte de production

Le projet LECTAUREP (LECTure Automatique de REPertoires), qui a dbut en 2018, est une initiative conjointe du Minutier central des notaires de Paris des Archives Nationales, de lquipe ALMAnaCH (Automatic Language Modeling and Analysis & Computational Humanities) Inria et de lEPHE (Ecole Pratique des Hautes Etudes), en partenariat avec le Ministre de la Culture.

Le projet vise repenser lutilisation actuellement faite des registres des actes notaris, lune des sources historiques les plus consultes aux Archives nationales, par les chercheurs et les utilisateurs des fonds darchives notariales. Pour ce faire, le projet a instaurer un workflow de traitement de ces manuscrits laide de la reconnaissance automatique des documents manuscrits (HTR) et d'extraction dinformation (NER) en adoptant notamment l'application eScriptorium pour produire la vrit de terrain, entraner des modles de reconnaissance et corriger les transcriptions rsultants.

Les corpus lectaurep-mariages-et-divorces rassemblent 104 numrisations double-pages issues principalement des enregistrements des Contrats de Mariage de commerant par tenus par la Chambre des Notaires de Paris depuis 1803.

Une petite partie de ce corpus correspond galement aux enregistrements des jugements de sparation de corps ou de biens et divorces, toujours par la Chambre des Notaires de Paris, cette fois depuis 1892.

:arrow_right: voir la fiche dtaille des enregistrements des contrats de mariage de commerant Paris

:arrow_right: voir la fiche dtaille des enregistrements des jugements de sparation de corps ou de biens et divorces Paris

Dtail des lots

| Nom | Importance matrielle | Dates extremes | Particularit | CM ou SD* | Identifiant db | | --------------- | --------------------- | ----------------- | ------------- | -------- | -------------- | | lectaurep-cm1 | 30 doubles-pages | 04/1829 - 10/1829 | 1 seule main | CM/1 | #152 | | lectaurep-cm3 | 30 doubles-pages | 03-1836 - 08-1836 | 1 seule main | CM/3 | #267 | | lectaurep-cm-sd | 44 doubles-pages | 1829, 1832, 1836, 1838, 1839, 1841, 1844, 1846, 1850, 1852, 1854, 1855, 1862, 1864, 1866, 1868, 1870, 1872, 1875, 1877, 1879, 1881, 1883, 1885, 1887, 1889, 1891, 1892, 1893, 1895, 1896, 1897, 1898, 1899, 1900, 1903, 1909, 1927, 1928 | chantillonnages par carottage | CM + SD | #603 |

*CM=Contrat de mariage; SD=Sparation et Divorces

Rgles de transcription

illus_segmentation

illus_segmentation

  • la segmentation suit globalement la structure tabulaire, l'exception des "Noms" et "Prnoms" qui sont systmatiquement segments comme appartenant la mme colonne. Une srie de ..... ou ----, quand elle est prsente sur l'image, signale la sparation entre "nom" et "prnom".

illus_superscript

  • le texte suscrit a t signal par un ^ liminaire. Le phnomne "dudt" (dudit) est donc transcrit par "dud^t".

illus_upper

  • l'emploi des minuscules et majuscule a t respect.

illus_upper

  • les signatures sont systmatiquement transcrites par un ``. Tous les segments contenant des signatures et des paraphes (en gnral ils ne contiennent rien d'autre) ont t associs au type "DefaultLine:Signature".

illus_upper

  • les portions de texte pr-imprimes, notamment les en-ttes des tableaux et les prambules ont t transcrits. Les segments concerns ont t associs au type "DefaultLine:Print".

SegmOnto

L'ontologie SegmOnto a t applique de manire simplife:

  • MainZone est utilis pour le texte libre en en-tte de la page.
  • NumberingZone signale la zone de pagination manuscrite (souvent trace au crayon)
  • TableZone signale la zone principale, prsente sous la forme d'un tableau. En revanche, le dtail des en-ttes et colonne n'est pas annot.
  • MarginTextZone est parfois utilis pour les annotations en marge des tableaux.

illus_segmonto_zones

Pour les lignes de texte, comme indiqu ci-dessus, trois types de lignes sont recenss:

  • DefaultLine:Handwritten pour les inscriptions manuscrites
  • DefaultLine:Signature pour les paraphes et les signatures, ce qui permet de les ignorer si besoin.
  • DefaultLine:Print pour les en-ttes du tableau et les lignes imprimes, ce qui permet de les ignorer si besoin.

illus_segmonto_lines

Les autres dpts LECTAUREP

Lectaurep-repertoires

Lectaurep-bronod <!-- Lectaurep-mariages-et-divorces-->


| Inria | Archives nationales | | :---------------------------------: | :-------------------------------------------------------------: | | inria | archives nationales |

Owner

  • Name: HTR United
  • Login: HTR-United
  • Kind: organization
  • Location: France

GitHub Events

Total
Last Year

Dependencies

.github/workflows/htr-united.yml actions
  • actions/checkout v2 composite
  • actions/setup-python v2 composite
  • andymckay/get-gist-action master composite