lectaurep-mariages-et-divorces
Lectaurep-Mariages-et-Divorces, ground truth for the Registres des Contrats de Mariages et des Séparations et Divorces (French 19th century)
https://github.com/htr-united/lectaurep-mariages-et-divorces
Science Score: 49.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
○CITATION.cff file
-
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
✓DOI references
Found 1 DOI reference(s) in README -
✓Academic publication links
Links to: zenodo.org -
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (4.3%) to scientific vocabulary
Keywords
Repository
Lectaurep-Mariages-et-Divorces, ground truth for the Registres des Contrats de Mariages et des Séparations et Divorces (French 19th century)
Basic Info
Statistics
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 2
- Releases: 2
Topics
Metadata Files
README.md

lectaurep-mariages-et-divorces
Contexte de production
Le projet LECTAUREP (LECTure Automatique de REPertoires), qui a dbut en 2018, est une initiative conjointe du Minutier central des notaires de Paris des Archives Nationales, de lquipe ALMAnaCH (Automatic Language Modeling and Analysis & Computational Humanities) Inria et de lEPHE (Ecole Pratique des Hautes Etudes), en partenariat avec le Ministre de la Culture.
Le projet vise repenser lutilisation actuellement faite des registres des actes notaris, lune des sources historiques les plus consultes aux Archives nationales, par les chercheurs et les utilisateurs des fonds darchives notariales. Pour ce faire, le projet a instaurer un workflow de traitement de ces manuscrits laide de la reconnaissance automatique des documents manuscrits (HTR) et d'extraction dinformation (NER) en adoptant notamment l'application eScriptorium pour produire la vrit de terrain, entraner des modles de reconnaissance et corriger les transcriptions rsultants.
Les corpus lectaurep-mariages-et-divorces rassemblent 104 numrisations double-pages issues principalement des enregistrements des Contrats de Mariage de commerant par tenus par la Chambre des Notaires de Paris depuis 1803.
Une petite partie de ce corpus correspond galement aux enregistrements des jugements de sparation de corps ou de biens et divorces, toujours par la Chambre des Notaires de Paris, cette fois depuis 1892.
:arrow_right: voir la fiche dtaille des enregistrements des contrats de mariage de commerant Paris
:arrow_right: voir la fiche dtaille des enregistrements des jugements de sparation de corps ou de biens et divorces Paris
Dtail des lots
| Nom | Importance matrielle | Dates extremes | Particularit | CM ou SD* | Identifiant db | | --------------- | --------------------- | ----------------- | ------------- | -------- | -------------- | | lectaurep-cm1 | 30 doubles-pages | 04/1829 - 10/1829 | 1 seule main | CM/1 | #152 | | lectaurep-cm3 | 30 doubles-pages | 03-1836 - 08-1836 | 1 seule main | CM/3 | #267 | | lectaurep-cm-sd | 44 doubles-pages | 1829, 1832, 1836, 1838, 1839, 1841, 1844, 1846, 1850, 1852, 1854, 1855, 1862, 1864, 1866, 1868, 1870, 1872, 1875, 1877, 1879, 1881, 1883, 1885, 1887, 1889, 1891, 1892, 1893, 1895, 1896, 1897, 1898, 1899, 1900, 1903, 1909, 1927, 1928 | chantillonnages par carottage | CM + SD | #603 |
*CM=Contrat de mariage; SD=Sparation et Divorces
Rgles de transcription


- la segmentation suit globalement la structure tabulaire, l'exception des "Noms" et "Prnoms" qui sont systmatiquement segments comme appartenant la mme colonne. Une srie de
.....ou----, quand elle est prsente sur l'image, signale la sparation entre "nom" et "prnom".

- le texte suscrit a t signal par un
^liminaire. Le phnomne "dudt" (dudit) est donc transcrit par "dud^t".

- l'emploi des minuscules et majuscule a t respect.

- les signatures sont systmatiquement transcrites par un ``. Tous les segments contenant des signatures et des paraphes (en gnral ils ne contiennent rien d'autre) ont t associs au type "DefaultLine:Signature".

- les portions de texte pr-imprimes, notamment les en-ttes des tableaux et les prambules ont t transcrits. Les segments concerns ont t associs au type "DefaultLine:Print".
SegmOnto
L'ontologie SegmOnto a t applique de manire simplife:
MainZoneest utilis pour le texte libre en en-tte de la page.NumberingZonesignale la zone de pagination manuscrite (souvent trace au crayon)TableZonesignale la zone principale, prsente sous la forme d'un tableau. En revanche, le dtail des en-ttes et colonne n'est pas annot.MarginTextZoneest parfois utilis pour les annotations en marge des tableaux.

Pour les lignes de texte, comme indiqu ci-dessus, trois types de lignes sont recenss:
DefaultLine:Handwrittenpour les inscriptions manuscritesDefaultLine:Signaturepour les paraphes et les signatures, ce qui permet de les ignorer si besoin.DefaultLine:Printpour les en-ttes du tableau et les lignes imprimes, ce qui permet de les ignorer si besoin.

Les autres dpts LECTAUREP
Lectaurep-bronod <!-- Lectaurep-mariages-et-divorces-->
| Inria | Archives nationales |
| :---------------------------------: | :-------------------------------------------------------------: |
|
|
|
Owner
- Name: HTR United
- Login: HTR-United
- Kind: organization
- Location: France
- Website: https://htr-united.github.io
- Repositories: 21
- Profile: https://github.com/HTR-United
GitHub Events
Total
Last Year
Dependencies
- actions/checkout v2 composite
- actions/setup-python v2 composite
- andymckay/get-gist-action master composite