segmentation-and-htr-models
Repository for all the HTR models made from Gallicorpora data
Science Score: 57.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
✓CITATION.cff file
Found CITATION.cff file -
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
✓DOI references
Found 2 DOI reference(s) in README -
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (3.4%) to scientific vocabulary
Repository
Repository for all the HTR models made from Gallicorpora data
Basic Info
- Host: GitHub
- Owner: Gallicorpora
- License: cc0-1.0
- Default Branch: main
- Size: 32.5 MB
Statistics
- Stars: 1
- Watchers: 2
- Forks: 0
- Open Issues: 0
- Releases: 1
Metadata Files
README.md
Segmentation and HTR models
Données
Les données qui ont servi à l'entrainement des différents modèles sont issues du données disponibles dans les différents dépôts du projet Gallicropora : https://github.com/Gallicorpora, ainsi que des dépôts préexistants suivants :
- Cremma Medieval : https://github.com/HTR-United/cremma-medieval
- OCR17 : https://github.com/Heresta/OCR17plus
- FONDUE-FR-PRINT-16 :https://github.com/FoNDUE-HTR/FONDUE-FR-PRINT-16
- Pictocatalogs - Datasets for catalogs OCR and segmentation, https://github.com/PictoCatalogs/TrainingDataOCR
Elles sont au format alto (v.4) et suivent les normes de segmentation SegmOnto (https://segmonto.github.io). Toutes les données sont cataloguées sur HTR-United (https://htr-united.github.io).
Modèles
Segmentation
Deux modèles de segmentation sont proposés ici :
- Un modèle de segmentation affiné à partir de blla.mlmodel qui est le modèle par défaut de segmentation de Kraken à l'aide de toutes les données de Gallicorpora et d’autres datasets cités ci-dessus. Toutefois pour l'instant les résultats ne sont pas satisfaisants.
- Un modèle entrainé à partir de YALtAi (afin de dépasser les difficultés rencontrées avec Kraken) et des mêmes données que le modèle précédent. Les résultats sont, sans être parfaits, sont bien plus encourageants. Voir présentation : Ariane Pinche, Kelly Christensen, Simon Gabay. Between automatic and manual encoding: Towards a generic TEI model for historical prints and manuscripts. TEI 2022 conference : Text as data, Sep 2022, Newcastle, United Kingdom. ⟨10.5281/zenodo.7092214⟩. ⟨hal-03780302⟩
HTR
Le projet a permis d'entrainer deux premiers modèles très encourageants :
- Le modèle Gallicorpora+ (DOI : 10.5281/zenodo.7410360) pour les imprimés du 16e au 19e siècle (98,66%, test score). Le modèle a été entrainé à partir de tous les dépôts du projet Gallicorpora en dehors de manuscrits du 15 et des dépôts suivants : OCR17, FONDUE-FR-PRINT-16, Pictocatalogs - Datasets for catalogs OCR and segmentation.
- Le modèle Cremma-medievalGallicorpora15, aussi appelé Cortado, pour les manuscrits et les incunables (95.54%, test score). Le modèle a été entrainé à partir des dépôts des manuscrits et des incubalbes du 15e siècle du projet Gallica, ainsi que du dépôt Cremma Medieval.
Les modèles sont encore en cours d'amélioration et seront très bientôt disponibles sur Zenodo et directement dans kraken.
Tous les modèles sont déjà disponibles dans la release attachée à ce dépôt.
Financeur
Ce projet est financé par le dataLab de la BnF (https://www.bnf.fr/fr/bnf-datalab).
Projet
Gallicorpora propose de consolider et d'appliquer une chaîne de traitement pour les documents anciens de Gallica en diachronie longue, des premiers manuscrits français aux imprimés révolutionnaires. Au-delà de la simple extraction de texte en masse, nous améliorerons les jeux de données d'entraînement pour l'apprentissage machine, les outils et les modèles déjà existants pour l'extraction, l'annotation et la diffusion de données richement annotées provenant des collections de la Bibliothèque nationale de France (BnF).
Citer le projet
Gallic(orpor)a: extraction, annotation et diffusion de l'information textuelle et visuelle en diachronie longue, Benoît Sagot, Laurent Romary, Rachel Bawden, Pedro Javier Ortiz Suárez, Simon Gabay, Ariane Pinche, and Jean-Baptiste Camps.
Infrastructure
Il est produit sur l'infrastructure du projet CREMMA (https://www.dim-map.fr/projets-soutenus/cremma/). Les données pour l'HTR sont produites à l'aide de l'interface eScriptorium (https://gitlab.com/scripta/escriptorium).
Citation (CITATION.cff)
cff-version: 1.2.0
message: "If you use this corpus, please cite it as below."
authors:
- family-names: Pinche
given-names: Ariane
orcid: https://orcid.org/0000-0002-7843-5050
- family-names: Gabay
given-names: Simon
orcid: https://orcid.org/0000-0001-9094-4475
title: "Segmentation and HTR Model"
date-released: 2022
url: "https://github.com/Gallicorpora/
Segmentation-and-HTR-Models"
GitHub Events
Total
Last Year
Dependencies
- actions/checkout v2 composite
- actions/checkout v2 composite
- actions/setup-python v2 composite
- andymckay/get-gist-action master composite
- rymndhng/release-on-push-action master composite
- actions/checkout v2 composite