segmentation-and-htr-models

Repository for all the HTR models made from Gallicorpora data

https://github.com/gallicorpora/segmentation-and-htr-models

Science Score: 57.0%

This score indicates how likely this project is to be science-related based on various indicators:

✓
CITATION.cff file
Found CITATION.cff file
✓
codemeta.json file
Found codemeta.json file
✓
.zenodo.json file
Found .zenodo.json file
✓
DOI references
Found 2 DOI reference(s) in README
○
Academic publication links
○
Academic email domains
○
Institutional organization owner
○
JOSS paper metadata
○
Scientific vocabulary similarity
Low similarity (3.4%) to scientific vocabulary

Last synced: 10 months ago · JSON representation ·

Repository

Repository for all the HTR models made from Gallicorpora data

Basic Info

Host: GitHub
Owner: Gallicorpora
License: cc0-1.0
Default Branch: main
Size: 32.5 MB

Statistics

Stars: 1
Watchers: 2
Forks: 0
Open Issues: 0
Releases: 1

Created almost 4 years ago · Last pushed over 3 years ago

Metadata Files

Readme License Citation

Données

Les données qui ont servi à l'entrainement des différents modèles sont issues du données disponibles dans les différents dépôts du projet Gallicropora : https://github.com/Gallicorpora, ainsi que des dépôts préexistants suivants :

Cremma Medieval : https://github.com/HTR-United/cremma-medieval
OCR17 : https://github.com/Heresta/OCR17plus
FONDUE-FR-PRINT-16 :https://github.com/FoNDUE-HTR/FONDUE-FR-PRINT-16
Pictocatalogs - Datasets for catalogs OCR and segmentation, https://github.com/PictoCatalogs/TrainingDataOCR

Elles sont au format alto (v.4) et suivent les normes de segmentation SegmOnto (https://segmonto.github.io). Toutes les données sont cataloguées sur HTR-United (https://htr-united.github.io).

Modèles

Segmentation

Deux modèles de segmentation sont proposés ici :

Un modèle de segmentation affiné à partir de blla.mlmodel qui est le modèle par défaut de segmentation de Kraken à l'aide de toutes les données de Gallicorpora et d’autres datasets cités ci-dessus. Toutefois pour l'instant les résultats ne sont pas satisfaisants.
Un modèle entrainé à partir de YALtAi (afin de dépasser les difficultés rencontrées avec Kraken) et des mêmes données que le modèle précédent. Les résultats sont, sans être parfaits, sont bien plus encourageants. Voir présentation : Ariane Pinche, Kelly Christensen, Simon Gabay. Between automatic and manual encoding: Towards a generic TEI model for historical prints and manuscripts. TEI 2022 conference : Text as data, Sep 2022, Newcastle, United Kingdom. ⟨10.5281/zenodo.7092214⟩. ⟨hal-03780302⟩

HTR

Le projet a permis d'entrainer deux premiers modèles très encourageants :

Le modèle Gallicorpora+ (DOI : 10.5281/zenodo.7410360) pour les imprimés du 16e au 19e siècle (98,66%, test score). Le modèle a été entrainé à partir de tous les dépôts du projet Gallicorpora en dehors de manuscrits du 15 et des dépôts suivants : OCR17, FONDUE-FR-PRINT-16, Pictocatalogs - Datasets for catalogs OCR and segmentation.
Le modèle Cremma-medievalGallicorpora15, aussi appelé Cortado, pour les manuscrits et les incunables (95.54%, test score). Le modèle a été entrainé à partir des dépôts des manuscrits et des incubalbes du 15e siècle du projet Gallica, ainsi que du dépôt Cremma Medieval.

Les modèles sont encore en cours d'amélioration et seront très bientôt disponibles sur Zenodo et directement dans kraken.

Tous les modèles sont déjà disponibles dans la release attachée à ce dépôt.

Financeur

Ce projet est financé par le dataLab de la BnF (https://www.bnf.fr/fr/bnf-datalab).

Projet

Gallicorpora propose de consolider et d'appliquer une chaîne de traitement pour les documents anciens de Gallica en diachronie longue, des premiers manuscrits français aux imprimés révolutionnaires. Au-delà de la simple extraction de texte en masse, nous améliorerons les jeux de données d'entraînement pour l'apprentissage machine, les outils et les modèles déjà existants pour l'extraction, l'annotation et la diffusion de données richement annotées provenant des collections de la Bibliothèque nationale de France (BnF).

Citer le projet

Gallic(orpor)a: extraction, annotation et diffusion de l'information textuelle et visuelle en diachronie longue, Benoît Sagot, Laurent Romary, Rachel Bawden, Pedro Javier Ortiz Suárez, Simon Gabay, Ariane Pinche, and Jean-Baptiste Camps.

Infrastructure

Il est produit sur l'infrastructure du projet CREMMA (https://www.dim-map.fr/projets-soutenus/cremma/). Les données pour l'HTR sont produites à l'aide de l'interface eScriptorium (https://gitlab.com/scripta/escriptorium).

Citation (CITATION.cff)

cff-version: 1.2.0
message: "If you use this corpus, please cite it as below."
authors:
  - family-names: Pinche
    given-names: Ariane
    orcid: https://orcid.org/0000-0002-7843-5050
  - family-names: Gabay
    given-names: Simon
    orcid: https://orcid.org/0000-0001-9094-4475

title: "Segmentation and HTR Model"
date-released: 2022
url: "https://github.com/Gallicorpora/
Segmentation-and-HTR-Models"

GitHub Events

Total

Last Year

Dependencies

.github/workflows/alto2tei.yml actions

actions/checkout v2 composite

.github/workflows/htr-united.yml actions

actions/checkout v2 composite
actions/setup-python v2 composite
andymckay/get-gist-action master composite
rymndhng/release-on-push-action master composite

.github/workflows/text-extraction.yml actions

actions/checkout v2 composite

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science