htr-united

Ground Truth Resources for the HTR of patrimonial documents

https://github.com/htr-united/htr-united

Science Score: 44.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
    Found CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (4.7%) to scientific vocabulary

Keywords

fair ground-truth handwritten-text-recognition htr modern xml-alto xml-page
Last synced: 6 months ago · JSON representation ·

Repository

Ground Truth Resources for the HTR of patrimonial documents

Basic Info
  • Host: GitHub
  • Owner: HTR-United
  • License: cc0-1.0
  • Language: Python
  • Default Branch: master
  • Homepage: https://htr-united.github.io
  • Size: 34.3 MB
Statistics
  • Stars: 44
  • Watchers: 3
  • Forks: 39
  • Open Issues: 26
  • Releases: 223
Topics
fair ground-truth handwritten-text-recognition htr modern xml-alto xml-page
Created over 5 years ago · Last pushed 6 months ago
Metadata Files
Readme License Citation

README.fr.md

HTR-United

EN Go to htr-united.github.io

CC BY 4.0

Qu'est-ce que HTR-United

HTR-United est une organisation github sans autre forme de personnalité juridique. Elle vise à mettre en commun les transcriptions HTR/OCR de textes de toutes périodes et de tout style, principalement en français mais de manière non restricive. Elle est née du simple besoin - pour des projets - d'avoir de potentiels vérités de terrain pour entraîner des modèles rapidement sur des corpus plus petits.

Qu'est-ce qui est partagé ?

What is shared?

Les sets de données partagés ou signalés grâce à HTR-United se présentent sous la forme minimale suivante : - un ensemble de fichiers XML ALTO 4 et/ou XML PAGE contenant soit uniquement des données de segmentation, soit des données de segmentation et des données de transcription ; - un ensemble d'images correspondantes (il peut s'agir d'un lien vers un paquet hébergé sur une autre plateforme ou bien de contacts auprès de qui demander l'accès aux images) - le lien entre les images et les fichiers XML doit pouvoir être reconstitué sans traitement intermédiaire, par exemple sans avoir à renommer les images ; - une documentation sur les pratiques d'annotation suivie pour la segmentation et la transcription. Dans le cas d'un répertoire Github, cette documentation se trouve généralement résumée dans le README.

Un corpus peut être sous-divisé en plusieurs ensembles si cela est jugé nécessaire.

Si vous avez besoin d'aide pour créer et organiser votre répertoire sur Github, vous pouvez vous aider de notre template !

Que des données ?

À terme, l'objectif de cette organisation sera probablement de partager aussi - sous licence libre - des modèles pour les moteurs HTR demandés, afin que les projets les moins dotés puissent profiter de modèles. Ainsi, si vous partagez vos données, et suivant le rythme possible des autres partenaires, vous profiterez sûrement d'un modèle sous peu.

Cependant, n'oubliez pas: il existe un cercle vertueux Transcription<->Entraînement qui permettra à terme - nous l'espérons - d'améliorer pour les plus jeunes projets les transcriptions partant de 0.

Comment cela fonctionne ?

Il existe deux cas de figure:

  1. Vous avez déjà un dépôt de données
  2. Vous n'en avez pas et préférez fournir directement l'organisation

Vous avez déjà un dépôt de données

C'est plutôt pratique: vous gardez la main, pas de problèmes de rajout à l'organisation. Mais, histoire de faire grossir la visibilité de votre set de données, il nous parait important de le décrire ici ! En effet, si vous profitez des données de HTR-United, voire de ses modèles, autant renvoyer la pareille.

Pour ce faire, il suffit d'ouvrir une issue ou de proposer une modification sur le répertoire de dépôt en rajoutant un fichier YAML généré à l'aide de notre formulaire, tel que:

yaml schema: https://htr-united.github.io/schema/2021-10-15/schema.json title: Mon Dataset d'Exemple url: http://lien.vers.repertoire authors: - name: John surname: Doe roles: - transcriber - name: Jeanne surname: Dupont roles: - project-manager description: Une courte description du contenu du jeu de données. project-name: Mon Super Projet project-website: http://lien.optionel.vers.projet language: - fra script: - Latn script-type: only-manuscript time: notBefore: '1830' notAfter: '1875' hands: count: '1' precision: exact license: - name: CC-BY 4.0 url: https://creativecommons.org/licenses/by/4.0/ format: Page-XML volume: - metric: pages count: 42 - metric: lines count: 420 - metric: characters count: 4200 transcription-guidelines: Une présentation des règles établies pour la transcription.

Vous n'en avez pas

Et bien, nous serons heureux de vous aidez. Ouvrez un ticket ici et nous serons heureux de vous aider à créer et partager votre dépôt, sur HTR-United. Des compétences en git sont bienvenues mais, si vous voulez partager des données, on vous aidera, c'est le but de cette organisation !

Vue d'ensemble

Il est possible de consulter le contenu du catalogue depuis notre site internet : ici.

Voici une vue d'ensemble des périodes couvertes par les jeux de données documentés dans le catalogue d'HTR-United !

graph

Contrôle Quality

Pour vous aider à améliorer et assurer la qualté de vos jeux de données, nous avons développé une série d'outils qui peuvent être facilement ajoutés à votre répértoire. Allez voir notre page web sur nos outils pour des descriptions et des démos !

Publications

  • (FR) Alix Chagué, Thibault Clérice, Laurent Romary. HTR-United : Mutualisons la vérité de terrain !. DHNord2021 - Publier, partager, réutiliser les données de la recherche : les data papers et leurs enjeux, MESHS, Nov 2021, Lille, France. ⟨hal-03398740⟩

  • (FR) Alix Chagué. Conditions de la mutualisation : les principes FAIR et HTR-United. Humanistica 2022, Mai 2022, Montréal, Canada. ⟨hal-03685731⟩


Logo by Alix Chagué.

Owner

  • Name: HTR United
  • Login: HTR-United
  • Kind: organization
  • Location: France

Citation (CITATION.CFF)

cff-version: 1.1.0
message: "If you use this software, please cite it as below."
authors:
  - family-names: Chagué
    given-names: Alix
    orcid: https://orcid.org/0000-0002-0136-4434
  - family-names: Clérice
    given-names: Thibault
    orcid: https://orcid.org/0000-0003-1852-9204
title: "HTR-United: Ground Truth Resources for the HTR and OCR of patrimonial documents"

GitHub Events

Total
  • Create event: 71
  • Release event: 60
  • Issues event: 19
  • Watch event: 3
  • Issue comment event: 35
  • Push event: 66
  • Pull request event: 34
  • Fork event: 7
Last Year
  • Create event: 71
  • Release event: 60
  • Issues event: 19
  • Watch event: 3
  • Issue comment event: 35
  • Push event: 66
  • Pull request event: 34
  • Fork event: 7

Issues and Pull Requests

Last synced: 6 months ago

All Time
  • Total issues: 12
  • Total pull requests: 14
  • Average time to close issues: about 2 years
  • Average time to close pull requests: 29 days
  • Total issue authors: 9
  • Total pull request authors: 5
  • Average comments per issue: 0.92
  • Average comments per pull request: 0.71
  • Merged pull requests: 11
  • Bot issues: 0
  • Bot pull requests: 0
Past Year
  • Issues: 8
  • Pull requests: 14
  • Average time to close issues: 3 months
  • Average time to close pull requests: 29 days
  • Issue authors: 7
  • Pull request authors: 5
  • Average comments per issue: 0.38
  • Average comments per pull request: 0.71
  • Merged pull requests: 11
  • Bot issues: 0
  • Bot pull requests: 0
Top Authors
Issue Authors
  • alix-tz (6)
  • buccacoronatus (2)
  • yanishk (1)
  • Giorgiaagostini (1)
  • katharinaost (1)
  • abraxastheraven (1)
  • FloChiff (1)
  • Lucaterre (1)
  • lithlefranc (1)
  • mirkh (1)
  • michaelscho (1)
  • banq-dcn (1)
  • drnelson6 (1)
  • tboenig (1)
  • LaBretelle (1)
Pull Request Authors
  • alix-tz (15)
  • PonteIneptique (2)
  • ArianePinche (1)
  • ksefil (1)
  • nathangibson (1)
  • FloChiff (1)
  • CVidalG (1)
  • PaulineJac (1)
  • michaelscho (1)
  • maxguen (1)
  • matgille (1)
  • Caroline-Vandyck (1)
  • buccacoronatus (1)
  • LaurieHoeben (1)
  • Svetlana-Yatsyk (1)
Top Labels
Issue Labels
documentation (3) external (1) project (1)
Pull Request Labels

Dependencies

.github/workflows/Catalog.yaml actions
  • actions/checkout v2 composite
  • actions/setup-python v2 composite
  • rymndhng/release-on-push-action master composite
.github/workflows/HTRUC.yaml actions
  • actions/checkout v2 composite
  • actions/setup-python v2 composite