htr-united
Ground Truth Resources for the HTR of patrimonial documents
Science Score: 44.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
✓CITATION.cff file
Found CITATION.cff file -
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (4.7%) to scientific vocabulary
Keywords
Repository
Ground Truth Resources for the HTR of patrimonial documents
Basic Info
- Host: GitHub
- Owner: HTR-United
- License: cc0-1.0
- Language: Python
- Default Branch: master
- Homepage: https://htr-united.github.io
- Size: 34.3 MB
Statistics
- Stars: 44
- Watchers: 3
- Forks: 39
- Open Issues: 26
- Releases: 223
Topics
Metadata Files
README.fr.md

HTR-United
Qu'est-ce que HTR-United
HTR-United est une organisation github sans autre forme de personnalité juridique. Elle vise à mettre en commun les transcriptions HTR/OCR de textes de toutes périodes et de tout style, principalement en français mais de manière non restricive. Elle est née du simple besoin - pour des projets - d'avoir de potentiels vérités de terrain pour entraîner des modèles rapidement sur des corpus plus petits.
Qu'est-ce qui est partagé ?
What is shared?
Les sets de données partagés ou signalés grâce à HTR-United se présentent sous la forme minimale suivante : - un ensemble de fichiers XML ALTO 4 et/ou XML PAGE contenant soit uniquement des données de segmentation, soit des données de segmentation et des données de transcription ; - un ensemble d'images correspondantes (il peut s'agir d'un lien vers un paquet hébergé sur une autre plateforme ou bien de contacts auprès de qui demander l'accès aux images) - le lien entre les images et les fichiers XML doit pouvoir être reconstitué sans traitement intermédiaire, par exemple sans avoir à renommer les images ; - une documentation sur les pratiques d'annotation suivie pour la segmentation et la transcription. Dans le cas d'un répertoire Github, cette documentation se trouve généralement résumée dans le README.
Un corpus peut être sous-divisé en plusieurs ensembles si cela est jugé nécessaire.
Si vous avez besoin d'aide pour créer et organiser votre répertoire sur Github, vous pouvez vous aider de notre template !
Que des données ?
À terme, l'objectif de cette organisation sera probablement de partager aussi - sous licence libre - des modèles pour les moteurs HTR demandés, afin que les projets les moins dotés puissent profiter de modèles. Ainsi, si vous partagez vos données, et suivant le rythme possible des autres partenaires, vous profiterez sûrement d'un modèle sous peu.
Cependant, n'oubliez pas: il existe un cercle vertueux Transcription<->Entraînement qui permettra à terme - nous l'espérons - d'améliorer pour les plus jeunes projets les transcriptions partant de 0.
Comment cela fonctionne ?
Il existe deux cas de figure:
- Vous avez déjà un dépôt de données
- Vous n'en avez pas et préférez fournir directement l'organisation
Vous avez déjà un dépôt de données
C'est plutôt pratique: vous gardez la main, pas de problèmes de rajout à l'organisation. Mais, histoire de faire grossir la visibilité de votre set de données, il nous parait important de le décrire ici ! En effet, si vous profitez des données de HTR-United, voire de ses modèles, autant renvoyer la pareille.
Pour ce faire, il suffit d'ouvrir une issue ou de proposer une modification sur le répertoire de dépôt en rajoutant un fichier YAML généré à l'aide de notre formulaire, tel que:
yaml
schema: https://htr-united.github.io/schema/2021-10-15/schema.json
title: Mon Dataset d'Exemple
url: http://lien.vers.repertoire
authors:
- name: John
surname: Doe
roles:
- transcriber
- name: Jeanne
surname: Dupont
roles:
- project-manager
description: Une courte description du contenu du jeu de données.
project-name: Mon Super Projet
project-website: http://lien.optionel.vers.projet
language:
- fra
script:
- Latn
script-type: only-manuscript
time:
notBefore: '1830'
notAfter: '1875'
hands:
count: '1'
precision: exact
license:
- name: CC-BY 4.0
url: https://creativecommons.org/licenses/by/4.0/
format: Page-XML
volume:
- metric: pages
count: 42
- metric: lines
count: 420
- metric: characters
count: 4200
transcription-guidelines: Une présentation des règles établies pour la transcription.
Vous n'en avez pas
Et bien, nous serons heureux de vous aidez. Ouvrez un ticket ici et nous serons heureux de vous aider à créer et partager votre dépôt, sur HTR-United. Des compétences en git sont bienvenues mais, si vous voulez partager des données, on vous aidera, c'est le but de cette organisation !
Vue d'ensemble
Il est possible de consulter le contenu du catalogue depuis notre site internet : ici.
Voici une vue d'ensemble des périodes couvertes par les jeux de données documentés dans le catalogue d'HTR-United !

Contrôle Quality
Pour vous aider à améliorer et assurer la qualté de vos jeux de données, nous avons développé une série d'outils qui peuvent être facilement ajoutés à votre répértoire. Allez voir notre page web sur nos outils pour des descriptions et des démos !
Publications
(FR) Alix Chagué, Thibault Clérice, Laurent Romary. HTR-United : Mutualisons la vérité de terrain !. DHNord2021 - Publier, partager, réutiliser les données de la recherche : les data papers et leurs enjeux, MESHS, Nov 2021, Lille, France. ⟨hal-03398740⟩
(FR) Alix Chagué. Conditions de la mutualisation : les principes FAIR et HTR-United. Humanistica 2022, Mai 2022, Montréal, Canada. ⟨hal-03685731⟩
Logo by Alix Chagué.
Owner
- Name: HTR United
- Login: HTR-United
- Kind: organization
- Location: France
- Website: https://htr-united.github.io
- Repositories: 21
- Profile: https://github.com/HTR-United
Citation (CITATION.CFF)
cff-version: 1.1.0
message: "If you use this software, please cite it as below."
authors:
- family-names: Chagué
given-names: Alix
orcid: https://orcid.org/0000-0002-0136-4434
- family-names: Clérice
given-names: Thibault
orcid: https://orcid.org/0000-0003-1852-9204
title: "HTR-United: Ground Truth Resources for the HTR and OCR of patrimonial documents"
GitHub Events
Total
- Create event: 71
- Release event: 60
- Issues event: 19
- Watch event: 3
- Issue comment event: 35
- Push event: 66
- Pull request event: 34
- Fork event: 7
Last Year
- Create event: 71
- Release event: 60
- Issues event: 19
- Watch event: 3
- Issue comment event: 35
- Push event: 66
- Pull request event: 34
- Fork event: 7
Issues and Pull Requests
Last synced: 6 months ago
All Time
- Total issues: 12
- Total pull requests: 14
- Average time to close issues: about 2 years
- Average time to close pull requests: 29 days
- Total issue authors: 9
- Total pull request authors: 5
- Average comments per issue: 0.92
- Average comments per pull request: 0.71
- Merged pull requests: 11
- Bot issues: 0
- Bot pull requests: 0
Past Year
- Issues: 8
- Pull requests: 14
- Average time to close issues: 3 months
- Average time to close pull requests: 29 days
- Issue authors: 7
- Pull request authors: 5
- Average comments per issue: 0.38
- Average comments per pull request: 0.71
- Merged pull requests: 11
- Bot issues: 0
- Bot pull requests: 0
Top Authors
Issue Authors
- alix-tz (6)
- buccacoronatus (2)
- yanishk (1)
- Giorgiaagostini (1)
- katharinaost (1)
- abraxastheraven (1)
- FloChiff (1)
- Lucaterre (1)
- lithlefranc (1)
- mirkh (1)
- michaelscho (1)
- banq-dcn (1)
- drnelson6 (1)
- tboenig (1)
- LaBretelle (1)
Pull Request Authors
- alix-tz (15)
- PonteIneptique (2)
- ArianePinche (1)
- ksefil (1)
- nathangibson (1)
- FloChiff (1)
- CVidalG (1)
- PaulineJac (1)
- michaelscho (1)
- maxguen (1)
- matgille (1)
- Caroline-Vandyck (1)
- buccacoronatus (1)
- LaurieHoeben (1)
- Svetlana-Yatsyk (1)
Top Labels
Issue Labels
Pull Request Labels
Dependencies
- actions/checkout v2 composite
- actions/setup-python v2 composite
- rymndhng/release-on-push-action master composite
- actions/checkout v2 composite
- actions/setup-python v2 composite