dataset-celestine-doniau-danest
Science Score: 44.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
✓CITATION.cff file
Found CITATION.cff file -
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (2.8%) to scientific vocabulary
Repository
Basic Info
- Host: GitHub
- Owner: alix-tz
- License: cc-by-4.0
- Default Branch: main
- Size: 5.81 MB
Statistics
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
- Releases: 0
Metadata Files
README.md
GT Celestine Doniau-Danest
License
- CC-BY 4.0
Description
Jeu de données de vérité de terrain pour la transcription automatique produites avec eScriptorium dans le cadre du cours HNU2000 à l'Université de Montréal au trimestre d'automne 2024. Le jeu de données contient des pages tirées aléatoirement des numérisation du "Journal de Célestine Doniau-Danest sur les débuts de la Guerre 1914-1918" mis en ligne par les Archives départementales de la Somme.
Ground Truth dataset for automatic text recognition created with eScriptorium during the HNU 2000 course at the Université de Montréal during the Fall 2024 semester. The dataset contains pages taken randomly from the digitization of the "Journal de Célestine Doniau-Danest sur les débuts de la Guerre 1914-1918" (Diary of Célestine Doniau-Danest on the beginning of the 1914-1918 war), published by the departmental archives of Somme.
Extent
Le jeu de données ne présente qu'une seule main d'écriture, peu de variation, pour un texte écrit entre 1914 et 1915. Les numérisations sont des doubles-pages.
Annotation guidelines
Les règles de transcription appliquées pour la transcription du jeu de données ont été collégialement décidées durant le cours.
Segmentation
Le vocabulaire contrôlé SegmOnto a été appliqué pour annoter la mise en page et typer les lignes de texte.
Transcription
De manière générale, les règles de transcription suivies sont immitatives.
- Mots illisibles: durant la phase de transcription, les mots illisibles ont été transcrits par [???]. Ils ont ensuite été résolus collectivement.
- Décoration du texte: les décorations comme le soulignage, etc, n'ont pas fait l'objet d'une transcription distincte du reste du texte.
- Correction et normalisation: les fautes d'orthographes ont été reproduites telles que dans la source, les espacements sont en revanche normalisés selon l'usage moderne.
- Ponctuation:
- pour la transcription des points (.) et des tirets (-), on a respecté le tracé dans la source plutôt que l'usage attendu car le tracé de ces deux signes est très distinct.
- les signes de ponctuation double (:;?!) ne sont pas précédé d'un espace.
Sources
- Côte/Call Number: 134J94 (AD80, France)
- Lien permanent/permalink: https://archives.somme.fr/ark:/58483/tjrd8pq42716
Owner
- Name: Alix Chagué
- Login: alix-tz
- Kind: user
- Company: Inria
- Website: http://alix-tz.github.io
- Twitter: Alix_Tz
- Repositories: 10
- Profile: https://github.com/alix-tz
PhD student in Digital Humanities @ Université de Montréal and Inria.
Citation (CITATION.cff)
# This CITATION.cff file was generated with cffinit.
# Visit https://bit.ly/cffinit to generate yours today!
cff-version: 1.2.0
title: GT Celestine Doniau-Danest
message: >-
If you use this dataset, please cite it using the metadata
from this file.
type: dataset
authors:
- given-names: Alix
family-names: Chagué
email: alix.chague@inria.fr
orcid: 'https://orcid.org/0000-0002-0136-4434'
affiliation: Université de Montréal
- given-names: Julie
family-names: Cissé
affiliation: Université de Montréal
- given-names: Radia
family-names: Kichou
affiliation: Université de Montréal
repository-artifact: 'https://archives.somme.fr/ark:/58483/tjrd8pq42716'
abstract: >-
Ground Truth dataset for handwritten text recognition of
French documents from the beginning on the 20th century.
keywords:
- French
- HTR
license: CC-BY-4.0
GitHub Events
Total
- Push event: 11
- Pull request event: 2
- Create event: 2
Last Year
- Push event: 11
- Pull request event: 2
- Create event: 2
Dependencies
- actions/checkout v2 composite
- actions/setup-python v2 composite
- andymckay/get-gist-action master composite