Science Score: 44.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
    Found CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (2.8%) to scientific vocabulary
Last synced: 6 months ago · JSON representation ·

Repository

Basic Info
  • Host: GitHub
  • Owner: alix-tz
  • License: cc-by-4.0
  • Default Branch: main
  • Size: 5.81 MB
Statistics
  • Stars: 0
  • Watchers: 1
  • Forks: 0
  • Open Issues: 0
  • Releases: 0
Created over 1 year ago · Last pushed 9 months ago
Metadata Files
Readme License Citation

README.md

GT Celestine Doniau-Danest

characters badge regions badge lines badge files badge

License

  • CC-BY 4.0

Description

Jeu de données de vérité de terrain pour la transcription automatique produites avec eScriptorium dans le cadre du cours HNU2000 à l'Université de Montréal au trimestre d'automne 2024. Le jeu de données contient des pages tirées aléatoirement des numérisation du "Journal de Célestine Doniau-Danest sur les débuts de la Guerre 1914-1918" mis en ligne par les Archives départementales de la Somme.

Ground Truth dataset for automatic text recognition created with eScriptorium during the HNU 2000 course at the Université de Montréal during the Fall 2024 semester. The dataset contains pages taken randomly from the digitization of the "Journal de Célestine Doniau-Danest sur les débuts de la Guerre 1914-1918" (Diary of Célestine Doniau-Danest on the beginning of the 1914-1918 war), published by the departmental archives of Somme.

Extent

Le jeu de données ne présente qu'une seule main d'écriture, peu de variation, pour un texte écrit entre 1914 et 1915. Les numérisations sont des doubles-pages.

Annotation guidelines

Les règles de transcription appliquées pour la transcription du jeu de données ont été collégialement décidées durant le cours.

Segmentation

Le vocabulaire contrôlé SegmOnto a été appliqué pour annoter la mise en page et typer les lignes de texte.

Transcription

De manière générale, les règles de transcription suivies sont immitatives.

  • Mots illisibles: durant la phase de transcription, les mots illisibles ont été transcrits par [???]. Ils ont ensuite été résolus collectivement.
  • Décoration du texte: les décorations comme le soulignage, etc, n'ont pas fait l'objet d'une transcription distincte du reste du texte.
  • Correction et normalisation: les fautes d'orthographes ont été reproduites telles que dans la source, les espacements sont en revanche normalisés selon l'usage moderne.
  • Ponctuation:
    • pour la transcription des points (.) et des tirets (-), on a respecté le tracé dans la source plutôt que l'usage attendu car le tracé de ces deux signes est très distinct.
    • les signes de ponctuation double (:;?!) ne sont pas précédé d'un espace.

Sources

Owner

  • Name: Alix Chagué
  • Login: alix-tz
  • Kind: user
  • Company: Inria

PhD student in Digital Humanities @ Université de Montréal and Inria.

Citation (CITATION.cff)

# This CITATION.cff file was generated with cffinit.
# Visit https://bit.ly/cffinit to generate yours today!

cff-version: 1.2.0
title: GT Celestine Doniau-Danest
message: >-
  If you use this dataset, please cite it using the metadata
  from this file.
type: dataset
authors:
  - given-names: Alix
    family-names: Chagué
    email: alix.chague@inria.fr
    orcid: 'https://orcid.org/0000-0002-0136-4434'
    affiliation: Université de Montréal
  - given-names: Julie
    family-names: Cissé
    affiliation: Université de Montréal
  - given-names: Radia
    family-names: Kichou
    affiliation: Université de Montréal
repository-artifact: 'https://archives.somme.fr/ark:/58483/tjrd8pq42716'
abstract: >-
  Ground Truth dataset for handwritten text recognition of
  French documents from the beginning on the 20th century.
keywords:
  - French
  - HTR
license: CC-BY-4.0

GitHub Events

Total
  • Push event: 11
  • Pull request event: 2
  • Create event: 2
Last Year
  • Push event: 11
  • Pull request event: 2
  • Create event: 2

Dependencies

.github/workflows/htr-united-actions.yml actions
  • actions/checkout v2 composite
  • actions/setup-python v2 composite
  • andymckay/get-gist-action master composite