setaf-autres-gothique

Données OCR dans le cadre du projet SETAF

https://github.com/setafdh/setaf-autres-gothique

Science Score: 44.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
    Found CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (3.6%) to scientific vocabulary
Last synced: 6 months ago · JSON representation ·

Repository

Données OCR dans le cadre du projet SETAF

Basic Info
  • Host: GitHub
  • Owner: SETAFDH
  • Default Branch: main
  • Size: 4.95 MB
Statistics
  • Stars: 0
  • Watchers: 0
  • Forks: 0
  • Open Issues: 0
  • Releases: 0
Created 8 months ago · Last pushed 7 months ago
Metadata Files
Readme Citation

README.md

SETAF-autres-gothique

Ce dépôt est en cours de construction.

Ce dépôt contient les données OCR des ouvrages publiés par Wygand Koeln, maître-imprimeur et libraire à Genève de 1516 à 1545, et par d'autres imprimeurs. Les textes sont des imprimés français du XVIe siècle en caractères gothiques et la liste des textes avec plus de détails se trouve dans le tableau CSV du dépôt.

Projet SETAF

GitHub du projet : https://github.com/SETAFDH

Site du projet : https://www.unige.ch/setaf

Financeur

Ce projet est financé par le Fonds national suisse (FNS). Numéro de projet : 205056.

Données

Les données se trouvent au chemin ‘./data//.xml‘ et sont au format ALTO. Elles suivent les normes de segmentation de SegmOnto et sont cataloguées sur HTR-United. Les fichiers sont corrigés manuellement : la qualité de la segmentation des pages et de la transcription produite par l'OCR est indiqué dans le tableau CSV du dépôt ("gold" ou "en cours").

Le contrôle de la transcription produite par l'OCR se base sur un guide redigé par l'équipe du projet : Solfrini et al., Guide de transcription pour les imprimés français du XVIe siècle en caractères gothiques, Version A, 2023, https://hal.science/hal-04281804.

Infrastructure

Les données pour l'OCR sont produites à l'aide de l’instance genevoise FoNDUE d'eScriptorium.

Les calculs sont effectués à l'Université de Genève en utilisant le service HPC.

Licence

Les transcriptions sont CC-BY, et les images suivent les règles de différentes bibliothèques numériques : e-rara, ONB, Gallica, BSB, MDZ, Manchester Library Digital Collections, Réro Doc.

Citer le dépôt

  • Version 1.0: Sonia Solfrini, Geneviève Gross, Pierre-Olivier Beaulnes, Aurélia Marques Oliveira, Mylène Dejouy, Simon Gabay et Daniela Solfaroli Camillocci, Données OCR et segmentation des imprimés de Wygand Koeln et autres (projet SETAF), version 1.0, Genève, université de Genève, 2025-2026, https://github.com/SETAFDH/SETAF-autres-gothique.

bibtex @misc{solfrini_Koeln_SETAF_2025, author={Solfrini, Sonia and Gross, Geneviève and Beaulnes, Pierre-Olivier and Marques Oliveira, Aurélia and Dejouy, Mylène and Gabay, Simon and Solfaroli Camillocci, Daniela}, title={Données OCR et segmentation des imprimés de Wygand Koeln et autres (projet SETAF)}, version={1.0}, address={Genève}, publisher={université de Genève}, year={2025-2026}, url={https://github.com/SETAFDH/SETAF-autres-gothique}, }

Citer le projet

à venir

Owner

  • Name: SETAFDH
  • Login: SETAFDH
  • Kind: organization

Citation (CITATION.cff)

cff-version: 1.2.0
message: "If you use this dataset, please cite this repository as below."
title: "Données OCR et segmentation des imprimés du projet SETAF en caractéres gothiques"
abstract: >-
  OCR data for the SETAF project, 16th-century French prints in Gothic characters.
type: dataset
authors:
  - family-names: Solfrini
    given-names: Sonia
    affiliation: University of Geneva
    orcid: 0009-0009-7367-048X
  - family-names: Gabay
    given-names: Simon
    affiliation: University of Geneva
    orcid: 0000-0001-9094-4475
  - family-names: Gross
    given-names: Geneviève
    affiliation: University of Geneva
    orcid: 0009-0006-5367-4262
  - family-names: Marques Oliveira
    given-names: Aurélia
    affiliation: University of Geneva
    orcid: 0009-0009-9678-9811
  - family-names: Solfaroli Camillocci
    given-names: Daniela
    affiliation: University of Geneva
    orcid: 0000-0002-2601-668X
repository-code: 'https://github.com/SETAFDH/SETAF-autres-gothique'
url: 'https://github.com/SETAFDH/SETAF-autres-gothique'
keywords:
  - HTR
  - OCR
  - french
  - modern
  - prints
license: CC-BY-4.0
version: "1.0"
date-released: 2026-07-08

GitHub Events

Total
  • Member event: 1
  • Push event: 7
  • Create event: 1
Last Year
  • Member event: 1
  • Push event: 7
  • Create event: 1

Dependencies

.github/workflows/htr-united-workflows.yml actions
  • actions/checkout v2 composite
  • actions/setup-python v2 composite
  • andymckay/get-gist-action master composite