htr-imprime-16e-siecle

Données HTR pour les Imprimés du 16e siècle

https://github.com/gallicorpora/htr-imprime-16e-siecle

Science Score: 26.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (1.1%) to scientific vocabulary
Last synced: 10 months ago · JSON representation

Repository

Données HTR pour les Imprimés du 16e siècle

Basic Info
  • Host: GitHub
  • Owner: Gallicorpora
  • License: cc0-1.0
  • Language: Python
  • Default Branch: main
  • Homepage:
  • Size: 96.7 MB
Statistics
  • Stars: 1
  • Watchers: 2
  • Forks: 1
  • Open Issues: 0
  • Releases: 43
Created about 4 years ago · Last pushed almost 2 years ago
Metadata Files
Readme License Citation

README.md

Imprims du 16e sicle

characters badge regions badge lines badge files badge

Donnes

Les donnes se trouvent au chemin ./data//.xml. Elles sont au format alto (v.4) et suivent les normes de segmentation SegmOnto (https://segmonto.github.io). Toutes les donnes sont catalogues sur HTR-United (https://htr-united.github.io).

Financeur

Ce projet est financ par le dataLab de la BnF (https://www.bnf.fr/fr/bnf-datalab).

Projet

Gallicorpora propose de consolider et d'appliquer une chane de traitement pour les documents anciens de Gallica en diachronie longue, des premiers manuscrits franais aux imprims rvolutionnaires. Au del de la simple extraction de texte en masse, nous amliorerons les jeux de donnes d'entranement pour l'apprentissage machine, les outils et les modles dj existants pour l'extraction, l'annotation et la diffusion de donnes richement annotes provenant des collections de la Bibliothque nationale de France (BnF).

Citer le projet

Gallic(orpor)a: extraction, annotation et diffusion de l'information textuelle et visuelle en diachronie longue, Benot Sagot, Laurent Romary, Rachel Bawden, Pedro Javier Ortiz Surez, Simon Gabay, Ariane Pinche, and Jean-Baptiste Camps.

Infrastructure

Il est produit sur l'infrastructure du projet CREMMA (https://www.dim-map.fr/projets-soutenus/cremma/). Les donnes pour l'HTR sont produites l'aide de l'interface eScriptorium (https://gitlab.com/scripta/escriptorium). Les donnes de lemmatisation sont produites l'aide de l'interface Pyrrha (https://dh.chartes.psl.eu/pyrrha/).

GitHub Events

Total
Last Year

Dependencies

.github/workflows/full.yml actions
  • actions/checkout v2 composite
  • actions/setup-python v2 composite
  • andymckay/get-gist-action master composite
  • rymndhng/release-on-push-action master composite