annotation-linguistique-setaf
Données d'annotation linguistique du projet SETAF
Science Score: 44.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
✓CITATION.cff file
Found CITATION.cff file -
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (1.3%) to scientific vocabulary
Repository
Données d'annotation linguistique du projet SETAF
Statistics
- Stars: 0
- Watchers: 0
- Forks: 0
- Open Issues: 0
- Releases: 0
Metadata Files
README.md
Annotation-linguistique-SETAF
Ce dépôt est en cours de construction.
Ce dépôt comprend les données d'annotation linguistique du projet SETAF.
Une annotation linguistique est produite à partir des lignes de texte normalisées selon une normalisation semi-diplomatique. Elle comprend la lemmatisation des tokens, ainsi que l’étiquetage syntaxique et morphologique des lemmes. Le référentiel que nous avons choisi pour lemmatiser les textes est LGeRM (Souvay & Pierrel, 2009), développé dans le cadre du DMF. Concernant l’étiquetage syntaxique et morphologique, nous suivons le jeu d’étiquettes Cattex-max (Prévost et al., 2013), dont les principes sont indiqués dans les Principes d’annotation Cattex09 (Guillot et al., 2013) et développés dans le Manuel d’annotation linguistique pour le français moderne (XVIe - XVIIIe siècles) (Gabay et al., 2022a). Pour réaliser ces annotations, nous utilisons l’application Pyrrha (Clérice et al., 2024), qui permet d’utiliser le modèle FreEM (French Early Modern) (Gabay et al., 2022b), basé sur LGeRM et Cattex-max. Cet outil permet également la correction manuelle des annotations, ce qui garantit une meilleure qualité des données. À ce jour, environ 10 000 tokens issus de nos documents ont été vérifiés manuellement.
Pour plus de détails, voir :
Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira, Pierre-Olivier Beaulnes. « Normaliser le moyen français : du graphématique au semi-diplomatique », actes de CORIA-TALN-RJCRI-RECITAL 2025, juillet 2025, Marseille, France. ⟨hal-05137564⟩.
Projet SETAF
GitHub du projet : https://github.com/SETAFDH
Site du projet : https://www.unige.ch/setaf
Financeur
Ce projet est financé par le Fonds national suisse (FNS). Numéro de projet : 205056.
Licence
CC-BY-4.0
Citer le dépôt
- Version
1.0: Sonia Solfrini, Pierre-Olivier Beaulnes, Mylène Dejouy, Simon Gabay et Daniela Solfaroli Camillocci, Données d'annotation linguistique du projet SETAF, version1.0, Genève, université de Genève, 2023-2026, https://github.com/SETAFDH/Annotation-linguistique-SETAF.
bibtex
@misc{solfrini_annotation_linguistique_setaf,
author={Solfrini, Sonia and Beaulnes, Pierre-Olivier and Dejouy, Mylène and Gabay, Simon and Solfaroli Camillocci, Daniela},
title={Données d'annotation linguistique du projet SETAF},
version={1.0},
address={Genève},
publisher={université de Genève},
year={2023-2026},
url={https://github.com/SETAFDH/Annotation-linguistique-SETAF},
}
Citer le projet
à venir
Owner
- Name: SETAFDH
- Login: SETAFDH
- Kind: organization
- Repositories: 4
- Profile: https://github.com/SETAFDH
Citation (CITATION.cff)
cff-version: 1.2.0
message: "If you use this dataset, please cite this repository as below."
title: "Données d'annotation linguistique du projet SETAF"
abstract: >-
Linguistic annotation data for the SETAF project.
type: dataset
authors:
- family-names: Solfrini
given-names: Sonia
affiliation: University of Geneva
orcid: 0009-0009-7367-048X
- family-names: Gabay
given-names: Simon
affiliation: University of Geneva
orcid: 0000-0001-9094-4475
- family-names: Gross
given-names: Geneviève
affiliation: University of Geneva
orcid: 0009-0006-5367-4262
- family-names: Beaulnes
given-names: Pierre-Olivier
affiliation: University of Geneva
orcid: 0009-0009-2475-6017
- family-names: Dejouy
given-names: Mylène
affiliation: University of Geneva
orcid: 0009-0000-9696-9868
- family-names: Solfaroli Camillocci
given-names: Daniela
affiliation: University of Geneva
orcid: 0000-0002-2601-668X
repository-code: 'https://github.com/SETAFDH/Annotation-linguistique-SETAF'
url: 'https://github.com/SETAFDH/Annotation-linguistique-SETAF'
keywords:
- linguistic annotation
- french
- modern
- prints
license: CC-BY-4.0
version: "1.0"
date-released: 2024-04-23
GitHub Events
Total
- Push event: 18
Last Year
- Push event: 18