annotation-linguistique-setaf

Données d'annotation linguistique du projet SETAF

https://github.com/setafdh/annotation-linguistique-setaf

Science Score: 44.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
    Found CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (1.3%) to scientific vocabulary
Last synced: 7 months ago · JSON representation ·

Repository

Données d'annotation linguistique du projet SETAF

Basic Info
  • Host: GitHub
  • Owner: SETAFDH
  • Default Branch: main
  • Homepage:
  • Size: 1.77 MB
Statistics
  • Stars: 0
  • Watchers: 0
  • Forks: 0
  • Open Issues: 0
  • Releases: 0
Created almost 2 years ago · Last pushed 7 months ago
Metadata Files
Readme Citation

README.md

Annotation-linguistique-SETAF

Ce dépôt est en cours de construction.

Ce dépôt comprend les données d'annotation linguistique du projet SETAF.

Une annotation linguistique est produite à partir des lignes de texte normalisées selon une normalisation semi-diplomatique. Elle comprend la lemmatisation des tokens, ainsi que l’étiquetage syntaxique et morphologique des lemmes. Le référentiel que nous avons choisi pour lemmatiser les textes est LGeRM (Souvay & Pierrel, 2009), développé dans le cadre du DMF. Concernant l’étiquetage syntaxique et morphologique, nous suivons le jeu d’étiquettes Cattex-max (Prévost et al., 2013), dont les principes sont indiqués dans les Principes d’annotation Cattex09 (Guillot et al., 2013) et développés dans le Manuel d’annotation linguistique pour le français moderne (XVIe - XVIIIe siècles) (Gabay et al., 2022a). Pour réaliser ces annotations, nous utilisons l’application Pyrrha (Clérice et al., 2024), qui permet d’utiliser le modèle FreEM (French Early Modern) (Gabay et al., 2022b), basé sur LGeRM et Cattex-max. Cet outil permet également la correction manuelle des annotations, ce qui garantit une meilleure qualité des données. À ce jour, environ 10 000 tokens issus de nos documents ont été vérifiés manuellement.

Pour plus de détails, voir :

Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira, Pierre-Olivier Beaulnes. « Normaliser le moyen français : du graphématique au semi-diplomatique », actes de CORIA-TALN-RJCRI-RECITAL 2025, juillet 2025, Marseille, France. ⟨hal-05137564⟩.

Projet SETAF

GitHub du projet : https://github.com/SETAFDH

Site du projet : https://www.unige.ch/setaf

Financeur

Ce projet est financé par le Fonds national suisse (FNS). Numéro de projet : 205056.

Licence

CC-BY-4.0

Citer le dépôt

  • Version 1.0: Sonia Solfrini, Pierre-Olivier Beaulnes, Mylène Dejouy, Simon Gabay et Daniela Solfaroli Camillocci, Données d'annotation linguistique du projet SETAF, version 1.0, Genève, université de Genève, 2023-2026, https://github.com/SETAFDH/Annotation-linguistique-SETAF.

bibtex @misc{solfrini_annotation_linguistique_setaf, author={Solfrini, Sonia and Beaulnes, Pierre-Olivier and Dejouy, Mylène and Gabay, Simon and Solfaroli Camillocci, Daniela}, title={Données d'annotation linguistique du projet SETAF}, version={1.0}, address={Genève}, publisher={université de Genève}, year={2023-2026}, url={https://github.com/SETAFDH/Annotation-linguistique-SETAF}, }

Citer le projet

à venir

Owner

  • Name: SETAFDH
  • Login: SETAFDH
  • Kind: organization

Citation (CITATION.cff)

cff-version: 1.2.0
message: "If you use this dataset, please cite this repository as below."
title: "Données d'annotation linguistique du projet SETAF"
abstract: >-
  Linguistic annotation data for the SETAF project.
type: dataset
authors:
  - family-names: Solfrini
    given-names: Sonia
    affiliation: University of Geneva
    orcid: 0009-0009-7367-048X
  - family-names: Gabay
    given-names: Simon
    affiliation: University of Geneva
    orcid: 0000-0001-9094-4475
  - family-names: Gross
    given-names: Geneviève
    affiliation: University of Geneva
    orcid: 0009-0006-5367-4262
  - family-names: Beaulnes
    given-names: Pierre-Olivier
    affiliation: University of Geneva
    orcid: 0009-0009-2475-6017
  - family-names: Dejouy
    given-names: Mylène
    affiliation: University of Geneva
    orcid: 0009-0000-9696-9868
  - family-names: Solfaroli Camillocci
    given-names: Daniela
    affiliation: University of Geneva
    orcid: 0000-0002-2601-668X
repository-code: 'https://github.com/SETAFDH/Annotation-linguistique-SETAF'
url: 'https://github.com/SETAFDH/Annotation-linguistique-SETAF'
keywords:
  - linguistic annotation
  - french
  - modern
  - prints
license: CC-BY-4.0
version: "1.0"
date-released: 2024-04-23

GitHub Events

Total
  • Push event: 18
Last Year
  • Push event: 18