https://github.com/annesophie148/citation_classification
Science Score: 26.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
○CITATION.cff file
-
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (6.1%) to scientific vocabulary
Repository
Basic Info
- Host: GitHub
- Owner: AnneSophie148
- Language: Python
- Default Branch: main
- Size: 336 KB
Statistics
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 0
- Releases: 0
Metadata Files
README.md
Classification of rhetorical citation functions by discipline
This repository contains several files related to the classification of rhetorical citation functions across different disciplines.
Repository Contents
PD100cit
This folder contains:
- 100_citation_sample.csv: A random sample of 100 citations from the Pear Decline (PD100cit) corpus, including their contexts and annotations.
- annotation_guidelines.pdf: Annotation guidelines used as a reference for PD100cit annotations, with examples from ecology.
script
This folder contains several scripts for citation classification:
- Scripts:
finetune_for_citation_classification.py: Main script to fine-tune a language model (BioBERT, SciBERT, RoBERTa, BioLinkBERT), specified via arguments, including the citation context window size.citation_classifier.py: Classifier and training/validation functions.get_citation_sequence.py: Extracts citation sequences from both corpora, output as lists.utils.py: Helper functions used byfinetune_for_citation_classification.py.
Prompt
This subfolder contains the two prompt versions tested and csvs with predictions for each of context window obtained with "Prompt-V2".
essai_modele_Jiang
This subfolder reproduces the model from Jiang & Chen (2023):
fine_tune_several_vectors.py: Main script for training the Jiang & Chen model.citation_classifier.py: Classifier and training/validation functions, called byfine_tune_several_vectors.py.prepare_data.py: Extracts citation sequences and their contexts, delimited by@, output as lists. Used byfine_tune_several_vectors.py.
Version française
Classification des fonctions rhétoriques des citations par discipline
Ce dépôt contient plusieurs fichiers relatifs à la classification des fonctions rhétoriques des citations à travers différentes disciplines.
Contenu du dépôt
PD100cit
Ce dossier contient :
- 100_citation_sample.csv : 100 citations tirées aléatoirement du corpus Pear Decline (PD100cit), avec leurs contextes et annotations.
- annotation_guidelines.pdf : Guide d'annotation utilisé comme référence pour les annotations de PD100cit, avec des exemples en écologie.
script
Ce dossier contient plusieurs scripts pour la classification des citations :
Scripts :
finetune_for_citation_classification.py: Script principal pour fine-tuner un modèle de langue (BioBERT, SciBERT, RoBERTa, BioLinkBERT), à définir en argument, avec la taille de la fenêtre de contexte.citation_classifier.py: Classifieur et fonctions d'entraînement et de validation.get_citation_sequence.py: Extraction des séquences de citations des deux corpus, sorties sous forme de listes.utils.py: Fonctions auxiliaires utilisées parfinetune_for_citation_classification.py.
Sous-dossier
Prompt- Contient les deux versions du prompt ainsi que les csv des prédictions obtenues avec "Prompt-V2".
Sous-dossier
essai_modele_Jiangfine_tune_several_vectors.py: Script principal pour reproduire le modèle de Jiang & Chen (2023).citation_classifier.py: Classifieur et fonctions d'entraînement et de validation, appelé parfine_tune_several_vectors.py.prepare_data.py: Extraction des séquences de citations et de leurs contextes, avec délimitation par@. Sorties sous forme de listes. Script appelé parfine_tune_several_vectors.py.
Owner
- Login: AnneSophie148
- Kind: user
- Repositories: 1
- Profile: https://github.com/AnneSophie148
GitHub Events
Total
- Push event: 3
- Create event: 2
Last Year
- Push event: 3
- Create event: 2