https://github.com/annesophie148/citation_classification

Science Score: 26.0%

This score indicates how likely this project is to be science-related based on various indicators:

○
CITATION.cff file
✓
codemeta.json file
Found codemeta.json file
✓
.zenodo.json file
Found .zenodo.json file
○
DOI references
○
Academic publication links
○
Academic email domains
○
Institutional organization owner
○
JOSS paper metadata
○
Scientific vocabulary similarity
Low similarity (6.1%) to scientific vocabulary

Last synced: 10 months ago · JSON representation

Repository

Basic Info

Host: GitHub
Owner: AnneSophie148
Language: Python
Default Branch: main
Size: 336 KB

Statistics

Stars: 0
Watchers: 2
Forks: 0
Open Issues: 0
Releases: 0

Created over 1 year ago · Last pushed 12 months ago

Metadata Files

Readme

Classification of rhetorical citation functions by discipline

This repository contains several files related to the classification of rhetorical citation functions across different disciplines.

Repository Contents

`PD100cit`

This folder contains:
- 100_citation_sample.csv: A random sample of 100 citations from the Pear Decline (PD100cit) corpus, including their contexts and annotations.
- annotation_guidelines.pdf: Annotation guidelines used as a reference for PD100cit annotations, with examples from ecology.

`script`

This folder contains several scripts for citation classification:

Scripts:
- finetune_for_citation_classification.py: Main script to fine-tune a language model (BioBERT, SciBERT, RoBERTa, BioLinkBERT), specified via arguments, including the citation context window size.
- citation_classifier.py: Classifier and training/validation functions.
- get_citation_sequence.py: Extracts citation sequences from both corpora, output as lists.
- utils.py: Helper functions used by finetune_for_citation_classification.py.

`Prompt`

This subfolder contains the two prompt versions tested and csvs with predictions for each of context window obtained with "Prompt-V2".

`essai_modele_Jiang`

This subfolder reproduces the model from Jiang & Chen (2023):

fine_tune_several_vectors.py: Main script for training the Jiang & Chen model.
citation_classifier.py: Classifier and training/validation functions, called by fine_tune_several_vectors.py.
prepare_data.py: Extracts citation sequences and their contexts, delimited by @, output as lists. Used by fine_tune_several_vectors.py.

Version française

Classification des fonctions rhétoriques des citations par discipline

Ce dépôt contient plusieurs fichiers relatifs à la classification des fonctions rhétoriques des citations à travers différentes disciplines.

Contenu du dépôt

`PD100cit`

Ce dossier contient :
- 100_citation_sample.csv : 100 citations tirées aléatoirement du corpus Pear Decline (PD100cit), avec leurs contextes et annotations.
- annotation_guidelines.pdf : Guide d'annotation utilisé comme référence pour les annotations de PD100cit, avec des exemples en écologie.

`script`

Ce dossier contient plusieurs scripts pour la classification des citations :

Scripts :
- finetune_for_citation_classification.py : Script principal pour fine-tuner un modèle de langue (BioBERT, SciBERT, RoBERTa, BioLinkBERT), à définir en argument, avec la taille de la fenêtre de contexte.
- citation_classifier.py : Classifieur et fonctions d'entraînement et de validation.
- get_citation_sequence.py : Extraction des séquences de citations des deux corpus, sorties sous forme de listes.
- utils.py : Fonctions auxiliaires utilisées par finetune_for_citation_classification.py.
Sous-dossier Prompt
- Contient les deux versions du prompt ainsi que les csv des prédictions obtenues avec "Prompt-V2".
Sous-dossier essai_modele_Jiang
- fine_tune_several_vectors.py : Script principal pour reproduire le modèle de Jiang & Chen (2023).
- citation_classifier.py : Classifieur et fonctions d'entraînement et de validation, appelé par fine_tune_several_vectors.py.
- prepare_data.py : Extraction des séquences de citations et de leurs contextes, avec délimitation par @. Sorties sous forme de listes. Script appelé par fine_tune_several_vectors.py.

Owner

Login: AnneSophie148
Kind: user

Repositories: 1
Profile: https://github.com/AnneSophie148

GitHub Events

Total

Push event: 3
Create event: 2

Last Year

Push event: 3
Create event: 2

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science

https://github.com/annesophie148/citation_classification

Science Score: 26.0%

Repository

Basic Info

Statistics

Metadata Files

README.md

Classification of rhetorical citation functions by discipline

Repository Contents

`PD100cit`

`script`

`Prompt`

`essai_modele_Jiang`

Version française

Classification des fonctions rhétoriques des citations par discipline

Contenu du dépôt

`PD100cit`

`script`

Owner

GitHub Events

Total

Last Year