https://github.com/ceres-sorbonne/europarser
Parsing d'articles de presse pour extraire le contenu
Science Score: 26.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
○CITATION.cff file
-
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (7.9%) to scientific vocabulary
Repository
Parsing d'articles de presse pour extraire le contenu
Basic Info
- Host: GitHub
- Owner: CERES-Sorbonne
- License: agpl-3.0
- Language: Python
- Default Branch: master
- Size: 8.81 MB
Statistics
- Stars: 0
- Watchers: 1
- Forks: 1
- Open Issues: 1
- Releases: 0
Metadata Files
README.md
Europarser
Parsing d'articles de presse pour extraire le contenu et le transformer en des formats d'analyse comme TXM ou Iramuteq.
This readme is also available in English
Table des matières
Installation
Vous aurez besoin soit de python soit de docker pour pouvoir utiliser Europarser sur votre ordinateur.
Python
Europarser est disponible sur PyPi, vous pouvez l'installer avec pip à l'aide de la commande suivante:
bash
pip install europarser
Vous pouvez ensuite vérifier que l'installation s'est bien passée en lançant europarser à l'aide de europarser --api
Docker
bash
docker run -p 8000:8000 --name europarser ceressorbonne/europarser
Le serveur sera accessible sur localhost:8000, vous pouvez également spécifier un autre port de la manière suivante:
bash
docker run -p [port souhaité]:8000 --name europarser ceressorbonne/europarser
Développement
Pour installer Europarser en mode développement, vous pouvez cloner le dépôt git et installer les dépendances avec pip:
bash
git clone https://github.com/CERES-Sorbonne/EuropressParser.git
cd EuropressParser
pip install -e .
Usages
Usage basique
```python from pathlib import Path
from europarser.main import main from europarser.models import Params
folder = Path('/path/to/your/articles')
As a list, you can choose between "json", "txm", "iramuteq", "csv", "stats", "processed_stats", "plots", "markdown" or any combination of them
outputs = ["json", "txm", "iramuteq", "csv", "stats", "processedstats", "plots", "markdown"] params = Params( minimalsupportkw=5, minimalsupportauthors=2, minimalsupportjournals=8, minimalsupport_dates=3, )
main(folder, outputs, params=params) ```
Usage sous forme d'API web
1) Installez le package
bash
pip install europarser
2) Lancez le serveur avec la commande suivante
bash
europarser --api [--host HOST] [--port PORT]
3) Allez sur localhost:8000 (par défaut) pour accéder à l'interface de l'API
Usage en ligne de commande
1) Installez le package
bash
pip install europarser
2) Utilisez la commande suivante pour parser un dossier
bash
europarser --folder /path/to/your/articles --output [one of "json", "txm", "iramuteq", "csv", "stats", "processed_stats", "plots", "markdown"] [--output other_output] [--minimal-support-kw 5] [--minimal-support-authors 2] [--minimal-support-journals 8] [--minimal-support-dates 3]
Exemple
bash
europarser --folder /path/to/your/articles --output json --output txm --minimal-support-kw 5 --minimal-support-authors 2 --minimal-support-journals 8 --minimal-support-dates 3
License
europarser est distribué sous les termes de la licence AGPLv3.
Owner
- Name: CERES Sorbonne Université
- Login: CERES-Sorbonne
- Kind: organization
- Repositories: 6
- Profile: https://github.com/CERES-Sorbonne
Centre d'Experimentation de Recherche et d'Etude pour les Sciences-humaines
GitHub Events
Total
- Create event: 9
- Issues event: 3
- Release event: 9
- Issue comment event: 1
- Push event: 29
Last Year
- Create event: 9
- Issues event: 3
- Release event: 9
- Issue comment event: 1
- Push event: 29
Packages
- Total packages: 4
-
Total downloads:
- pypi 116 last-month
-
Total dependent packages: 0
(may contain duplicates) -
Total dependent repositories: 0
(may contain duplicates) - Total versions: 44
- Total maintainers: 1
pypi.org: pedropedropedro
- Documentation: https://github.com/CERES-sorbonne/europarser#readme
- License: agpl-3.0
-
Latest release: 0.0.0
published almost 2 years ago
Rankings
Maintainers (1)
pypi.org: quoicoubert
- Documentation: https://github.com/CERES-sorbonne/europarser#readme
- License: agpl-3.0
-
Latest release: 0.0.0
published almost 2 years ago
Rankings
Maintainers (1)
pypi.org: quackoubert
- Documentation: https://github.com/CERES-sorbonne/europarser#readme
- License: agpl-3.0
-
Latest release: 0.0.0
published almost 2 years ago
Rankings
Maintainers (1)
pypi.org: europarser
- Documentation: https://github.com/CERES-sorbonne/europarser#readme
- License: agpl-3.0
-
Latest release: 0.3.5
published about 1 year ago
Rankings
Maintainers (1)
Dependencies
- aiofiles *
- fastapi *
- jinja2 *
- python-multipart *
- uvicorn *
- beautifulsoup4 *
- colour *
- numpy *
- pydantic *
- sklearn *
- tqdm *