https://github.com/ceres-sorbonne/europarser

Parsing d'articles de presse pour extraire le contenu

https://github.com/ceres-sorbonne/europarser

Science Score: 26.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (7.9%) to scientific vocabulary
Last synced: 10 months ago · JSON representation

Repository

Parsing d'articles de presse pour extraire le contenu

Basic Info
  • Host: GitHub
  • Owner: CERES-Sorbonne
  • License: agpl-3.0
  • Language: Python
  • Default Branch: master
  • Size: 8.81 MB
Statistics
  • Stars: 0
  • Watchers: 1
  • Forks: 1
  • Open Issues: 1
  • Releases: 0
Created almost 5 years ago · Last pushed about 1 year ago
Metadata Files
Readme License

README.md

Europarser

PyPI - Version PyPI - Python Version

Parsing d'articles de presse pour extraire le contenu et le transformer en des formats d'analyse comme TXM ou Iramuteq.

This readme is also available in English


Table des matières

Installation

Vous aurez besoin soit de python soit de docker pour pouvoir utiliser Europarser sur votre ordinateur.

Python

Europarser est disponible sur PyPi, vous pouvez l'installer avec pip à l'aide de la commande suivante: bash pip install europarser Vous pouvez ensuite vérifier que l'installation s'est bien passée en lançant europarser à l'aide de europarser --api

Docker

bash docker run -p 8000:8000 --name europarser ceressorbonne/europarser Le serveur sera accessible sur localhost:8000, vous pouvez également spécifier un autre port de la manière suivante: bash docker run -p [port souhaité]:8000 --name europarser ceressorbonne/europarser

Développement

Pour installer Europarser en mode développement, vous pouvez cloner le dépôt git et installer les dépendances avec pip: bash git clone https://github.com/CERES-Sorbonne/EuropressParser.git cd EuropressParser pip install -e .

Usages

Usage basique

```python from pathlib import Path

from europarser.main import main from europarser.models import Params

folder = Path('/path/to/your/articles')

As a list, you can choose between "json", "txm", "iramuteq", "csv", "stats", "processed_stats", "plots", "markdown" or any combination of them

outputs = ["json", "txm", "iramuteq", "csv", "stats", "processedstats", "plots", "markdown"] params = Params( minimalsupportkw=5, minimalsupportauthors=2, minimalsupportjournals=8, minimalsupport_dates=3, )

main(folder, outputs, params=params) ```

Usage sous forme d'API web

1) Installez le package bash pip install europarser

2) Lancez le serveur avec la commande suivante bash europarser --api [--host HOST] [--port PORT]

3) Allez sur localhost:8000 (par défaut) pour accéder à l'interface de l'API

Usage en ligne de commande

1) Installez le package bash pip install europarser

2) Utilisez la commande suivante pour parser un dossier bash europarser --folder /path/to/your/articles --output [one of "json", "txm", "iramuteq", "csv", "stats", "processed_stats", "plots", "markdown"] [--output other_output] [--minimal-support-kw 5] [--minimal-support-authors 2] [--minimal-support-journals 8] [--minimal-support-dates 3]

Exemple

bash europarser --folder /path/to/your/articles --output json --output txm --minimal-support-kw 5 --minimal-support-authors 2 --minimal-support-journals 8 --minimal-support-dates 3

License

europarser est distribué sous les termes de la licence AGPLv3.

Owner

  • Name: CERES Sorbonne Université
  • Login: CERES-Sorbonne
  • Kind: organization

Centre d'Experimentation de Recherche et d'Etude pour les Sciences-humaines

GitHub Events

Total
  • Create event: 9
  • Issues event: 3
  • Release event: 9
  • Issue comment event: 1
  • Push event: 29
Last Year
  • Create event: 9
  • Issues event: 3
  • Release event: 9
  • Issue comment event: 1
  • Push event: 29

Packages

  • Total packages: 4
  • Total downloads:
    • pypi 116 last-month
  • Total dependent packages: 0
    (may contain duplicates)
  • Total dependent repositories: 0
    (may contain duplicates)
  • Total versions: 44
  • Total maintainers: 1
pypi.org: pedropedropedro
  • Versions: 1
  • Dependent Packages: 0
  • Dependent Repositories: 0
  • Downloads: 7 Last month
Rankings
Dependent packages count: 10.3%
Average: 34.3%
Dependent repos count: 58.2%
Maintainers (1)
Last synced: 11 months ago
pypi.org: quoicoubert
  • Versions: 1
  • Dependent Packages: 0
  • Dependent Repositories: 0
  • Downloads: 12 Last month
Rankings
Dependent packages count: 10.7%
Average: 35.4%
Dependent repos count: 60.2%
Maintainers (1)
Last synced: 11 months ago
pypi.org: quackoubert
  • Versions: 1
  • Dependent Packages: 0
  • Dependent Repositories: 0
  • Downloads: 7 Last month
Rankings
Dependent packages count: 10.7%
Average: 35.4%
Dependent repos count: 60.2%
Maintainers (1)
Last synced: 10 months ago
pypi.org: europarser
  • Versions: 41
  • Dependent Packages: 0
  • Dependent Repositories: 0
  • Downloads: 90 Last month
Rankings
Dependent packages count: 9.7%
Average: 36.9%
Dependent repos count: 64.2%
Maintainers (1)
Last synced: 10 months ago

Dependencies

requirements-api.txt pypi
  • aiofiles *
  • fastapi *
  • jinja2 *
  • python-multipart *
  • uvicorn *
requirements.txt pypi
  • beautifulsoup4 *
  • colour *
  • numpy *
  • pydantic *
  • sklearn *
  • tqdm *
setup.py pypi