Science Score: 31.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
    Found CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (2.7%) to scientific vocabulary
Last synced: 10 months ago · JSON representation ·

Repository

Basic Info
  • Host: GitHub
  • Owner: saadjamiri
  • Language: Python
  • Default Branch: master
  • Size: 2.93 KB
Statistics
  • Stars: 0
  • Watchers: 1
  • Forks: 0
  • Open Issues: 0
  • Releases: 0
Created over 1 year ago · Last pushed over 1 year ago
Metadata Files
Readme Citation

README.md

Projet de Web Scraping - Extraction de Données depuis Quotes to Scrape

Contexte du Projet

Ce projet consiste à concevoir un script en Python pour extraire et structurer des données provenant d'une page web à l'aide de techniques de Web Scraping. Le projet utilise des bibliothèques comme BeautifulSoup et Requests afin de récupérer et traiter les informations d'un site web.

Objectifs

L'objectif principal est d'extraire des informations pertinentes depuis le site Quotes to Scrape, et de répondre à plusieurs problématiques telles que :

  1. Nombre de livres et prix moyen dans chaque catégorie :

    • Cette question est posée pour chaque catégorie disponible sur le site.
  2. Nombre de pages sur le site web :

    • Identifier combien de pages sont disponibles sur le site à scruter.
  3. Nombre total de citations sur l'URL :

    • Calculer combien de citations sont affichées sur la page web.
  4. Récupération de la première et de la cinquième citation sur la page :

    • Extraire et afficher ces citations spécifiques.
  5. Tag le plus répété sur la page :

    • Analyser et identifier le tag le plus utilisé parmi les citations présentes sur la page.

Prérequis

Avant de commencer à utiliser ce projet, assurez-vous d'avoir les éléments suivants installés :

  • Python 3.x : Ce projet utilise Python pour automatiser les tâches de scraping.
  • Bibliothèques Python requises :
    • requests : Pour envoyer des requêtes HTTP et obtenir le contenu de la page web.
    • beautifulsoup4 : Pour analyser et extraire les données du HTML.

Installation des bibliothèques requises

Vous pouvez installer les dépendances nécessaires à l'aide de pip :

```bash pip install requests pip install beautifulsoup4

Owner

  • Login: saadjamiri
  • Kind: user

Citation (citation.py)

# Importation des bibliothèques nécessaires
import requests
# URL de l'API pour récupérer les citations
api_url = 'https://quotes.toscrape.com/api/quotes?page='

# Initialisation
page = 1
quotes = []
has_next_page = True

# Boucle pour parcourir les pages
while has_next_page:
    # Requête GET pour chaque page
    response = requests.get(api_url + str(page))
    data = response.json()  # On obtient la réponse en JSON
    
    # Ajout des citations de la page courante
    quotes.extend(data['quotes'])
    
    # Vérifie s'il y a une page suivante
    has_next_page = data['has_next']
    page += 1  # Passe à la page suivante

# Afficher le nombre total de citations
print()
print(f"Nombre total de citations : {len(quotes)}")
print()
print('*'*12)
# Afficher la première citation et la cinquième citations
print('la première citation est : ',quotes[0]['text'])
print('-'*12)
print('la cinquième citation est : ',quotes[4]["text"])

GitHub Events

Total
Last Year