scraping_site-

https://github.com/saadjamiri/scraping_site-

Science Score: 31.0%

This score indicates how likely this project is to be science-related based on various indicators:

✓
CITATION.cff file
Found CITATION.cff file
✓
codemeta.json file
Found codemeta.json file
○
.zenodo.json file
○
DOI references
○
Academic publication links
○
Academic email domains
○
Institutional organization owner
○
JOSS paper metadata
○
Scientific vocabulary similarity
Low similarity (2.7%) to scientific vocabulary

Last synced: 10 months ago · JSON representation ·

Repository

Basic Info

Host: GitHub
Owner: saadjamiri
Language: Python
Default Branch: master
Size: 2.93 KB

Statistics

Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Releases: 0

Created over 1 year ago · Last pushed over 1 year ago

Metadata Files

Readme Citation

Projet de Web Scraping - Extraction de Données depuis Quotes to Scrape

Contexte du Projet

Ce projet consiste à concevoir un script en Python pour extraire et structurer des données provenant d'une page web à l'aide de techniques de Web Scraping. Le projet utilise des bibliothèques comme BeautifulSoup et Requests afin de récupérer et traiter les informations d'un site web.

Objectifs

L'objectif principal est d'extraire des informations pertinentes depuis le site Quotes to Scrape, et de répondre à plusieurs problématiques telles que :

Nombre de livres et prix moyen dans chaque catégorie :
- Cette question est posée pour chaque catégorie disponible sur le site.
Nombre de pages sur le site web :
- Identifier combien de pages sont disponibles sur le site à scruter.
Nombre total de citations sur l'URL :
- Calculer combien de citations sont affichées sur la page web.
Récupération de la première et de la cinquième citation sur la page :
- Extraire et afficher ces citations spécifiques.
Tag le plus répété sur la page :
- Analyser et identifier le tag le plus utilisé parmi les citations présentes sur la page.

Prérequis

Avant de commencer à utiliser ce projet, assurez-vous d'avoir les éléments suivants installés :

Python 3.x : Ce projet utilise Python pour automatiser les tâches de scraping.
Bibliothèques Python requises :
- requests : Pour envoyer des requêtes HTTP et obtenir le contenu de la page web.
- beautifulsoup4 : Pour analyser et extraire les données du HTML.

Installation des bibliothèques requises

Vous pouvez installer les dépendances nécessaires à l'aide de pip :

```bash pip install requests pip install beautifulsoup4

Owner

Login: saadjamiri
Kind: user

Repositories: 1
Profile: https://github.com/saadjamiri

Citation (citation.py)

# Importation des bibliothèques nécessaires
import requests
# URL de l'API pour récupérer les citations
api_url = 'https://quotes.toscrape.com/api/quotes?page='

# Initialisation
page = 1
quotes = []
has_next_page = True

# Boucle pour parcourir les pages
while has_next_page:
    # Requête GET pour chaque page
    response = requests.get(api_url + str(page))
    data = response.json()  # On obtient la réponse en JSON
    
    # Ajout des citations de la page courante
    quotes.extend(data['quotes'])
    
    # Vérifie s'il y a une page suivante
    has_next_page = data['has_next']
    page += 1  # Passe à la page suivante

# Afficher le nombre total de citations
print()
print(f"Nombre total de citations : {len(quotes)}")
print()
print('*'*12)
# Afficher la première citation et la cinquième citations
print('la première citation est : ',quotes[0]['text'])
print('-'*12)
print('la cinquième citation est : ',quotes[4]["text"])

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science