qc.uncertainty_covid
This repository offers codes and databases dedicated to the collection, processing, and analysis of press conferences held by the government of Quebec during the COVID-19 pandemic. Ce dépôt propose des codes et des bases de données dédiés à la collecte, au traitement et à l'analyse des conférences de presse tenues au Québec durant la pandémie.
Science Score: 44.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
✓CITATION.cff file
Found CITATION.cff file -
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (3.9%) to scientific vocabulary
Repository
This repository offers codes and databases dedicated to the collection, processing, and analysis of press conferences held by the government of Quebec during the COVID-19 pandemic. Ce dépôt propose des codes et des bases de données dédiés à la collecte, au traitement et à l'analyse des conférences de presse tenues au Québec durant la pandémie.
Basic Info
Statistics
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
- Releases: 4
Metadata Files
README.md
Code et base de donnes (English below)
propos
Cette plateforme propose des codes et des bases de donnes ddis la collecte, au traitement et l'analyse des confrences de presse tenues par le gouvernement du Qubec durant la pandmie de COVID-19.
Les analyses englobent : - L'identification des diffrents locuteurs (dcideurs politiques, reprsentants de la sant publique, journalistes, genre). - Une analyse des marqueurs d'incertitude base sur Claveau et al. (2020). - Une analyse de sentiments base sur Duval et Ptry (2016). - Une analyse par dictionnaire permettant d'identifier les phrases relatives divers sujets tels que la pandmie, la vaccination, les preuves scientifiques, ou encore les groupes cibles des mesures sanitaires.
Remerciements au CIRST pour son aide et ses prcieux conseils.
Brve description des codes
Dossier AutoTranscribeAndScrape
Ce dossier contient trois types de codes Python :
- Extraction des transcriptions gouvernementales (Assemble nationale du Qubec) :
-
Extract_conf_covid.py -
Extract_conf_not_covid.py -
Extract_pp_covid.py -
Extract_pp_covid.py
-
Ces scripts, situs dans le sous-dossier recup_transcriptions, permettent d'extraire les confrences de presse et les points de presse depuis le 01 janvier 2020 sur la pandmie de COVID-19 depuis le site de l'Assemble nationale du Qubec.
- Rcupration audio des transcriptions indisponibles :
-
recuperation_audio_conference.py
-
Ce script, situ dans le sous-dossier AutoTranscribe, permet de rcuprer l'audio des confrences de presse non retranscrites partir de vidos YouTube en utilisant le fichier hyperliens_conferences.csv.
- Transcription automatique des transcriptions indisponibles :
-
transcription.py
-
Ce script utilise Whisper d'OpenAI pour transcrire automatiquement l'audio des confrences de presse manquantes. Un fichier annotations_langues.csv est utilis pour exclure les portions audio en anglais.
Dossier Code
- Traitement complet de la base de donnes textuelle :
-
Full_code.R
-
Ce script R assure le traitement complet des confrences, incluant la cration de la base de donnes, toknisation, annotation, analyses par dictionnaire, analyses de sentiments, cration des variables, nettoyage et compilation de la base de donnes finale.
- Scripts dcomposs : Le sous-dossier
Scriptscontient le code complet dcompos en diffrentes tapes.
Description des donnes
Base de donnes
QC.unc.data_daily.csv: est le fichier contenant les indices principaux produits par le code et utilises dans la production des modles OLS, SEM et des rsultats graphiques concernant l'interaction entre sentinements d'incertitude des dcideurs, sentiments ngatifs, niveau de preuve et svrit des mesures sanitaires mises en oeuvre durant la pandmie au Qubec. Voici la notice des indices :- ID : Numrotation hebdomadaire
- date : Date
- wave : Vagues de contamination officielle dfinies par l'INSPQ
- SPHM : Indice de svrit des mesures sanitaires (donnes de l'IRPP, voir ci-dessous)
- SI : Indice de svrit des mesures sanitaires + mesures vaccinales (donnes de l'IRPP, voir ci-dessous)
- UNC : Indice des sentiments d'incertitude des dcideurs et des reprsentants de la Sant publique (M. Legault, Mme McCann, M. Dub, Mme. Guilbault, M. Arruda, M. Boileau)
- EVD : Indice du niveau de preuve scientifique des dcideurs politiques (M. Legault, Mme McCann, M. Dub, Mme. Guilbault)
- NEG : Indice des sentiments ngatifs concernant la pandmie des dcideurs politiques (M. Legault, Mme McCann, M. Dub, Mme. Guilbault)
- CC100 : Indice sur 100 du nombre de cas confirms de COVID-19 par jour (donnes de l'INSPQ, voir ci-dessous)
- CD100 : Indice sur 100 du nombre de morts confirmes de la COVID-19 par jour (donnes de l'INSPQ, voir ci-dessous)
- TH100 : Indice sur 100 du nombre d'hospitalisations dues la COVID-19 par jour (donnes de l'INSPQ, voir ci-dessous)
- VAX100 : Indice sur 100 du nombre de personnes vaccines contre la COVID-19 par jour (donnes de l'INSPQ, voir ci-dessous)
- CC : Nombre de cas confirms de COVID-19 par jour (donnes de l'INSPQ, voir ci-dessous)
- CD : Nombre de morts confirmes de la COVID-19 par jour (donnes de l'INSPQ, voir ci-dessous)
- TH : Nombre d'hospitalisations dues la COVID-19 par jour (donnes de l'INSPQ, voir ci-dessous)
- VAX : Nombre de personnes vaccines contre la COVID-19 par jour (donnes de l'INSPQ, voir ci-dessous)
QC.Conf_pers_clean.csv: est la base de donnes contenant l'ensemble des noms et prnoms des personnes s'tant exprimes lors des confrences de presse identifies par le codeQC.Conf_journalis_clean.csv: est la base de donnes contenant l'ensemble des noms et prnoms des journalistes s'tant exprims lors des confrences de presse, ainsi que leurs mdias correspondants, identifis par le codeQC.Conf_decideurs_incipitclean.csv: est la base de donnes contenant l'ensemble des noms et prnoms des dcideurs/reprsentants de la sant publique/experts/invits s'tant exprims lors des confrences de presse identifis par le codeQC.COVID_data: rassemble les donnes pidmiologiques du Qubec durant la pandmie, issues de l'Institut national de sant publique du Qubec (INSPQ).QC.IRPPstringency_data.csv: dtaille la svrit des mesures sanitaires, provenant de l'Institut de recherche en politiques publiques (IRPP).QC.vax_data: contient les donnes de vaccination, fournies par l'Institut national de sant publique du Qubec (INSPQ).
Base de donnes textuelles
QC.conf_texts.csv: compilation de l'ensemble des confrences de presse du gouvernement du Qubec concernant la pandmie de COVID-19.Dossier
Press_conferencesarchive toutes les confrences du gouvernement du Qubec durant la pandmie individuellement.Les diffrents dossiers d'extractions contenus dans
recup_transcriptionscontiennent les confrences de presse extraites du site de l'Assemble nationale.Dossier
Texts_youtube(situ dansPress_conferences) : Contient les confrences de presse qui ont t automatiquement transcrites puis valides manuellement.- Sous-dossier
Original_autotranscribed: Contient les transcriptions avant relecture.
- Sous-dossier
Analyses
- Dossier
Resultsarchive des rsultats d'analyse produits dans le cadre d'une recherche portant sur l'interaction entre les sentiments d'incertitude, les sentiments ngatifs, le niveau de preuve et la svrit des mesures sanitaires durant la pandmie de COVID-19 au Qubec.
Mise jour venir
Indices diffrencis des sentiments d'incertitude et des sentiments ngatifs par catgorie (dcideurs politiques, reprsentants de la sant publique, experts et journalistes).
Membres du projet
Antoine Lemor, dpartement de science politique, Universit de Montral.
ric Montpetit, dpartement de science politique, Universit de Montral.
Code and Database
About
This platform provides codes and databases dedicated to the collection, processing, and analysis of press conferences held by the Quebec government during the COVID-19 pandemic.
The analyses include: - Identification of different speakers (political decision-makers, public health representatives, journalists, gender). - An analysis of uncertainty markers based on Claveau et al. (2020). - A sentiment analysis based on Duval and Ptry (2016). - A dictionary-based analysis to identify sentences related to various topics such as the pandemic, vaccination, scientific evidence, and target groups for health measures.
Big thanks to the CIRST for their help and precious advice.
Brief Code Description
Directory AutoTranscribeAndScrape
This directory contains three types of Python codes:
- Government Transcription Extraction (National Assembly of Quebec):
-
Extract_conf_covid.py -
Extract_conf_not_covid.py -
Extract_pp_covid.py -
Extract_pp_covid.py
-
These scripts, located in the recup_transcriptions sub-directory, extract press conferences and press briefings from January 1, 2020, on the COVID-19 pandemic from the National Assembly of Quebec's website.
- Audio Retrieval for Unavailable Transcriptions:
-
recuperation_audio_conference.py
-
Located in the AutoTranscribe sub-directory, this script retrieves the audio of untranscribed press conferences from YouTube videos using the hyperliens_conferences.csv file.
- Automatic Transcription of Unavailable Transcriptions:
-
transcription.py
-
This script uses OpenAI's Whisper to automatically transcribe the audio of missing press conferences. A annotations_langues.csv file is used to exclude English audio portions.
Directory Code
- Complete Processing of Textual Database:
-
Full_code.R
-
This R script handles the complete processing of the conferences, including database creation, tokenization, annotation, dictionary-based analysis, sentiment analysis, variable creation, cleaning, and final database compilation.
- Decomposed Scripts: The
Scriptssub-directory contains the complete code broken down into different steps.
Data Description
Numerical Database
QC.unc.data_daily.csv: This file contains the main indices produced by the code and used in the development of OLS, SEM models, and graphical results concerning the interaction between decision-makers' uncertainty sentiments, negative sentiments, evidence level, and the stringency of health measures implemented during the pandemic in Quebec. Here is a summary of the indices:- ID: Weekly numbering
- date: Date
- wave: Official contamination waves defined by INSPQ
- SPHM: Policy stringency index for NPI excluding vaccination (data from IRPP, see below)
- SI: Stringency Index including vaccination measures (data from IRPP, see below)
- UNC: Uncertainty Sentiment Index of decision-makers and public health representatives (M. Legault, Mme McCann, M. Dub, Mme. Guilbault, M. Arruda, M. Boileau)
- EVD: Evidence Level Index of decision-makers (M. Legault, Mme McCann, M. Dub, Mme. Guilbault)
- NEG: Negative Sentiment Index concerning the pandemic from decision-makers (M. Legault, Mme McCann, M. Dub, Mme. Guilbault)
- CC100: Index scaled to 100 of the daily confirmed COVID-19 cases (data from INSPQ, see below)
- CD100: Index scaled to 100 of the daily confirmed COVID-19 deaths (data from INSPQ, see below)
- TH100: Index scaled to 100 of daily COVID-19 hospitalizations (data from INSPQ, see below)
- VAX100: Index scaled to 100 of daily COVID-19 vaccinations (data from INSPQ, see below)
- CC: Number of daily confirmed COVID-19 cases (data from INSPQ, see below)
- CD: Number of daily confirmed COVID-19 deaths (data from INSPQ, see below)
- TH: Number of daily COVID-19 hospitalizations (data from INSPQ, see below)
- VAX: Number of daily COVID-19 vaccinations (data from INSPQ, see below)
QC.Conf_pers_clean.csv: This database contains the names and first names of individuals who spoke at the press conferences identified by the code.QC.Conf_journalis_clean.csv: This database contains the names and first names of journalists who spoke at the press conferences, along with their corresponding media outlets, identified by the code.QC.Conf_decideurs_incipitclean.csv: This database contains the names and first names of decision-makers/public health representatives/experts/guests who spoke at the press conferences identified by the code.QC.COVID_data: Compiles epidemiological data from Quebec during the pandemic, sourced from the Quebec National Institute of Public Health (INSPQ).QC.IRPPstringency_data.csv: Details the stringency of health measures, sourced from the Public Policy Research Institute (IRPP).QC.vax_data: Contains vaccination data, provided by the Quebec National Institute of Public Health (INSPQ).
Textual Database
QC.conf_texts.csv: A compilation of all press conferences held by the Quebec government regarding the COVID-19 pandemic.Directory
Press_conferencesarchives each of the Quebec government's press conferences during the pandemic individually.Various extraction folders within
recup_transcriptionscontain press conferences extracted from the National Assembly's website.Directory
Texts_youtube(located inPress_conferences): Contains press conferences that were automatically transcribed and then manually validated.- Sub-directory
Original_autotranscribed: Contains the transcriptions before review.
- Sub-directory
Analyses
- The
Resultsdirectory archives analysis results from a research project focusing on the interaction between feelings of uncertainty, negative sentiments, the level of evidence, and the stringency of health measures during the COVID-19 pandemic in Quebec.
Upcoming Updates
Differentiated indices of sentiments of uncertainty and negative sentiments by category (political decision-makers, public health representatives, experts, and journalists). <<<<<<< HEAD
Project Members
Antoine Lemor, Department of Political Science, University of Montreal.
ric Montpetit, Department of Political Science, University of Montreal.
Owner
- Name: Antoine Lemor
- Login: antoinelemor
- Kind: user
- Location: Montréal
- Company: Université de Montréal
- Twitter: AntoineLemor
- Repositories: 1
- Profile: https://github.com/antoinelemor
Candidat au doctorat de science politique • science & politiques publiques
Citation (CITATION.cff)
cff-version: 1.2.0
message: "Pour citer cette base de données dans vos travaux, veuillez utiliser la référence suivante:"
title: "QC.Uncertainty_COVID. Quebec COVID-19 Press Conferences: Uncertainty Analysis, Codes, and Textual Data Repository"
doi: 10.5281/zenodo.10044991
url: http://doi.org/10.5281/zenodo.10044991
date-released: 2023-01-20
version: 1.0.1
authors:
- family-names: Lemor
given-names: Antoine
orcid: 0000-0002-3894-9890
repository-code: https://github.com/antoinelemor/QC.Uncertainty_COVID
GitHub Events
Total
- Push event: 1
Last Year
- Push event: 1