verdata

verdata: An R package for analyzing data from the Truth Commission in Colombia - Published in JOSS (2024)

https://github.com/hrdag/verdata

Science Score: 98.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
    Found CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
    Found 5 DOI reference(s) in README and JOSS metadata
  • Academic publication links
    Links to: wiley.com, joss.theoj.org
  • Committers with academic emails
  • Institutional organization owner
  • JOSS paper metadata
    Published in Journal of Open Source Software

Keywords

armed-conflict capture-recapture colombia multiple-imputation multiple-systems-estimation rstats

Scientific Fields

Earth and Environmental Sciences Physical Sciences - 40% confidence
Last synced: 4 months ago · JSON representation ·

Repository

Una herramienta para el uso y análisis de los datos de Conflicto armado en Colombia resultantes del proyecto conjunto JEP-CEV-HRDAG.

Basic Info
  • Host: GitHub
  • Owner: HRDAG
  • License: gpl-2.0
  • Language: R
  • Default Branch: main
  • Homepage:
  • Size: 3.27 MB
Statistics
  • Stars: 16
  • Watchers: 6
  • Forks: 6
  • Open Issues: 4
  • Releases: 0
Topics
armed-conflict capture-recapture colombia multiple-imputation multiple-systems-estimation rstats
Created over 2 years ago · Last pushed 8 months ago
Metadata Files
Readme Changelog License Citation

README.md

Click here for instructions in English.

DOI Codecov test coverage <!-- badges: end -->

verdata

verdata es un paquete de R que está pensado como una herramienta para el uso y análisis de los datos de conflicto armado en Colombia. Estos datos derivan del proyecto conjunto JEP-CEV-HRDAG, los cuales, a través del paquete, pueden ser analizados utilizando tres conjuntos de funciones: En primer lugar, las personas interesadas pueden utilizar verdata para verificar que están utilizando los datos originalmente publicados, es decir, permite autenticar tanto los archivos como su contenido. Segundo, pueden usar verdata para replicar los principales resultados del proyecto conjunto JEP-CEV-HRDAG. Finalmente, para el tercer conjunto, pueden utilizar verdata para diseñar sus propios análisis estadísticos de patrones de violencia que abordan los dos tipos de datos faltantes presentes en el proyecto (campos faltantes y registros faltantes).

Dos versions de los datos sobre las cuatro violaciones a los derechos humanos que se trabajaron en el proyecto: desaparición, homicidio, secuestro y reclutamiento existen. La primera versión, (v1) corresponde a los datos usados para el análisis del informe metodológico del proyecto conjunto JEP-CEV-HRDAG. Se puede usar esta versión de los datos para replicar los hallazgos del Informe Metodológico. Después de la publicación de la primera versión de los datos, una entidad estatal con acceso legítimo a los datos originales descubrió algunos problemas con los datos publicados. La entidad encontró algunas instancias de la inclusión de víctimas indirectas en una de las fuentes analizadas en el proyecto. La segunda versión de los datos (v2) corrige estos errores y es adecuado para nuevos análisis del conflicto colombiano. Más información está disponible aquí.

Descargar datos para replicar los análisis del informe metodológico (v1)

Descargar datos del Departamento Administrativo Nacional de Estadística (DANE): https://microdatos.dane.gov.co/index.php/catalog/795/get-microdata

Descargar datos del Human Rights Data Analysis Group (HRDAG) con IPFS:

Descargar datos para diseñar nuevos análisis del conflicto colombiano (v2)

Descargar datos del Human Rights Data Analysis Group (HRDAG) con IPFS:

Ambas versiones de los datos corresponden a 100 réplicas para cada violación, los cuales fueron producto del proceso de imputación estadística múltiple de campos faltantes (ver sección 4 del informe metodológico del proyecto). Además, el repositorio verdata-examples contiene ejemplos que ilustran cómo usar correctamente estos datos (réplicas) a través del paquete previamente mencionado.

Instalación

Se puede instalar verdata directamente de CRAN con:

r install.packages("verdata")

También se puede instalar la versión en desarrollo de verdata desde GitHub así:

r if (!require("devtools")) {install.packages("devtools")} devtools::install_github("HRDAG/verdata") verdata requiere algunos paquetes como dependencia. Para esto es recomendable la instalación del GNU Scientific Library. Es posible que necesite instalar esta librería en su computadora por separado antes de instalar verdata.

Diccionario de datos

verdata presenta dos data frames que contienen información relacionada con el diccionario de datos de las réplicas. En diccionario_replicas encontrará la definición de cada una de las variables que se encuentran allí y, en diccionario_vars_adicional, encontrará nuevas variables que fueron usadas en algunos análisis estadísticos durante la construcción del informe final de la CEV.

Uso

Para el uso de este paquete es necesario haber descargado previamente los datos de alguno de los sitios en los que se encuentran publicados. Este paquete ofrece al público 8 funciones para el tratamiento de los datos, divididas así:

Verificación y lectura de datos en R:

  • La función confirm_files permite autenticar que los archivos descargados correspondan exactamente a los archivos originalmente publicados. Esta función acepta archivos en cualquiera de los dos formatos publicados (parquet o csv).

  • Además, la función read_replicates permite autenticar el contenido de los archivos, así como importar el número deseado de réplicas a R. Esta función acepta archivos en cualquiera de los dos formatos publicados (parquet o csv).

Transformación de datos:

  • Para sus análisis en violaciones a derechos humanos, la Comisión de la Verdad especificó diferentes períodos y condiciones. En caso de querer replicar los resultados del Informe Final de la CEV, es necesario aplicar estos mismos filtros a los datos. El uso de la función filter_standard_cev es opcional y permite filtrar los datos del mismo modo que la CEV lo hizo, dependiendo de la violación a derechos humanos a analizar.

Datos observados:

  • La función summary_observed ofrece un conteo del número observado de víctimas -totales o agrupadas por diferentes variables- antes de la imputación estadística de campos faltantes. El número que se obtiene es la media entre las diferentes réplicas.

Datos imputados:

  • La función combine_replicates usa la aproximación normal usando las reglas de total expectativa y varianza para combinar las réplicas, lo que permite obtener un intervalo de la imputación. Ver sección 18.2 de Bayesian Data Analysis para más información.

Datos estimados:

  • La función estimates_exist permite validar si la estimación de los estratos de interés ya existen, y se encuentran en los archivos de estimaciones precalculadas publicados, que deben haber sido previamente descargados del sitio de la Comisión. Esta función requiere los datos estratificados y el directorio en el que se encuentran las estimaciones precalculadas y devolverá un valor lógico que indica si la estimación existe o no, y la ruta en la que se encuentra, en caso de que exista. En caso de que usted quiera replicar los resultados de la Comisión de la Verdad, los objetos de datos estratificacion (en español) y stratification (en inglés) especifican qué estratificaciones se usaron para cada estimación presente en el informe metodológico del proyecto.

  • La función mse permite hacer estimaciones del subregistro, usando el modelo de LCMCR (ver sección 6 del informe metodológico del proyecto). Para usar esta función es necesario haber definido variables de estratificación, es decir, agrupación, para hacer la estimación y haber hecho la estratificación (ver ejemplo y sección 8.4.2 del informe metodológico del proyecto). Además, considerando que la estimación requiere de tiempo y recursos computacionales, en caso de querer hacer uso de las estimaciones ya calculadas por el equipo, es necesario haberlas descargado del sitio de la Comisión a su máquina local. Esta función requiere como insumo los datos ya estratificados y el directorio en el que se encuentran las estimaciones publicadas -en caso de querer hacer uso de estas-. Tenga presente que al proveer un directorio la función asume las mismas especificaciones para el modelo usadas en el proyecto. Si usted quiere usar otras especificaciones, no debe suministrar un directorio a las estimaciones.

  • Por último, la función combine_estimates permite combinar los resultados de la estimación, lo que, una vez más, dará como resultado un intervalo (que incluye la media). Usa la aproximación normal usando las reglas de total expectativa y varianza. Ver sección 18.2 de Bayesian Data Analysis para más información.

Agradecimientos

Agradecemos a Micaela Morales por su atenta prueba beta.

Contribuir al paquete

Contribuciones y sugerencias siempre son bienvenidas. Si tiene un problema, pregunta o duda sobre verdata puede abrir un issue en GitHub. Si quiere contribuir nueva funcionalidad puede abrir un pull request.

Owner

  • Name: Human Rights Data Analysis Group
  • Login: HRDAG
  • Kind: organization
  • Email: info@hrdag.org
  • Location: San Francisco, CA, USA

HRDAG is a non-profit, non-partisan organization that conducts statistical analysis of mass violence.

JOSS Publication

verdata: An R package for analyzing data from the Truth Commission in Colombia
Published
January 06, 2024
Volume 9, Issue 93, Page 5844
Authors
Maria Gargiulo ORCID
Human Rights Data Analysis Group
María Juliana Durán ORCID
Human Rights Data Analysis Group
Paula Andrea Amado ORCID
Human Rights Data Analysis Group
Patrick Ball
Human Rights Data Analysis Group
Editor
Nikoleta Glynatsi ORCID
Tags
missing data capture-recapture multiple systems estimation multiple imputation Colombia conflict

Citation (CITATION.cff)

cff-version: "1.2.0"
authors:
- family-names: Gargiulo
  given-names: Maria
  orcid: "https://orcid.org/0000-0003-1870-8990"
- family-names: Durán
  given-names: María Juliana
  orcid: "https://orcid.org/0009-0005-3720-8125"
- family-names: Amado
  given-names: Paula Andrea
  orcid: "https://orcid.org/0009-0004-0806-0857"
- family-names: Ball
  given-names: Patrick
contact:
- family-names: Gargiulo
  given-names: Maria
  orcid: "https://orcid.org/0000-0003-1870-8990"
doi: 10.5281/zenodo.10359636
message: If you use this software, please cite our article in the
  Journal of Open Source Software.
preferred-citation:
  authors:
  - family-names: Gargiulo
    given-names: Maria
    orcid: "https://orcid.org/0000-0003-1870-8990"
  - family-names: Durán
    given-names: María Juliana
    orcid: "https://orcid.org/0009-0005-3720-8125"
  - family-names: Amado
    given-names: Paula Andrea
    orcid: "https://orcid.org/0009-0004-0806-0857"
  - family-names: Ball
    given-names: Patrick
  date-published: 2024-01-06
  doi: 10.21105/joss.05844
  issn: 2475-9066
  issue: 93
  journal: Journal of Open Source Software
  publisher:
    name: Open Journals
  start: 5844
  title: "verdata: An R package for analyzing data from the Truth
    Commission in Colombia"
  type: article
  url: "https://joss.theoj.org/papers/10.21105/joss.05844"
  volume: 9
title: "verdata: An R package for analyzing data from the Truth
  Commission in Colombia"

GitHub Events

Total
  • Issues event: 1
  • Watch event: 5
  • Delete event: 1
  • Push event: 10
  • Fork event: 1
  • Create event: 1
Last Year
  • Issues event: 1
  • Watch event: 5
  • Delete event: 1
  • Push event: 10
  • Fork event: 1
  • Create event: 1

Committers

Last synced: 5 months ago

All Time
  • Total Commits: 150
  • Total Committers: 4
  • Avg Commits per committer: 37.5
  • Development Distribution Score (DDS): 0.34
Past Year
  • Commits: 23
  • Committers: 2
  • Avg Commits per committer: 11.5
  • Development Distribution Score (DDS): 0.043
Top Committers
Name Email Commits
Maria Gargiulo m****7@g****m 99
pamadoa p****5@g****m 30
Maria Juliana Duran m****r@M****l 17
María Juliana Durán 9****f 4

Issues and Pull Requests

Last synced: 4 months ago

All Time
  • Total issues: 36
  • Total pull requests: 4
  • Average time to close issues: 13 days
  • Average time to close pull requests: 19 minutes
  • Total issue authors: 4
  • Total pull request authors: 1
  • Average comments per issue: 1.36
  • Average comments per pull request: 0.0
  • Merged pull requests: 4
  • Bot issues: 0
  • Bot pull requests: 0
Past Year
  • Issues: 1
  • Pull requests: 1
  • Average time to close issues: N/A
  • Average time to close pull requests: 34 minutes
  • Issue authors: 1
  • Pull request authors: 1
  • Average comments per issue: 0.0
  • Average comments per pull request: 0.0
  • Merged pull requests: 1
  • Bot issues: 0
  • Bot pull requests: 0
Top Authors
Issue Authors
  • thegargiulian (18)
  • JosiahParry (9)
  • jamesmbaazam (4)
  • mduranf (3)
Pull Request Authors
  • thegargiulian (5)
Top Labels
Issue Labels
enhancement (4)
Pull Request Labels

Packages

  • Total packages: 1
  • Total downloads:
    • cran 454 last-month
  • Total dependent packages: 0
  • Total dependent repositories: 0
  • Total versions: 1
  • Total maintainers: 1
cran.r-project.org: verdata

Analyze Data from the Truth Commission in Colombia

  • Versions: 1
  • Dependent Packages: 0
  • Dependent Repositories: 0
  • Downloads: 454 Last month
Rankings
Dependent packages count: 26.7%
Dependent repos count: 32.9%
Average: 48.8%
Downloads: 86.7%
Maintainers (1)
Last synced: 4 months ago

Dependencies

DESCRIPTION cran
  • R >= 2.10 depends
  • LCMCR * imports
  • Rdpack * imports
  • arrow * imports
  • assertr * imports
  • base * imports
  • digest * imports
  • dplyr * imports
  • glue * imports
  • logger * imports
  • purrr * imports
  • readr * imports
  • rjson * imports
  • stats * imports
  • stringr * imports
  • tibble * imports
  • tidyr * imports
  • tidyselect * imports
  • tools * imports
  • testthat >= 3.0.0 suggests
.github/workflows/R-CMD-check.yaml actions
  • actions/checkout v3 composite
  • r-lib/actions/check-r-package v2 composite
  • r-lib/actions/setup-r v2 composite
  • r-lib/actions/setup-r-dependencies v2 composite
.github/workflows/check-standard.yaml actions
  • actions/checkout v3 composite
  • r-lib/actions/check-r-package v2 composite
  • r-lib/actions/setup-pandoc v2 composite
  • r-lib/actions/setup-r v2 composite
  • r-lib/actions/setup-r-dependencies v2 composite
.github/workflows/test-coverage.yaml actions
  • actions/checkout v3 composite
  • actions/upload-artifact v3 composite
  • r-lib/actions/setup-r v2 composite
  • r-lib/actions/setup-r-dependencies v2 composite