https://github.com/chendaniely/ssc-2025-reusable_compute_envs

SSC 2025 Talk

https://github.com/chendaniely/ssc-2025-reusable_compute_envs

Science Score: 26.0%

This score indicates how likely this project is to be science-related based on various indicators:

  • CITATION.cff file
  • codemeta.json file
    Found codemeta.json file
  • .zenodo.json file
    Found .zenodo.json file
  • DOI references
  • Academic publication links
  • Academic email domains
  • Institutional organization owner
  • JOSS paper metadata
  • Scientific vocabulary similarity
    Low similarity (7.6%) to scientific vocabulary

Keywords

talk
Last synced: 6 months ago · JSON representation

Repository

SSC 2025 Talk

Basic Info
Statistics
  • Stars: 0
  • Watchers: 1
  • Forks: 0
  • Open Issues: 0
  • Releases: 0
Topics
talk
Created 9 months ago · Last pushed 9 months ago
Metadata Files
Readme License

README.md

ssc-2025-reusablecomputeenvs

SSC 2025 Talk

Program: https://ssc.ca/en/meeting/annual/program

https://ssc.ca/en/meeting/annual/presentation/it-works-my-machine-creating-reusable-compute-environments-research-and

Abstract

Code is the foundation of reproducible and replicable research, ensuring transparency in how data is processed, transformed, and analyzed. However, code alone isn't enough. Without the right computational environment, results may not be consistent across different machines, time periods, or collaborators.

Many research and data projects span months, involve multiple people, and run on different systems. A common challenge is ensuring that results can be reliably reproduced, even when software updates or system differences come into play. "It works on my machine" is not a guarantee for the future.

In this talk, we’ll explore tools and techniques for creating shareable, stable computational environments that support reproducibility. We’ll cover renv for managing R packages, Docker for containerized compute environments, and GitHub Actions for automating the reproduction of computational workflows. These tools, beyond just writing code, help make data science projects more reliable, reproducible, and transparent.

Le code est le fondement de la recherche reproductible et réplicable, garantissant la transparence dans la manière dont les données sont traitées, transformées et analysées. Cependant, le code seul ne suffit pas. Sans l'environnement informatique adéquat, les résultats risquent de ne pas être cohérents d'une machine à l'autre, d'une période à l'autre ou d'un collaborateur à l'autre.

De nombreux projets de recherche et de données s'étendent sur plusieurs mois, impliquent plusieurs personnes et fonctionnent sur différents systèmes. Un défi commun consiste à s'assurer que les résultats peuvent être reproduits de manière fiable, même lorsque des mises à jour de logiciels ou des différences de systèmes entrent en jeu. Le fait que « ça marche sur ma machine » n'est pas une garantie pour l'avenir.

Dans cet exposé, nous explorerons les outils et les techniques permettant de créer des environnements de calcul stables et partageables qui favorisent la reproductibilité. Nous aborderons renv pour la gestion des paquets R, Docker pour les environnements de calcul conteneurisés et GitHub Actions pour l'automatisation de la reproduction des flux de travail informatiques. Ces outils, au-delà de l'écriture de code, aident à rendre les projets de science des données plus fiables, reproductibles et transparents.

Traduit avec DeepL.com (version gratuite)

Owner

  • Name: Daniel Chen
  • Login: chendaniely
  • Kind: user
  • Location: JFK -> DCA -> ROA -> JFK -> YVR
  • Company: @rstudio @UBC-DSCI @UBC-MDS

bow ties are cool

GitHub Events

Total
  • Push event: 24
  • Create event: 3
Last Year
  • Push event: 24
  • Create event: 3