Metasyn
Metasyn: Transparent Generation of Synthetic Tabular Data with Privacy Guarantees - Published in JOSS (2025)
rgugik
rgugik: Search and Retrieve Spatial Data from the Polish Head Office of Geodesy and Cartography in R - Published in JOSS (2021)
Git-RDM
Git-RDM: A research data management plugin for the Git version control system - Published in JOSS (2016)
herbie-data
Download numerical weather prediction datasets (HRRR, RAP, GFS, IFS, etc.) from NOMADS, NODD partners (Amazon, Google, Microsoft), ECMWF open data, and the University of Utah Pando Archive System.
catalystcoop.pudl
The Public Utility Data Liberation Project provides analysis-ready energy system data to climate advocates, researchers, policymakers, and journalists.
gpm-api
A python package to download and analyze the Global Precipitation Measurement Mission (GPM) data archive
open-grid-emissions
Tools for producing high-quality hourly generation and emissions data for U.S. electric grids
cbssuitabilityhaiti
Data for a sanitation zoning assessment prepared for the city of Cap Haitien, Haiti. The package combines two datasets used for an analysis of the suitability of container-based sanitation (CBS)
sars-cov-2-nowcasting_und_-r-schaetzung
Das Nowcasting erstellt eine Schätzung des Verlaufs der Anzahl von bereits erfolgten SARS-CoV-2-Erkrankungsfällen in Deutschland unter Berücksichtigung des Diagnose-, Melde- und Übermittlungsverzugs.
manuscript
This repository implements an automated system to write our collaborative manuscript, while tracking changes and contributions.
netascore
NetAScore - Network Assessment Score Toolbox for Sustainable Mobility
sars-cov-2-infektionen_in_deutschland
Der vorliegende Datansatz enthält umfassende Informationen zu SARS-CoV-2-Infektionen in Deutschland, die gemäß dem Infektionsschutzgesetze (IfSG) von den Gesundheitsämtern an das Robert Koch-Institut (RKI) gemeldet wurden. Die Daten umfassen Informationen zur Anzahl der bestätigten Fälle, Todesfälle und Genesungen, aus denen sich weitere Kennzah...
covid-19-todesfaelle_in_deutschland
Im Datensatz 'COVID-19-Todesfälle in Deutschland' werden die Todesfälle in Bezug auf COVID-19 in Deutschland bereitgestellt. Darüber hinaus wird neben der Anzahl der übermittelten Todesfälle der Fall-Verstorbenen-Anteil berechnet. Angaben zum Tod zählen zu den melde- und übermittlungspflichtigen Inhalten. Bei der Ermittlung von Todesfällen und d...
ile-de-france
An open synthetic population of Île-de-France for agent-based transport simulation
awesome-open-geoscience
Curated from repositories that make our lives as geoscientists, hackers and data wranglers easier or just more awesome
covid-19_7-tage-inzidenz_in_deutschland
Im Datensatz '7-Tage-Inzidenz von COVID-19 in Deutschland' werden die aktuellen 7-Tage-Inzidenzen der nach den Vorgaben des Infektionsschutzgesetzes - IfSG - an das RKI übermittelten COVID-19-Fälle veröffentlicht. Datengrundlage zur Berechnung der 7-Tage-Inzidenzen sind die an das RKI übermittelten COVID-19-Fälle. Eine detaillierte Dokumentation...
sars-cov-2-pcr-testungen_in_deutschland
Im Rahmen der Bewältigung der COVID-19-Pandemie spielt die Diagnostik hinsichtlich SARS-CoV-2/COVID-19 eine entscheidende Rolle. Die Bedeutung liegt nicht nur in der diagnostischen Abklärung, sondern hat eine herausragende Stellung auch für die Beurteilung der epidemiologischen Entwicklung und hinsichtlich Strategien zur Verlangsamung des aktuellen Geschehens in Deutschland. Die Erfassung der durchgeführten PCR-Tests sowie die Ermittlung des Anteils der SARS-CoV-2 positiven PCR-Tests ermöglichen eine Einschätzung zur Wirksamkeit der Maßnahmen und der Umsetzung der Teststrategie. Vor diesem Hintergrund werden im Datensatz an das RKI übermittelte Daten zu PCR-Testungen, PCR-Testergebnissen und Testkapazitäten in Deutschland als offene Daten bereitgestellt.
corona-datenspende_teildatensatz_vitaldaten
Die Daten von Fitnessarmbändern und SmartwatchesDie Daten von Fitnessarmbändern und Smartwatches, sogenannten Wearables, können Hinweise auf Symptome einer COVID-19 Erkrankung liefern. Mit Hilfe der Corona-Datenspende-App (CDA) konnten Bürger:innen dem Robert Koch-Institut solche Daten für wissenschaftliche Zwecke zur Verfügung stellen.
corona-datenspende_teildatensatz_erleben_und_verhalten_in_der_pandemie
Die Daten von Fitnessarmbändern und Smartwatches, sogenannten Wearables, können Hinweise auf Symptome einer Infektion mit COVID-19 liefern. Mit Hilfe der Corona-Datenspende-App (CDA) können Bürger:innen dem Robert Koch-Institut diese Daten zur wissenschaftlichen Auswertung zur Verfügung stellen. Zusammen mit Informationen aus anderen Quellen, z.B.
cbsodata
Unofficial Statistics Netherlands (CBS) open data API client for Python
hochfrequente_mental_health_surveillance
Im Rahmen der Mental Health Surveillance (MHS) am Robert Koch-Institut (RKI) werden für eine Auswahl an Indikatoren der psychischen Gesundheit von Erwachsenen basierend auf Surveydaten Zeitreihen bestehend aus gleitenden Drei-Monats-Schätzern und Glättungskurven berechnet. Dadurch sollen Entwicklungen in der psychischen Gesundheit der erwachsene...
core-geonetwork
GeoNetwork is a catalog application to manage spatially referenced resources. It provides powerful metadata editing and search functions as well as an interactive web map viewer. It is currently used in numerous Spatial Data Infrastructure initiatives across the world.
https://github.com/catalyst-cooperative/pudl-archiver
A tool for capuring snapshots of public data sources and archiving them on Zenodo for programmatic use.
chromatographr
Toolset for the reproducible analysis of chromatography data in R (HPLC-DAD/UV, GC-FID).
basedosdados
⚙️ Código de manutenção do datalake (metadados e pacotes de acesso) | 📖 Docs: https://basedosdados.org/docs/home
waterpumpkwale
Weekly volume of water pumped for handpumps monitored with Smart Handpump technology, Kwale County, Kenya
fowd
Processing framework for FOWD, a free ocean wave dataset, ready for your ML application :ocean:
phenodata
An acquisition and processing toolkit for open access phenology data.
goes2go
Download and process GOES-16 and GOES-17 data from NOAA's archive on AWS using Python.
transparency
Structured data files for topics covered by GitHub's Transparency Report
gbfs
Documentation for the General Bikeshare Feed Specification, a standardized data feed for shared mobility system availability. Maintained by MobilityData
wb-reproducible-research-repository
This repository supports the World Bank's Reproducible Research Repository
lingvan-voice
Supplementary materials for "Corpus linguistic and experimental studies on the meaning-preserving hypothesis in Indonesian voice alternations" (published in Linguistics Vanguard).
RSocrata
Provides easier interaction with Socrata open data portals http://dev.socrata.com. Users can provide a 'Socrata' data set resource URL, or a 'Socrata' Open Data API (SoDA) web query, or a 'Socrata' "human-friendly" URL, returns an R data frame. Converts dates to 'POSIX' format. Manages throttling by 'Socrata'.
upgini
Data search & enrichment library for Machine Learning → Easily find and add relevant features to your ML & AI pipeline from hundreds of public and premium external data sources, including open & commercial LLMs
os_strategy_nhmw
Open Science in Museums - Strategy of the "Naturhistorisches Museum Wien"
covid19-italy-integrated-surveillance-data
COVID-19 integrated surveillance data provided by the Italian Institute of Health and processed via UnrollingAverages.jl to deconvolve the weekly moving averages.
osmextract
Download and import OpenStreetMap data from Geofabrik and other providers
NPSdataverse
NPSdataverse: a suite of R packages for data processing, authoring Ecological Metadata Language metadata, checking data-metadata congruence, and accessing data - Published in JOSS (2025)
the-building-data-genome-project
A collection of non-residential buildings for performance analysis and algorithm benchmarking
building-data-genome-project-2
Whole building non-residential hourly energy meter data from the Great Energy Predictor III competition
https://github.com/daq-tools/kotori
A flexible data historian based on InfluxDB, Grafana, MQTT, and more. Free, open, simple.
eia
An R package wrapping the US Energy Information Administration open data API.
transitland-atlas
an open directory of mobility feeds and operators — powers both Transitland v1 and v2
awesome-sentinel
curated list of awesome tools, tutorials and APIs for Copernicus Sentinel satellite data
giessdenkiez-de
The consequences of climate change, especially the dry and hot summers, are putting a strain on Berlin's ecosystem. Our urban trees are drying out and suffering long-term damage. Gieß den Kiez is made to enable coordinated citizen participation in the irrigation of urban trees.
https://github.com/catalyst-cooperative/pudl-catalog
An Intake catalog for distributing open energy system data liberated by Catalyst Cooperative.
openpdi
A Python 3 library for decentralized aggregation of data from the Police Data Initiative (PDI).
NitrogenUptake2016
R package containing data and source code from Hill et al. 2018a (DOI: https://doi.org/10.1016/j.jembe.2018.07.006) and Hill et al. 2018b (DOI: https://doi.org/10.1016/j.dib.2018.09.133)
read.abares
Harvest data from Australian Bureau of Agricultural and Resource Economics and Sciences (ABARES) part of the Australian Department of Agriculture, Fisheries and Forestry for your work in R
kiwisR
Provides a simplified method for bringing tidy data into R from KISTERS WISKI databases via KiWIS API.
osdg-data
The OSDG Community Dataset (OSDG-CD) is a public dataset of thousands of text excerpts, validated by OSDG Community Platform (OSDG-CP) citizen scientists with respect to the Sustainable Development Goals (SDGs). The dataset is updated every quarter and published on Zenodo.
https://github.com/danielvartan/open-science-pres
🔎🔓 Opens Science Presentation for the Sustentarea Research and Extension Center
https://github.com/crsh/psych-transparency-guide
Supplementary material for "A practical guide for transparency in psychological science" (find the paper at https://psyarxiv.com/rtygm/)
https://github.com/catalyst-cooperative/pudl-zenodo-storage
Tools for creating versioned archives of raw data on Zenodo using Frictionless data packages.
knowledge-commons
Knowledge Commons research group's repository
https://github.com/inseefrlab/pynsee
pynsee package contains tools to easily search and download French data from INSEE and IGN APIs
https://github.com/cdcgov/opencdc
This is the repository for the openCDC web site. Entire site is generated from data files describing CDC Open Technology types for data, api, code, and events. All CDC programs are welcome to submit pull requests with updates and new items useful to the public health open source community.
https://github.com/catalyst-cooperative/pudl-scrapers
Scrapers used to acquire snapshots of raw data inputs for versioned archiving and replicable analysis.
https://github.com/bjmorgan/data_f-tio2_intercalation_anions
Data analysis for DFT calculations of intercalation into (F/OH)-TiO2
abwassersurveillance_amelag_-_wochenbericht
Im Rahmen des Vorhabens „Abwassermonitoring für die epidemiologische Lagebewertung“ (AMELAG) wird in Deutschland das Abwasser von ausgewählten Kläranlagen auf verschiedene Krankheitserreger untersucht. Der folgende Bericht präsentiert die vergangenen und aktuellen Ergebnisse und Entwicklungen dieser Untersuchungen.
sars-cov-2-sequenzdaten_aus_deutschland
Ein zentraler Bestandteil einer erfolgreichen Erregersurveillance ist das Verständnis der Verbreitung eines Erregers sowie seiner pathogenen Eigenschaften. Hierbei stellt das Wissen über das Erregergenom eine wichtige Informationsquelle dar. So erlaubt der Nachweis von Mutationen im Genom eines Erregers, Verwandtschaftsbeziehungen zu rekonstruie...
gesundheitsberichterstattung_-_daten_zu_nichtuebertragbaren_erkrankungen
Die Gesundheitsberichterstattung (GBE) des RKI informiert regelmäßig über die gesundheitliche Situation der Bevölkerung in Deutschland. Das Themenspektrum ist vielfältig und reicht von Gesundheitszustand und Einflussfaktoren auf die Gesundheit über Gesundheitsförderung, Prävention und gesundheitliche Versorgung bis hin zu den damit verbundenen ...
covid-19-hospitalisierungen_in_deutschland
Im Datensatz 'COVID-19-Hospitalisierungen' werden die aktuellen Zahlen der nach den Vorgaben des Infektionsschutzgesetzes - IfSG - erfassten hospitalisierten COVID-19-Fälle bereitgestellt. Um den Trend der Anzahl von Hospitalisierungen und der 7-Tage-Hospitalisierungsinzidenz besser bewerten zu können, wird die berichtete Hospitalisierungsinzide...
abwassersurveillance_amelag
Das Vorhaben „Abwassermonitoring für die epidemiologische Lagebewertung“ (AMELAG) läuft vom 22.11.2022 bis zum 31.12.2025. Behörden, Kläranlagen und Labore arbeiten zusammen, um Proben zu nehmen, zu analysieren und zu bewerten. Das Ziel dieses Vorhabens ist es, SARS-CoV-2-Nachweise aus dem Abwasser als zusätzlichen Indikator zur epidemiologische...
https://github.com/bamweldx/iiw2021_aa_cxii
Repository providing code and datasets used for the online 2021 IIW Annual Assembly C-XII meeting 15.-17.07.2021 .
bundesweiter_klinischer_krebsregisterdatensatz-datenschema_und_klassifikationen
Das Repository stellt Informationen zu Struktur und Klassifikationen des bundesweiten klinischen Krebsregisterdatensatzes bereit. Die verwendeten Klassifikationen bilden den derzeitigen Arbeitsstand des ZfKD ab. Ziel ist es, diesen Stand transparent bereit zu stellen und beteiligte Akteure zur gemeinsamen Harmonisierung von Standards einzuladen.
ylac-2024-session
A slide deck on "Translating Research into Action" presented during the YLAC's Yound Researchers for Social Impact Program 2024
appendix_potential_covid-19_test_fraud_detection
The methods and results of the publication "Potential COVID-19 test fraud detection: Findings from a pilot study comparing conventional and statistical approaches" are described in more detail in this appendix. The R-syntax for the calculation is provided, as well as a pseudo data set with which the syntax can also be tested.
https://github.com/capjamesg/rainfall.scot
See reports of amount of rainfall measured at a station by month.
https://github.com/afsc-gap-products/metadata
This repository provides guidance for all of our data's metadata needs.
grippeweb_daten_des_wochenberichts
GrippeWeb ist ein Online-Portal des Robert Koch-Instituts (RKI). Es wurde im Jahr 2011 gegründet und ist das erste Webportal, das die Aktivität akuter Atemwegserkrankungen (ARE) in Deutschland beobachtet, und dabei Informationen direkt aus der Bevölkerung verwendet. Es ist ein robustes und zeitnahes System der partizipativen syndromischen Survei...
gap_products
This repository supports code used to create tables in the GAP_PRODUCTS Oracle schema. These tables include the master production tables, tables shared with AKFIN, and tables publicly shared on FOSS.
wastewater-catchment-areas
8,185 wastewater catchment areas in Great Britain covering more than 99% of the population.
burden_2020_-_krankheitslast_in_deutschland_und_seinen_regionen
Kennzahlen der Krankheitslast (engl. Burden of Disease) rücken für eine Vielzahl von Anwendungsmöglichkeiten, unter anderem im Öffentlichen Gesundheitsdienst des Bundes und der Länder, in Forschung, Entwicklung und anderen Bereichen des Gesundheitswesens, zunehmend in den Vordergrund. Sie erfassen den Gesundheitszustand einer Bevölkerung mit Hilfe