Metasyn
Metasyn: Transparent Generation of Synthetic Tabular Data with Privacy Guarantees - Published in JOSS (2025)
rgugik
rgugik: Search and Retrieve Spatial Data from the Polish Head Office of Geodesy and Cartography in R - Published in JOSS (2021)
Git-RDM
Git-RDM: A research data management plugin for the Git version control system - Published in JOSS (2016)
herbie-data
Download numerical weather prediction datasets (HRRR, RAP, GFS, IFS, etc.) from NOMADS, NODD partners (Amazon, Google, Microsoft), ECMWF open data, and the University of Utah Pando Archive System.
catalystcoop.pudl
The Public Utility Data Liberation Project provides analysis-ready energy system data to climate advocates, researchers, policymakers, and journalists.
gpm-api
A python package to download and analyze the Global Precipitation Measurement Mission (GPM) data archive
open-grid-emissions
Tools for producing high-quality hourly generation and emissions data for U.S. electric grids
cbssuitabilityhaiti
Data for a sanitation zoning assessment prepared for the city of Cap Haitien, Haiti. The package combines two datasets used for an analysis of the suitability of container-based sanitation (CBS)
sars-cov-2-nowcasting_und_-r-schaetzung
Das Nowcasting erstellt eine Schätzung des Verlaufs der Anzahl von bereits erfolgten SARS-CoV-2-Erkrankungsfällen in Deutschland unter Berücksichtigung des Diagnose-, Melde- und Übermittlungsverzugs.
manuscript
This repository implements an automated system to write our collaborative manuscript, while tracking changes and contributions.
netascore
NetAScore - Network Assessment Score Toolbox for Sustainable Mobility
sars-cov-2-infektionen_in_deutschland
Der vorliegende Datansatz enthält umfassende Informationen zu SARS-CoV-2-Infektionen in Deutschland, die gemäß dem Infektionsschutzgesetze (IfSG) von den Gesundheitsämtern an das Robert Koch-Institut (RKI) gemeldet wurden. Die Daten umfassen Informationen zur Anzahl der bestätigten Fälle, Todesfälle und Genesungen, aus denen sich weitere Kennzah...
covid-19-todesfaelle_in_deutschland
Im Datensatz 'COVID-19-Todesfälle in Deutschland' werden die Todesfälle in Bezug auf COVID-19 in Deutschland bereitgestellt. Darüber hinaus wird neben der Anzahl der übermittelten Todesfälle der Fall-Verstorbenen-Anteil berechnet. Angaben zum Tod zählen zu den melde- und übermittlungspflichtigen Inhalten. Bei der Ermittlung von Todesfällen und d...
ile-de-france
An open synthetic population of Île-de-France for agent-based transport simulation
awesome-open-geoscience
Curated from repositories that make our lives as geoscientists, hackers and data wranglers easier or just more awesome
covid-19_7-tage-inzidenz_in_deutschland
Im Datensatz '7-Tage-Inzidenz von COVID-19 in Deutschland' werden die aktuellen 7-Tage-Inzidenzen der nach den Vorgaben des Infektionsschutzgesetzes - IfSG - an das RKI übermittelten COVID-19-Fälle veröffentlicht. Datengrundlage zur Berechnung der 7-Tage-Inzidenzen sind die an das RKI übermittelten COVID-19-Fälle. Eine detaillierte Dokumentation...
sars-cov-2-pcr-testungen_in_deutschland
Im Rahmen der Bewältigung der COVID-19-Pandemie spielt die Diagnostik hinsichtlich SARS-CoV-2/COVID-19 eine entscheidende Rolle. Die Bedeutung liegt nicht nur in der diagnostischen Abklärung, sondern hat eine herausragende Stellung auch für die Beurteilung der epidemiologischen Entwicklung und hinsichtlich Strategien zur Verlangsamung des aktuellen Geschehens in Deutschland. Die Erfassung der durchgeführten PCR-Tests sowie die Ermittlung des Anteils der SARS-CoV-2 positiven PCR-Tests ermöglichen eine Einschätzung zur Wirksamkeit der Maßnahmen und der Umsetzung der Teststrategie. Vor diesem Hintergrund werden im Datensatz an das RKI übermittelte Daten zu PCR-Testungen, PCR-Testergebnissen und Testkapazitäten in Deutschland als offene Daten bereitgestellt.
corona-datenspende_teildatensatz_vitaldaten
Die Daten von Fitnessarmbändern und SmartwatchesDie Daten von Fitnessarmbändern und Smartwatches, sogenannten Wearables, können Hinweise auf Symptome einer COVID-19 Erkrankung liefern. Mit Hilfe der Corona-Datenspende-App (CDA) konnten Bürger:innen dem Robert Koch-Institut solche Daten für wissenschaftliche Zwecke zur Verfügung stellen.
corona-datenspende_teildatensatz_erleben_und_verhalten_in_der_pandemie
Die Daten von Fitnessarmbändern und Smartwatches, sogenannten Wearables, können Hinweise auf Symptome einer Infektion mit COVID-19 liefern. Mit Hilfe der Corona-Datenspende-App (CDA) können Bürger:innen dem Robert Koch-Institut diese Daten zur wissenschaftlichen Auswertung zur Verfügung stellen. Zusammen mit Informationen aus anderen Quellen, z.B.
cbsodata
Unofficial Statistics Netherlands (CBS) open data API client for Python
hochfrequente_mental_health_surveillance
Im Rahmen der Mental Health Surveillance (MHS) am Robert Koch-Institut (RKI) werden für eine Auswahl an Indikatoren der psychischen Gesundheit von Erwachsenen basierend auf Surveydaten Zeitreihen bestehend aus gleitenden Drei-Monats-Schätzern und Glättungskurven berechnet. Dadurch sollen Entwicklungen in der psychischen Gesundheit der erwachsene...
core-geonetwork
GeoNetwork is a catalog application to manage spatially referenced resources. It provides powerful metadata editing and search functions as well as an interactive web map viewer. It is currently used in numerous Spatial Data Infrastructure initiatives across the world.
https://github.com/catalyst-cooperative/pudl-archiver
A tool for capuring snapshots of public data sources and archiving them on Zenodo for programmatic use.
chromatographr
Toolset for the reproducible analysis of chromatography data in R (HPLC-DAD/UV, GC-FID).
basedosdados
⚙️ Código de manutenção do datalake (metadados e pacotes de acesso) | 📖 Docs: https://basedosdados.org/docs/home
waterpumpkwale
Weekly volume of water pumped for handpumps monitored with Smart Handpump technology, Kwale County, Kenya
fowd
Processing framework for FOWD, a free ocean wave dataset, ready for your ML application :ocean:
phenodata
An acquisition and processing toolkit for open access phenology data.
goes2go
Download and process GOES-16 and GOES-17 data from NOAA's archive on AWS using Python.
transparency
Structured data files for topics covered by GitHub's Transparency Report
gbfs
Documentation for the General Bikeshare Feed Specification, a standardized data feed for shared mobility system availability. Maintained by MobilityData
wb-reproducible-research-repository
This repository supports the World Bank's Reproducible Research Repository
lingvan-voice
Supplementary materials for "Corpus linguistic and experimental studies on the meaning-preserving hypothesis in Indonesian voice alternations" (published in Linguistics Vanguard).
RSocrata
Provides easier interaction with Socrata open data portals http://dev.socrata.com. Users can provide a 'Socrata' data set resource URL, or a 'Socrata' Open Data API (SoDA) web query, or a 'Socrata' "human-friendly" URL, returns an R data frame. Converts dates to 'POSIX' format. Manages throttling by 'Socrata'.
upgini
Data search & enrichment library for Machine Learning → Easily find and add relevant features to your ML & AI pipeline from hundreds of public and premium external data sources, including open & commercial LLMs
os_strategy_nhmw
Open Science in Museums - Strategy of the "Naturhistorisches Museum Wien"
covid19-italy-integrated-surveillance-data
COVID-19 integrated surveillance data provided by the Italian Institute of Health and processed via UnrollingAverages.jl to deconvolve the weekly moving averages.
osmextract
Download and import OpenStreetMap data from Geofabrik and other providers
NPSdataverse
NPSdataverse: a suite of R packages for data processing, authoring Ecological Metadata Language metadata, checking data-metadata congruence, and accessing data - Published in JOSS (2025)
the-building-data-genome-project
A collection of non-residential buildings for performance analysis and algorithm benchmarking
building-data-genome-project-2
Whole building non-residential hourly energy meter data from the Great Energy Predictor III competition
https://github.com/daq-tools/kotori
A flexible data historian based on InfluxDB, Grafana, MQTT, and more. Free, open, simple.
eia
An R package wrapping the US Energy Information Administration open data API.
transitland-atlas
an open directory of mobility feeds and operators — powers both Transitland v1 and v2
awesome-sentinel
curated list of awesome tools, tutorials and APIs for Copernicus Sentinel satellite data
giessdenkiez-de
The consequences of climate change, especially the dry and hot summers, are putting a strain on Berlin's ecosystem. Our urban trees are drying out and suffering long-term damage. Gieß den Kiez is made to enable coordinated citizen participation in the irrigation of urban trees.
https://github.com/catalyst-cooperative/pudl-catalog
An Intake catalog for distributing open energy system data liberated by Catalyst Cooperative.
openpdi
A Python 3 library for decentralized aggregation of data from the Police Data Initiative (PDI).
NitrogenUptake2016
R package containing data and source code from Hill et al. 2018a (DOI: https://doi.org/10.1016/j.jembe.2018.07.006) and Hill et al. 2018b (DOI: https://doi.org/10.1016/j.dib.2018.09.133)
read.abares
Harvest data from Australian Bureau of Agricultural and Resource Economics and Sciences (ABARES) part of the Australian Department of Agriculture, Fisheries and Forestry for your work in R
kiwisR
Provides a simplified method for bringing tidy data into R from KISTERS WISKI databases via KiWIS API.
osdg-data
The OSDG Community Dataset (OSDG-CD) is a public dataset of thousands of text excerpts, validated by OSDG Community Platform (OSDG-CP) citizen scientists with respect to the Sustainable Development Goals (SDGs). The dataset is updated every quarter and published on Zenodo.
https://github.com/danielvartan/open-science-pres
🔎🔓 Opens Science Presentation for the Sustentarea Research and Extension Center
https://github.com/crsh/psych-transparency-guide
Supplementary material for "A practical guide for transparency in psychological science" (find the paper at https://psyarxiv.com/rtygm/)
https://github.com/catalyst-cooperative/pudl-zenodo-storage
Tools for creating versioned archives of raw data on Zenodo using Frictionless data packages.
knowledge-commons
Knowledge Commons research group's repository
https://github.com/inseefrlab/pynsee
pynsee package contains tools to easily search and download French data from INSEE and IGN APIs
https://github.com/cdcgov/opencdc
This is the repository for the openCDC web site. Entire site is generated from data files describing CDC Open Technology types for data, api, code, and events. All CDC programs are welcome to submit pull requests with updates and new items useful to the public health open source community.
https://github.com/catalyst-cooperative/pudl-scrapers
Scrapers used to acquire snapshots of raw data inputs for versioned archiving and replicable analysis.
constructional-equivalence
Repository of supplementary materials and RStudio project for the paper on corpus-based approach to measuring constructional equivalence.
inanspruchnahme_von_routineimpfungen_in_deutschland-ergebnisse_aus_der_kv-impfsurveillance
Dem Robert Koch-Institut (RKI) obliegt die Aufgabe, Daten zur Inanspruchnahme von Schutzimpfungen in der Bevölkerung in Deutschland zu erheben, aufzubereiten und national wie international zu berichten. Die wichtigste Datenquelle zur Berechnung von Impfquoten stellen die vertragsärztlichen Abrechnungsdaten dar, die von den Kassenärztlichen Verei...
gesundheitsberichterstattung_-_daten_zu_nichtuebertragbaren_erkrankungen
Die Gesundheitsberichterstattung (GBE) des RKI informiert regelmäßig über die gesundheitliche Situation der Bevölkerung in Deutschland. Das Themenspektrum ist vielfältig und reicht von Gesundheitszustand und Einflussfaktoren auf die Gesundheit über Gesundheitsförderung, Prävention und gesundheitliche Versorgung bis hin zu den damit verbundenen ...
gesundheit_in_deutschland_aktuell
Die Studie 'Gesundheit in Deutschland aktuell' (GEDA) ist eine Querschnittbefragung der deutschsprachigen erwachsenen Wohnbevölkerung im Alter ab 15 Jahren, die regelmäßig vom Robert Koch-Institut als Komponente des bundesweiten Gesundheitsmonitorings durchgeführt wird. [...]
scenarios
Analysis of resentencing eligibility results using Redo.io's open prison population datasets
appendix_potential_covid-19_test_fraud_detection
The methods and results of the publication "Potential COVID-19 test fraud detection: Findings from a pilot study comparing conventional and statistical approaches" are described in more detail in this appendix. The R-syntax for the calculation is provided, as well as a pseudo data set with which the syntax can also be tested.
saniabidjan
Data about household survey of managing sanitation facilities in Abidjan, Cote d’Ivoire
burden_2020_-_krankheitslast_in_deutschland_und_seinen_regionen
Kennzahlen der Krankheitslast (engl. Burden of Disease) rücken für eine Vielzahl von Anwendungsmöglichkeiten, unter anderem im Öffentlichen Gesundheitsdienst des Bundes und der Länder, in Forschung, Entwicklung und anderen Bereichen des Gesundheitswesens, zunehmend in den Vordergrund. Sie erfassen den Gesundheitszustand einer Bevölkerung mit Hilfe
csv-conf-khoj
A presentation (for csv,conf,v7) on building a dataset around Indian High Court Judges
https://github.com/afsc-gap-products/gap_public_data
Public facing data for the Groundfish and Shellfish Assessment Program. https://afsc-gap-products.github.io/gap_products/content/foss-intro.html
ornithophile
🦜 Ornithophile is a powerful and elegant REST API providing detailed data on 11,290 bird species, including taxonomy, images, conservation status, and alphabetical filtering. Ideal for nature lovers, developers, and researchers.
https://github.com/antho8101/edicto
A public platform to publish, search, and archive official communications from verified organizations, with advanced search, real-time alerts, AI summaries, and immutable version history.
washinvestments
Dataset on multilateral development bank (MDB) investment in water supply and sanitation associated with the paper "Multilateral development banks investment behaviour in water and sanitation: Findings and lessons from 60 years of investment projects in Africa and Asia" (Heidler et al. 2023).
watercostaccra
Data of household survey on water costs and coping strategies in Accra associated with a project report completed by Elizabeth Vicario for the “data science for openwashdata” course
observatorium_serologischer_studien_zu_sars-cov-2_in_deutschland
Die seit 2019 auftretende Infektionskrankheit COVID-19, hervorgerufen durch das neuartige SARS-CoV-2-Virus, führte zu gesundheitspolitischen und gesamtgesellschaftlichen Herausforderungen. Um geeignete Maßnahmen zur Eindämmung der Pandemie ergreifen zu können und neue Erkenntnisse über die Pandemie zu gewinnen, gibt es vermehrt Forschungsbedarfe zu COVID-19. Ein Ansatzpunkt hierfür sind die gewonnenen Blutproben von infizierten sowie von nicht infizierten Personen, die in Laboren auf Antikörper gegen das SARS-CoV-2-Virus getestet und analysiert werden. Sie geben Aufschluss über den Anteil der Bevölkerung, der bereits eine Infektion mit SARS-CoV-2 durchgemacht hat, und schließen dabei nicht erkannte Infektionen (Untererfassung) ein.<br/>Das Projekt 'Observatorium serologischer Studien zu SARS-CoV-2 in Deutschland' (SERO-OBS Corona) gibt eine Übersicht zu Antikörper-Studien (sogenannte seroepidemiologische Studien) in Deutschland. Die seroepidemiologischen Studien basieren auf Blutproben von Bürgerinnen und Bürgern, die zu unterschiedlichen Zeitpunkten der Pandemie auf Antikörper gegen das SARS-CoV-2-Virus getestet wurden. Dabei sollen z. B. folgende Fragen beantwortet werden: Wie ist die Häufigkeit von SARS-CoV-2-Infektionen in verschiedenen Bevölkerungsgruppen? Wie hoch ist der Untererfassungsfaktor, der zeigt, wie viel Mal mehr Infektionen im Vergleich zu den bislang bekannten (gemeldeten) Fällen aufgetreten sind? In dem vorliegenden Projekt werden in Deutschland durchgeführte seroepidemiologische Studien zu SARS-CoV-2 seit dem Frühjahr 2020 über systematische Recherchen in Studienregistern, Literaturdatenbanken einschließlich Vorveröffentlichungen sowie Medienberichten fortlaufend identifizier und Studieninformationen sowie Ergebnisübersichten verfügbar gemacht.
opendata_sandbox
This repository contains the code for the manuscript Ensemble-labeling of infectious diseases time series to evaluate early warning systems with which you can reproduce the manuscript's results and figures.