Metasyn
Metasyn: Transparent Generation of Synthetic Tabular Data with Privacy Guarantees - Published in JOSS (2025)
rgugik
rgugik: Search and Retrieve Spatial Data from the Polish Head Office of Geodesy and Cartography in R - Published in JOSS (2021)
Git-RDM
Git-RDM: A research data management plugin for the Git version control system - Published in JOSS (2016)
herbie-data
Download numerical weather prediction datasets (HRRR, RAP, GFS, IFS, etc.) from NOMADS, NODD partners (Amazon, Google, Microsoft), ECMWF open data, and the University of Utah Pando Archive System.
catalystcoop.pudl
The Public Utility Data Liberation Project provides analysis-ready energy system data to climate advocates, researchers, policymakers, and journalists.
gpm-api
A python package to download and analyze the Global Precipitation Measurement Mission (GPM) data archive
open-grid-emissions
Tools for producing high-quality hourly generation and emissions data for U.S. electric grids
cbssuitabilityhaiti
Data for a sanitation zoning assessment prepared for the city of Cap Haitien, Haiti. The package combines two datasets used for an analysis of the suitability of container-based sanitation (CBS)
sars-cov-2-nowcasting_und_-r-schaetzung
Das Nowcasting erstellt eine Schätzung des Verlaufs der Anzahl von bereits erfolgten SARS-CoV-2-Erkrankungsfällen in Deutschland unter Berücksichtigung des Diagnose-, Melde- und Übermittlungsverzugs.
manuscript
This repository implements an automated system to write our collaborative manuscript, while tracking changes and contributions.
netascore
NetAScore - Network Assessment Score Toolbox for Sustainable Mobility
sars-cov-2-infektionen_in_deutschland
Der vorliegende Datansatz enthält umfassende Informationen zu SARS-CoV-2-Infektionen in Deutschland, die gemäß dem Infektionsschutzgesetze (IfSG) von den Gesundheitsämtern an das Robert Koch-Institut (RKI) gemeldet wurden. Die Daten umfassen Informationen zur Anzahl der bestätigten Fälle, Todesfälle und Genesungen, aus denen sich weitere Kennzah...
covid-19-todesfaelle_in_deutschland
Im Datensatz 'COVID-19-Todesfälle in Deutschland' werden die Todesfälle in Bezug auf COVID-19 in Deutschland bereitgestellt. Darüber hinaus wird neben der Anzahl der übermittelten Todesfälle der Fall-Verstorbenen-Anteil berechnet. Angaben zum Tod zählen zu den melde- und übermittlungspflichtigen Inhalten. Bei der Ermittlung von Todesfällen und d...
ile-de-france
An open synthetic population of Île-de-France for agent-based transport simulation
awesome-open-geoscience
Curated from repositories that make our lives as geoscientists, hackers and data wranglers easier or just more awesome
covid-19_7-tage-inzidenz_in_deutschland
Im Datensatz '7-Tage-Inzidenz von COVID-19 in Deutschland' werden die aktuellen 7-Tage-Inzidenzen der nach den Vorgaben des Infektionsschutzgesetzes - IfSG - an das RKI übermittelten COVID-19-Fälle veröffentlicht. Datengrundlage zur Berechnung der 7-Tage-Inzidenzen sind die an das RKI übermittelten COVID-19-Fälle. Eine detaillierte Dokumentation...
sars-cov-2-pcr-testungen_in_deutschland
Im Rahmen der Bewältigung der COVID-19-Pandemie spielt die Diagnostik hinsichtlich SARS-CoV-2/COVID-19 eine entscheidende Rolle. Die Bedeutung liegt nicht nur in der diagnostischen Abklärung, sondern hat eine herausragende Stellung auch für die Beurteilung der epidemiologischen Entwicklung und hinsichtlich Strategien zur Verlangsamung des aktuellen Geschehens in Deutschland. Die Erfassung der durchgeführten PCR-Tests sowie die Ermittlung des Anteils der SARS-CoV-2 positiven PCR-Tests ermöglichen eine Einschätzung zur Wirksamkeit der Maßnahmen und der Umsetzung der Teststrategie. Vor diesem Hintergrund werden im Datensatz an das RKI übermittelte Daten zu PCR-Testungen, PCR-Testergebnissen und Testkapazitäten in Deutschland als offene Daten bereitgestellt.
corona-datenspende_teildatensatz_vitaldaten
Die Daten von Fitnessarmbändern und SmartwatchesDie Daten von Fitnessarmbändern und Smartwatches, sogenannten Wearables, können Hinweise auf Symptome einer COVID-19 Erkrankung liefern. Mit Hilfe der Corona-Datenspende-App (CDA) konnten Bürger:innen dem Robert Koch-Institut solche Daten für wissenschaftliche Zwecke zur Verfügung stellen.
corona-datenspende_teildatensatz_erleben_und_verhalten_in_der_pandemie
Die Daten von Fitnessarmbändern und Smartwatches, sogenannten Wearables, können Hinweise auf Symptome einer Infektion mit COVID-19 liefern. Mit Hilfe der Corona-Datenspende-App (CDA) können Bürger:innen dem Robert Koch-Institut diese Daten zur wissenschaftlichen Auswertung zur Verfügung stellen. Zusammen mit Informationen aus anderen Quellen, z.B.
cbsodata
Unofficial Statistics Netherlands (CBS) open data API client for Python
hochfrequente_mental_health_surveillance
Im Rahmen der Mental Health Surveillance (MHS) am Robert Koch-Institut (RKI) werden für eine Auswahl an Indikatoren der psychischen Gesundheit von Erwachsenen basierend auf Surveydaten Zeitreihen bestehend aus gleitenden Drei-Monats-Schätzern und Glättungskurven berechnet. Dadurch sollen Entwicklungen in der psychischen Gesundheit der erwachsene...
core-geonetwork
GeoNetwork is a catalog application to manage spatially referenced resources. It provides powerful metadata editing and search functions as well as an interactive web map viewer. It is currently used in numerous Spatial Data Infrastructure initiatives across the world.
https://github.com/catalyst-cooperative/pudl-archiver
A tool for capuring snapshots of public data sources and archiving them on Zenodo for programmatic use.
chromatographr
Toolset for the reproducible analysis of chromatography data in R (HPLC-DAD/UV, GC-FID).
basedosdados
⚙️ Código de manutenção do datalake (metadados e pacotes de acesso) | 📖 Docs: https://basedosdados.org/docs/home
waterpumpkwale
Weekly volume of water pumped for handpumps monitored with Smart Handpump technology, Kwale County, Kenya
fowd
Processing framework for FOWD, a free ocean wave dataset, ready for your ML application :ocean:
phenodata
An acquisition and processing toolkit for open access phenology data.
goes2go
Download and process GOES-16 and GOES-17 data from NOAA's archive on AWS using Python.
transparency
Structured data files for topics covered by GitHub's Transparency Report
gbfs
Documentation for the General Bikeshare Feed Specification, a standardized data feed for shared mobility system availability. Maintained by MobilityData
wb-reproducible-research-repository
This repository supports the World Bank's Reproducible Research Repository
lingvan-voice
Supplementary materials for "Corpus linguistic and experimental studies on the meaning-preserving hypothesis in Indonesian voice alternations" (published in Linguistics Vanguard).
RSocrata
Provides easier interaction with Socrata open data portals http://dev.socrata.com. Users can provide a 'Socrata' data set resource URL, or a 'Socrata' Open Data API (SoDA) web query, or a 'Socrata' "human-friendly" URL, returns an R data frame. Converts dates to 'POSIX' format. Manages throttling by 'Socrata'.
upgini
Data search & enrichment library for Machine Learning → Easily find and add relevant features to your ML & AI pipeline from hundreds of public and premium external data sources, including open & commercial LLMs
os_strategy_nhmw
Open Science in Museums - Strategy of the "Naturhistorisches Museum Wien"
covid19-italy-integrated-surveillance-data
COVID-19 integrated surveillance data provided by the Italian Institute of Health and processed via UnrollingAverages.jl to deconvolve the weekly moving averages.
osmextract
Download and import OpenStreetMap data from Geofabrik and other providers
NPSdataverse
NPSdataverse: a suite of R packages for data processing, authoring Ecological Metadata Language metadata, checking data-metadata congruence, and accessing data - Published in JOSS (2025)
the-building-data-genome-project
A collection of non-residential buildings for performance analysis and algorithm benchmarking
building-data-genome-project-2
Whole building non-residential hourly energy meter data from the Great Energy Predictor III competition
https://github.com/daq-tools/kotori
A flexible data historian based on InfluxDB, Grafana, MQTT, and more. Free, open, simple.
eia
An R package wrapping the US Energy Information Administration open data API.
transitland-atlas
an open directory of mobility feeds and operators — powers both Transitland v1 and v2
awesome-sentinel
curated list of awesome tools, tutorials and APIs for Copernicus Sentinel satellite data
giessdenkiez-de
The consequences of climate change, especially the dry and hot summers, are putting a strain on Berlin's ecosystem. Our urban trees are drying out and suffering long-term damage. Gieß den Kiez is made to enable coordinated citizen participation in the irrigation of urban trees.
https://github.com/catalyst-cooperative/pudl-catalog
An Intake catalog for distributing open energy system data liberated by Catalyst Cooperative.
openpdi
A Python 3 library for decentralized aggregation of data from the Police Data Initiative (PDI).
NitrogenUptake2016
R package containing data and source code from Hill et al. 2018a (DOI: https://doi.org/10.1016/j.jembe.2018.07.006) and Hill et al. 2018b (DOI: https://doi.org/10.1016/j.dib.2018.09.133)
read.abares
Harvest data from Australian Bureau of Agricultural and Resource Economics and Sciences (ABARES) part of the Australian Department of Agriculture, Fisheries and Forestry for your work in R
kiwisR
Provides a simplified method for bringing tidy data into R from KISTERS WISKI databases via KiWIS API.
osdg-data
The OSDG Community Dataset (OSDG-CD) is a public dataset of thousands of text excerpts, validated by OSDG Community Platform (OSDG-CP) citizen scientists with respect to the Sustainable Development Goals (SDGs). The dataset is updated every quarter and published on Zenodo.
https://github.com/danielvartan/open-science-pres
🔎🔓 Opens Science Presentation for the Sustentarea Research and Extension Center
https://github.com/crsh/psych-transparency-guide
Supplementary material for "A practical guide for transparency in psychological science" (find the paper at https://psyarxiv.com/rtygm/)
https://github.com/catalyst-cooperative/pudl-zenodo-storage
Tools for creating versioned archives of raw data on Zenodo using Frictionless data packages.
knowledge-commons
Knowledge Commons research group's repository
https://github.com/inseefrlab/pynsee
pynsee package contains tools to easily search and download French data from INSEE and IGN APIs
https://github.com/cdcgov/opencdc
This is the repository for the openCDC web site. Entire site is generated from data files describing CDC Open Technology types for data, api, code, and events. All CDC programs are welcome to submit pull requests with updates and new items useful to the public health open source community.
https://github.com/catalyst-cooperative/pudl-scrapers
Scrapers used to acquire snapshots of raw data inputs for versioned archiving and replicable analysis.
influenzafaelle_in_deutschland
Im Datensatz "Laborbestätigte Influenzafälle in Deutschland" werden die wöchentlichen Fallzahlen und Inzidenzen (Fälle pro 100.000 Personen) der nach den Vorgaben des Infektionsschutzgesetzes (IfSG) von den Gesundheitsämtern in Deutschland an die zuständigen Landesbehördne und das Robert Koch-Institut (RKI) übermittelten laborbestätigt...
csv-conf-khoj
A presentation (for csv,conf,v7) on building a dataset around Indian High Court Judges
https://github.com/ctjacobs/orchidokie
Lists the datasets associated with a journal article, conference paper, or other publication using ORCID.
https://github.com/afsc-gap-products/metadata
This repository provides guidance for all of our data's metadata needs.
bundesweiter_klinischer_krebsregisterdatensatz-datenschema_und_klassifikationen
Das Repository stellt Informationen zu Struktur und Klassifikationen des bundesweiten klinischen Krebsregisterdatensatzes bereit. Die verwendeten Klassifikationen bilden den derzeitigen Arbeitsstand des ZfKD ab. Ziel ist es, diesen Stand transparent bereit zu stellen und beteiligte Akteure zur gemeinsamen Harmonisierung von Standards einzuladen.
bcsa
The bcsa package provide datasets for source apportionment of light absorbing carbon (LAC) in Blantyre, Malawi. The package contains data on Absorption Angstrom Exponent experiments determination of local pollution sources. The package also contains data on spatial distribution and ambient concentrations of LAC concentrations.
oeplatform
Repository for the code of the Open Energy Platform (OEP) website. The OEP provides an interface to the Open Energy Family
constructional-equivalence
Repository of supplementary materials and RStudio project for the paper on corpus-based approach to measuring constructional equivalence.
gesundheitsberichterstattung_-_daten_zu_nichtuebertragbaren_erkrankungen
Die Gesundheitsberichterstattung (GBE) des RKI informiert regelmäßig über die gesundheitliche Situation der Bevölkerung in Deutschland. Das Themenspektrum ist vielfältig und reicht von Gesundheitszustand und Einflussfaktoren auf die Gesundheit über Gesundheitsförderung, Prävention und gesundheitliche Versorgung bis hin zu den damit verbundenen ...
offenses_data
Demographics and offenses of California's prison population acquired by Redo.io through public records laws
wbstats
wbstats: An R package for searching and downloading data from the World Bank API
mantis
READONLY COPY (https://gitlab.com/opendata-apps/mantis) | An interactive web application to track Mantis Religiosa sightings in Brandenburg.
washinvestments
Dataset on multilateral development bank (MDB) investment in water supply and sanitation associated with the paper "Multilateral development banks investment behaviour in water and sanitation: Findings and lessons from 60 years of investment projects in Africa and Asia" (Heidler et al. 2023).
stopptcovid-studie_daten_analyse_und_ergebnisse
Die getroffenen Maßnahmen zur Kontrolle von Severe Acute Respiratory Syndrome Coronavirus Type 2 (SARS-CoV-2) haben während der Coronavirus Disease 2019-(COVID-19-) Pandemie zu starken Einschränkungen des öffentlichen Lebens in Deutschland geführt. Das übergeordnete Ziel des Projekts "StopptCOVID" bestand darin, die Evidenzgrundlage für die ...
burden_2020_-_krankheitslast_in_deutschland_und_seinen_regionen
Kennzahlen der Krankheitslast (engl. Burden of Disease) rücken für eine Vielzahl von Anwendungsmöglichkeiten, unter anderem im Öffentlichen Gesundheitsdienst des Bundes und der Länder, in Forschung, Entwicklung und anderen Bereichen des Gesundheitswesens, zunehmend in den Vordergrund. Sie erfassen den Gesundheitszustand einer Bevölkerung mit Hilfe
polioviren_im_abwasser-pia
Derzeit wird in Deutschland zur Überwachung der Poliofreiheit eine syndromische Surveillance hospitalisierter Patienten mit aseptischer Meningitis/Enzephalitis und akuter schlaffer Paresen durchgeführt (Enterovirus-Surveillance, EVSurv).
saniabidjan
Data about household survey of managing sanitation facilities in Abidjan, Cote d’Ivoire