Scientific Software
Updated 9 months ago

Metasyn — Peer-reviewed • Rank 9.7 • Science 98%

Metasyn: Transparent Generation of Synthetic Tabular Data with Privacy Guarantees - Published in JOSS (2025)

Artificial Intelligence and Machine Learning
Scientific Software · Peer-reviewed
Scientific Software
Updated 9 months ago

rgugik — Peer-reviewed • Rank 11.3 • Science 93%

rgugik: Search and Retrieve Spatial Data from the Polish Head Office of Geodesy and Cartography in R - Published in JOSS (2021)

Engineering (40%) Earth and Environmental Sciences (40%)
Scientific Software · Peer-reviewed
Scientific Software
Updated 9 months ago

Git-RDM — Peer-reviewed • Rank 4.2 • Science 95%

Git-RDM: A research data management plugin for the Git version control system - Published in JOSS (2016)

Updated 9 months ago

herbie-data • Rank 19.4 • Science 77%

Download numerical weather prediction datasets (HRRR, RAP, GFS, IFS, etc.) from NOMADS, NODD partners (Amazon, Google, Microsoft), ECMWF open data, and the University of Utah Pando Archive System.

Updated 9 months ago

catalystcoop.pudl • Rank 17.3 • Science 77%

The Public Utility Data Liberation Project provides analysis-ready energy system data to climate advocates, researchers, policymakers, and journalists.

Updated 9 months ago

open-grid-emissions • Rank 7.0 • Science 77%

Tools for producing high-quality hourly generation and emissions data for U.S. electric grids

Updated 9 months ago

cbssuitabilityhaiti • Rank 1.6 • Science 77%

Data for a sanitation zoning assessment prepared for the city of Cap Haitien, Haiti. The package combines two datasets used for an analysis of the suitability of container-based sanitation (CBS)

Updated 9 months ago

sars-cov-2-nowcasting_und_-r-schaetzung • Rank 6.7 • Science 67%

Das Nowcasting erstellt eine Schätzung des Verlaufs der Anzahl von bereits erfolgten SARS-CoV-2-Erkrankungsfällen in Deutschland unter Berücksichtigung des Diagnose-, Melde- und Übermittlungsverzugs.

Updated 9 months ago

manuscript • Rank 6.2 • Science 67%

This repository implements an automated system to write our collaborative manuscript, while tracking changes and contributions.

Updated 9 months ago

sars-cov-2-infektionen_in_deutschland • Rank 5.1 • Science 67%

Der vorliegende Datansatz enthält umfassende Informationen zu SARS-CoV-2-Infektionen in Deutschland, die gemäß dem Infektionsschutzgesetze (IfSG) von den Gesundheitsämtern an das Robert Koch-Institut (RKI) gemeldet wurden. Die Daten umfassen Informationen zur Anzahl der bestätigten Fälle, Todesfälle und Genesungen, aus denen sich weitere Kennzah...

Updated 9 months ago

covid-19-todesfaelle_in_deutschland • Rank 4.1 • Science 67%

Im Datensatz 'COVID-19-Todesfälle in Deutschland' werden die Todesfälle in Bezug auf COVID-19 in Deutschland bereitgestellt. Darüber hinaus wird neben der Anzahl der übermittelten Todesfälle der Fall-Verstorbenen-Anteil berechnet. Angaben zum Tod zählen zu den melde- und übermittlungspflichtigen Inhalten. Bei der Ermittlung von Todesfällen und d...

Artificial Intelligence and Machine Learning (40%)
Updated 9 months ago

ile-de-france • Rank 7.0 • Science 64%

An open synthetic population of Île-de-France for agent-based transport simulation

Updated 9 months ago

covid-19_7-tage-inzidenz_in_deutschland • Rank 3.7 • Science 67%

Im Datensatz '7-Tage-Inzidenz von COVID-19 in Deutschland' werden die aktuellen 7-Tage-Inzidenzen der nach den Vorgaben des Infektionsschutzgesetzes - IfSG - an das RKI übermittelten COVID-19-Fälle veröffentlicht. Datengrundlage zur Berechnung der 7-Tage-Inzidenzen sind die an das RKI übermittelten COVID-19-Fälle. Eine detaillierte Dokumentation...

Updated 9 months ago

sars-cov-2-pcr-testungen_in_deutschland • Rank 2.7 • Science 67%

Im Rahmen der Bewältigung der COVID-19-Pandemie spielt die Diagnostik hinsichtlich SARS-CoV-2/COVID-19 eine entscheidende Rolle. Die Bedeutung liegt nicht nur in der diagnostischen Abklärung, sondern hat eine herausragende Stellung auch für die Beurteilung der epidemiologischen Entwicklung und hinsichtlich Strategien zur Verlangsamung des aktuellen Geschehens in Deutschland. Die Erfassung der durchgeführten PCR-Tests sowie die Ermittlung des Anteils der SARS-CoV-2 positiven PCR-Tests ermöglichen eine Einschätzung zur Wirksamkeit der Maßnahmen und der Umsetzung der Teststrategie. Vor diesem Hintergrund werden im Datensatz an das RKI übermittelte Daten zu PCR-Testungen, PCR-Testergebnissen und Testkapazitäten in Deutschland als offene Daten bereitgestellt.

Updated 9 months ago

corona-datenspende_teildatensatz_vitaldaten • Rank 2.6 • Science 67%

Die Daten von Fitnessarmbändern und SmartwatchesDie Daten von Fitnessarmbändern und Smartwatches, sogenannten Wearables, können Hinweise auf Symptome einer COVID-19 Erkrankung liefern. Mit Hilfe der Corona-Datenspende-App (CDA) konnten Bürger:innen dem Robert Koch-Institut solche Daten für wissenschaftliche Zwecke zur Verfügung stellen.

Updated 9 months ago

helminthR • Rank 10.0 • Science 59%

Accesses parasite occurrence records from the London Natural History Museum's Host-Parasite database, which contains over a quarter of a million helminth records.

Updated 9 months ago

corona-datenspende_teildatensatz_erleben_und_verhalten_in_der_pandemie • Rank 1.8 • Science 67%

Die Daten von Fitnessarmbändern und Smartwatches, sogenannten Wearables, können Hinweise auf Symptome einer Infektion mit COVID-19 liefern. Mit Hilfe der Corona-Datenspende-App (CDA) können Bürger:innen dem Robert Koch-Institut diese Daten zur wissenschaftlichen Auswertung zur Verfügung stellen. Zusammen mit Informationen aus anderen Quellen, z.B.

Updated 9 months ago

cbsodata • Rank 14.5 • Science 54%

Unofficial Statistics Netherlands (CBS) open data API client for Python

Updated 9 months ago

hochfrequente_mental_health_surveillance • Rank 1.4 • Science 67%

Im Rahmen der Mental Health Surveillance (MHS) am Robert Koch-Institut (RKI) werden für eine Auswahl an Indikatoren der psychischen Gesundheit von Erwachsenen basierend auf Surveydaten Zeitreihen bestehend aus gleitenden Drei-Monats-Schätzern und Glättungskurven berechnet. Dadurch sollen Entwicklungen in der psychischen Gesundheit der erwachsene...

Updated 9 months ago

core-geonetwork • Rank 11.9 • Science 54%

GeoNetwork is a catalog application to manage spatially referenced resources. It provides powerful metadata editing and search functions as well as an interactive web map viewer. It is currently used in numerous Spatial Data Infrastructure initiatives across the world.

Updated 9 months ago

https://github.com/catalyst-cooperative/pudl-archiver • Rank 6.5 • Science 59%

A tool for capuring snapshots of public data sources and archiving them on Zenodo for programmatic use.

Updated 9 months ago

meteostat • Rank 20.1 • Science 44%

Access and analyze historical weather and climate data with Python.

Updated 9 months ago

basedosdados • Rank 19.5 • Science 44%

⚙️ Código de manutenção do datalake (metadados e pacotes de acesso) | 📖 Docs: https://basedosdados.org/docs/home

Updated 9 months ago

waterpumpkwale • Rank 0.7 • Science 59%

Weekly volume of water pumped for handpumps monitored with Smart Handpump technology, Kwale County, Kenya

Updated 9 months ago

open-data-on-github • Rank 4.5 • Science 54%

Dataset files for the Open Data on GitHub paper

Updated 9 months ago

fowd • Rank 3.4 • Science 54%

Processing framework for FOWD, a free ocean wave dataset, ready for your ML application :ocean:

Updated 9 months ago

goes2go • Rank 15.6 • Science 36%

Download and process GOES-16 and GOES-17 data from NOAA's archive on AWS using Python.

Updated 9 months ago

innovationgraph • Rank 7.3 • Science 44%

GitHub Innovation Graph

Updated 9 months ago

csp-guru • Rank 4.9 • Science 46%

A database of concentrating solar power plants of the world for energy modellers and analysts.

Updated 9 months ago

government-open-source-policies • Rank 6.0 • Science 44%

Dataset of Government Open Source Policies

Updated 9 months ago

transparency • Rank 4.2 • Science 44%

Structured data files for topics covered by GitHub's Transparency Report

Updated 9 months ago

gbfs • Rank 11.7 • Science 36%

Documentation for the General Bikeshare Feed Specification, a standardized data feed for shared mobility system availability. Maintained by MobilityData

Updated 9 months ago

wb-reproducible-research-repository • Rank 3.7 • Science 44%

This repository supports the World Bank's Reproducible Research Repository

Updated 9 months ago

RSocrata • Rank 18.4 • Science 26%

Provides easier interaction with Socrata open data portals http://dev.socrata.com. Users can provide a 'Socrata' data set resource URL, or a 'Socrata' Open Data API (SoDA) web query, or a 'Socrata' "human-friendly" URL, returns an R data frame. Converts dates to 'POSIX' format. Manages throttling by 'Socrata'.

Updated 9 months ago

upgini • Rank 17.5 • Science 26%

Data search & enrichment library for Machine Learning → Easily find and add relevant features to your ML & AI pipeline from hundreds of public and premium external data sources, including open & commercial LLMs

Updated 9 months ago

censusapi • Rank 17.3 • Science 26%

R package to retrieve U.S. Census data and metadata via API

Updated 9 months ago

os_strategy_nhmw • Rank 1.8 • Science 41%

Open Science in Museums - Strategy of the "Naturhistorisches Museum Wien"

Updated 9 months ago

covid19-italy-integrated-surveillance-data • Rank 5.0 • Science 36%

COVID-19 integrated surveillance data provided by the Italian Institute of Health and processed via UnrollingAverages.jl to deconvolve the weekly moving averages.

Updated 9 months ago

brightsky • Rank 14.6 • Science 26%

JSON API for DWD's open weather data.

Updated 9 months ago

osmextract • Rank 14.3 • Science 26%

Download and import OpenStreetMap data from Geofabrik and other providers

Scientific Software
Updated 9 months ago

NPSdataverse — Peer-reviewed • Rank 4.0 • Science 36%

NPSdataverse: a suite of R packages for data processing, authoring Ecological Metadata Language metadata, checking data-metadata congruence, and accessing data - Published in JOSS (2025)

Updated 9 months ago

eia • Rank 11.9 • Science 26%

An R package wrapping the US Energy Information Administration open data API.

Updated 9 months ago

transitland-atlas • Rank 10.1 • Science 26%

an open directory of mobility feeds and operators — powers both Transitland v1 and v2

Updated 9 months ago

awesome-sentinel • Rank 9.5 • Science 26%

curated list of awesome tools, tutorials and APIs for Copernicus Sentinel satellite data

Updated 9 months ago

earth-osm • Rank 11.5 • Science 23%

Export infrastructure data from OpenStreetMap using Python

Updated 9 months ago

giessdenkiez-de • Rank 7.8 • Science 26%

The consequences of climate change, especially the dry and hot summers, are putting a strain on Berlin's ecosystem. Our urban trees are drying out and suffering long-term damage. Gieß den Kiez is made to enable coordinated citizen participation in the irrigation of urban trees.

Updated 9 months ago

openpdi • Rank 1.1 • Science 28%

A Python 3 library for decentralized aggregation of data from the Police Data Initiative (PDI).

Updated 9 months ago

NitrogenUptake2016 • Rank 6.0 • Science 23%

R package containing data and source code from Hill et al. 2018a (DOI: https://doi.org/10.1016/j.jembe.2018.07.006) and Hill et al. 2018b (DOI: https://doi.org/10.1016/j.dib.2018.09.133)

Updated 9 months ago

read.abares • Rank 2.1 • Science 26%

Harvest data from Australian Bureau of Agricultural and Resource Economics and Sciences (ABARES) part of the Australian Department of Agriculture, Fisheries and Forestry for your work in R

Updated 9 months ago

kiwisR • Rank 14.8 • Science 13%

Provides a simplified method for bringing tidy data into R from KISTERS WISKI databases via KiWIS API.

Updated 9 months ago

osdg-data • Rank 4.7 • Science 23%

The OSDG Community Dataset (OSDG-CD) is a public dataset of thousands of text excerpts, validated by OSDG Community Platform (OSDG-CP) citizen scientists with respect to the Sustainable Development Goals (SDGs). The dataset is updated every quarter and published on Zenodo.

Updated 9 months ago

https://github.com/crsh/psych-transparency-guide • Rank 3.4 • Science 23%

Supplementary material for "A practical guide for transparency in psychological science" (find the paper at https://psyarxiv.com/rtygm/)

Updated 9 months ago

statnipokladna • Rank 10.1 • Science 13%

R package to use data from the Czech public finance database

Updated 9 months ago

https://github.com/inseefrlab/pynsee • Rank 6.7 • Science 13%

pynsee package contains tools to easily search and download French data from INSEE and IGN APIs

Updated 9 months ago

https://github.com/cdcgov/opencdc • Rank 5.8 • Science 13%

This is the repository for the openCDC web site. Entire site is generated from data files describing CDC Open Technology types for data, api, code, and events. All CDC programs are welcome to submit pull requests with updates and new items useful to the public health open source community.

Updated 9 months ago

https://github.com/catalyst-cooperative/pudl-scrapers • Rank 3.4 • Science 10%

Scrapers used to acquire snapshots of raw data inputs for versioned archiving and replicable analysis.

Updated 9 months ago

assam-tenders-data • Science 26%

Data mining repo for Open Contracting - Assam

Updated 9 months ago

inanspruchnahme_von_routineimpfungen_in_deutschland-ergebnisse_aus_der_kv-impfsurveillance • Science 49%

Dem Robert Koch-Institut (RKI) obliegt die Aufgabe, Daten zur Inanspruchnahme von Schutzimpfungen in der Bevölkerung in Deutschland zu erheben, aufzubereiten und national wie international zu berichten. Die wichtigste Datenquelle zur Berechnung von Impfquoten stellen die vertragsärztlichen Abrechnungsdaten dar, die von den Kassenärztlichen Verei...

Updated 9 months ago

gesundheitsberichterstattung_-_daten_zu_nichtuebertragbaren_erkrankungen • Science 67%

Die Gesundheitsberichterstattung (GBE) des RKI informiert regelmäßig über die gesundheitliche Situation der Bevölkerung in Deutschland. Das Themenspektrum ist vielfältig und reicht von Gesundheitszustand und Einflussfaktoren auf die Gesundheit über Gesundheitsförderung, Prävention und gesundheitliche Versorgung bis hin zu den damit verbundenen ...

Updated 9 months ago

gesundheit_in_deutschland_aktuell • Science 67%

Die Studie 'Gesundheit in Deutschland aktuell' (GEDA) ist eine Querschnittbefragung der deutschsprachigen erwachsenen Wohnbevölkerung im Alter ab 15 Jahren, die regelmäßig vom Robert Koch-Institut als Komponente des bundesweiten Gesundheitsmonitorings durchgeführt wird. [...]

Updated 9 months ago

scenarios • Science 44%

Analysis of resentencing eligibility results using Redo.io's open prison population datasets

Updated 9 months ago

appendix_potential_covid-19_test_fraud_detection • Science 67%

The methods and results of the publication "Potential COVID-19 test fraud detection: Findings from a pilot study comparing conventional and statistical approaches" are described in more detail in this appendix. The R-syntax for the calculation is provided, as well as a pseudo data set with which the syntax can also be tested.

Updated 9 months ago

sidb • Science 59%

Soil Incubation Database sidb

Updated 9 months ago

saniabidjan • Science 44%

Data about household survey of managing sanitation facilities in Abidjan, Cote d’Ivoire

Updated 9 months ago

burden_2020_-_krankheitslast_in_deutschland_und_seinen_regionen • Science 67%

Kennzahlen der Krankheitslast (engl. Burden of Disease) rücken für eine Vielzahl von Anwendungsmöglichkeiten, unter anderem im Öffentlichen Gesundheitsdienst des Bundes und der Länder, in Forschung, Entwicklung und anderen Bereichen des Gesundheitswesens, zunehmend in den Vordergrund. Sie erfassen den Gesundheitszustand einer Bevölkerung mit Hilfe

Updated 9 months ago

csv-conf-khoj • Science 57%

A presentation (for csv,conf,v7) on building a dataset around Indian High Court Judges

Updated 9 months ago

https://github.com/afsc-gap-products/gap_public_data • Science 31%

Public facing data for the Groundfish and Shellfish Assessment Program. https://afsc-gap-products.github.io/gap_products/content/foss-intro.html

Updated 9 months ago

ornithophile • Science 44%

🦜 Ornithophile is a powerful and elegant REST API providing detailed data on 11,290 bird species, including taxonomy, images, conservation status, and alphabetical filtering. Ideal for nature lovers, developers, and researchers.

Updated 9 months ago

https://github.com/antho8101/edicto • Science 26%

A public platform to publish, search, and archive official communications from verified organizations, with advanced search, real-time alerts, AI summaries, and immutable version history.

Updated 9 months ago

washinvestments • Science 67%

Dataset on multilateral development bank (MDB) investment in water supply and sanitation associated with the paper "Multilateral development banks investment behaviour in water and sanitation: Findings and lessons from 60 years of investment projects in Africa and Asia" (Heidler et al. 2023).

Updated 9 months ago

ugabore • Science 67%

Borehole repair data from central Uganda associated with a project report completed by Joseph Lwere for the “data science for openwashdata” course

Updated 9 months ago

watercostaccra • Science 67%

Data of household survey on water costs and coping strategies in Accra associated with a project report completed by Elizabeth Vicario for the “data science for openwashdata” course

Updated 9 months ago

observatorium_serologischer_studien_zu_sars-cov-2_in_deutschland • Science 67%

Die seit 2019 auftretende Infektionskrankheit COVID-19, hervorgerufen durch das neuartige SARS-CoV-2-Virus, führte zu gesundheitspolitischen und gesamtgesellschaftlichen Herausforderungen. Um geeignete Maßnahmen zur Eindämmung der Pandemie ergreifen zu können und neue Erkenntnisse über die Pandemie zu gewinnen, gibt es vermehrt Forschungsbedarfe zu COVID-19. Ein Ansatzpunkt hierfür sind die gewonnenen Blutproben von infizierten sowie von nicht infizierten Personen, die in Laboren auf Antikörper gegen das SARS-CoV-2-Virus getestet und analysiert werden. Sie geben Aufschluss über den Anteil der Bevölkerung, der bereits eine Infektion mit SARS-CoV-2 durchgemacht hat, und schließen dabei nicht erkannte Infektionen (Untererfassung) ein.<br/>Das Projekt 'Observatorium serologischer Studien zu SARS-CoV-2 in Deutschland' (SERO-OBS Corona) gibt eine Übersicht zu Antikörper-Studien (sogenannte seroepidemiologische Studien) in Deutschland. Die seroepidemiologischen Studien basieren auf Blutproben von Bürgerinnen und Bürgern, die zu unterschiedlichen Zeitpunkten der Pandemie auf Antikörper gegen das SARS-CoV-2-Virus getestet wurden. Dabei sollen z. B. folgende Fragen beantwortet werden: Wie ist die Häufigkeit von SARS-CoV-2-Infektionen in verschiedenen Bevölkerungsgruppen? Wie hoch ist der Untererfassungsfaktor, der zeigt, wie viel Mal mehr Infektionen im Vergleich zu den bislang bekannten (gemeldeten) Fällen aufgetreten sind? In dem vorliegenden Projekt werden in Deutschland durchgeführte seroepidemiologische Studien zu SARS-CoV-2 seit dem Frühjahr 2020 über systematische Recherchen in Studienregistern, Literaturdatenbanken einschließlich Vorveröffentlichungen sowie Medienberichten fortlaufend identifizier und Studieninformationen sowie Ergebnisübersichten verfügbar gemacht.

Updated 9 months ago

opendata_sandbox • Science 67%

This repository contains the code for the manuscript Ensemble-labeling of infectious diseases time series to evaluate early warning systems with which you can reproduce the manuscript's results and figures.