Projects | Open Source Science

Updated 10 months ago

openrefine-ecology-lesson • Rank 8.0 • Science 77%

Data Cleaning with OpenRefine for Ecologists

carpentries data-carpentry data-cleaning data-management ecology english lesson open-educational-resources openrefine stable

Updated 10 months ago

arkhe • Rank 3.0 • Science 77%

Tools for cleaning rectangular data - :exclamation: This is a read-only mirror from https://codeberg.org/tesselle/arkhe

data-cleaning r-package statistics

Updated 10 months ago

pytrack • Rank 8.9 • Science 67%

a Map-Matching-based Python Toolbox for Vehicle Trajectory Reconstruction

computer-vision data-cleaning gps-tracker graph intelligent-transportation-systems map-match map-matching maps network-graph networkx openstreetmap python snapping street-view topology tracking trajectory-analysis visualization

Updated 10 months ago

datasetops • Rank 8.4 • Science 57%

Fluent dataset operations, compatible with your favorite libraries

data-cleaning data-munging data-processing data-science data-wrangling dataset dataset-combinations deep-learning multiple-datasets pytorch tensorflow

Updated 10 months ago

authoritative • Rank 8.5 • Science 44%

Clean Author Names from R Packages DESCRIPTION Files

data-cleaning data-extraction r r-package

Updated 10 months ago

dataMaid • Rank 14.0 • Science 36%

An R package for data screening

data-cleaning data-screening reproducible-research

Updated 10 months ago

mde • Rank 13.7 • Science 36%

mde: Missing Data Explorer

data-analysis data-cleaning data-exploration data-science datacleaner datacleaning exploratory-data-analysis missing missing-data missing-value-treatment missing-values missingness omit r r-package r-stats recode replace rstats statistics

Updated 10 months ago

janitor • Rank 23.8 • Science 23%

simple tools for data cleaning in R

data-analysis data-cleaning data-science dirty-data excel pivot-tables r spss tabulations tidyverse

Updated 10 months ago

groomr • Rank 1.4 • Science 44%

🧹 Tidy Tools

data-cleaning data-munging r r-package string-manipulation

Updated 10 months ago

validate • Rank 19.5 • Science 23%

Professional data validation for the R environment

data-cleaning r validation

Updated 10 months ago

https://github.com/johnkerl/miller • Rank 13.3 • Science 26%

Miller is like awk, sed, cut, join, and sort for name-indexed data such as CSV, TSV, and tabular JSON

command-line command-line-tools csv csv-format data-cleaning data-processing data-reduction data-regression devops devops-tools json json-data miller statistical-analysis statistics streaming-algorithms streaming-data tabular-data tsv unix-toolkit

Updated 10 months ago

taxa • Rank 18.3 • Science 13%

taxonomic classes for R

data-cleaning r r-package rstats taxon taxonomy

Updated 10 months ago

https://github.com/buchananja/dpyp • Rank 4.4 • Science 26%

A convenience tool for small-scale data pipelines in Python

data data-analysis data-cleaning data-engineering data-pipeline data-preprocessing data-processing data-science pandas pipeline

Updated 10 months ago

synr • Rank 6.4 • Science 23%

An R package for handling synesthesia consistency test data. Explore, validate and summarize data.

data-cleaning synesthesia

Updated 10 months ago

errorlocate • Rank 15.0 • Science 13%

Find and replace erroneous fields in data using validation rules

data-cleaning errors invalidation r

Updated 10 months ago

deductive • Rank 12.6 • Science 13%

Methods for deductive data correction and imputation

data-cleaning r

Updated 10 months ago

rotating-photo-tree • Rank 0.0 • Science 18%

An example lesson repository for use in lesson template screencasts

carpentries-incubator data-cleaning english lesson meteorology pre-alpha python

Updated 10 months ago

https://github.com/baimamboukar/python_data_cleaning • Rank 1.4 • Science 13%

Data cleaning automation for emails in csv and excel files

automation csv data-cleaning excel oop-principles python3

Updated 9 months ago

https://github.com/erictleung/2017-new-coder-survey • Rank 1.1 • Science 13%

:beginner: Code to help clean and format the 2017 New Coder Survey by freeCodeCamp

coder-survey data data-cleaning dplyr freecodecamp

Updated 9 months ago

https://github.com/erictleung/2018-new-coder-survey • Rank 1.1 • Science 13%

:beginner: Code to wrangle data from the 2018 New Coder Survey by freeCodeCamp

data data-cleaning dataset freecodecamp new-coders-survey programmers

Updated 10 months ago

fastqrepair • Science 57%

A pipeline that can be used to recover corrupted FASTQ.gz files, drop or fix uncompliant reads, remove unpaired reads, and settles reads that became disordered

corruption data-cleaning data-recovery fastq fastq-corrupted fastq-format nextflow nf-core pipeline reads-interleaving recovery-tool unpaired-reads well-formed workflow

Updated 10 months ago

https://github.com/cdcgov/clean-genes • Science 26%

A rust crate that automatically cleans up a gene alignment by trimming to ORF and identifying and/or removing problematic sequences.

bioinformatics cdc-influenza-division data-cleaning data-normalisation data-normalization data-science fasta ncird ncird-id sequence-alignment sequence-analysis sequence-annotation

Updated 10 months ago

mrclean-greedy • Science 52%

A greedy algorithm for cleaning a data file.

cpp data-cleaning discrete-optimization greedy-algorithms

Updated 10 months ago

openrefine-socialsci • Science 54%

OpenRefine for Social Science Data

carpentries data-carpentry data-cleaning data-management english hacktoberfest lesson open-educational-resources openrefine social-sciences stable

Updated 10 months ago

https://github.com/OpenDCAI/DataFlow • Science 26%

Easy Data Preparation with latest LLMs-based Operators and Pipelines.

data data-agent data-cleaning data-pipelines data-processing data-science data-synthesis gradio-interface llms operators quick-data-processing sglang-bankend vllm-backend

Updated 10 months ago

openrefine-humanities-lesson • Science 31%

Open Refine for Humanities

alpha carpentries carpentries-incubator data-cleaning data-management digital-humanities english lesson openrefine

Updated 10 months ago

https://github.com/desbordante/desbordante-core • Science 49%

Desbordante is a high-performance data profiler that is capable of discovering many different patterns in data using various algorithms. It also allows to run data cleaning scenarios using these algorithms. Desbordante has a console version and an easy-to-use web application.

anomaly-detection correlations data-analytics data-cleaning data-cleansing data-engineering data-exploration data-mining data-mining-algorithms data-preprocessing data-profiling data-science data-wrangling exploratory-data-analysis feature-engineering feature-extraction feature-selection knowledge-discovery spreadsheets tabular-data

Updated 10 months ago

https://github.com/climerlab/mrclean-nomiss • Science 13%

cplex cpp data-cleaning discrete-optimization integer-linear-programming

Updated 10 months ago

mierda • Science 57%

The Multidimensional Insufficient Effort Responding Detection Approach (mIERda) for Psychometric and Survey Data

careless-responders data-cleaning insufficient-effort-responding survey-data-quality

Updated 10 months ago

equitystack • Science 49%

A structured repository of Python scripts and Jupyter notebooks for development sector data workflows — including public health, gender equity, women's economic empowerment (WEE), education, and MEL (Monitoring, Evaluation, and Learning). Includes plug-and-play templates, sample data, test coverage, and Colab-ready execution.

colab data-analysis data-cleaning development-economics education evaluation gender jupyter-notebook mle open-data public-health python reproducibility wee

Updated 10 months ago

lc-open-refine • Science 67%

Library Carpentry: OpenRefine

carpentries data-cleaning data-management english lesson library-carpentry open-educational-resources openrefine stable

Updated 10 months ago

pydvl • Science 36%

pyDVL is a library of stable implementations of algorithms for data valuation and influence function computation

banzhaf-index data-centric-ai data-cleaning data-pruning data-quality data-valuation game-theory influence-functions least-core machine-learning robust-machine-learning shapley-value transferlab

Updated 10 months ago

cleanepi • Science 67%

R package to clean and standardize epidemiological data

data-cleaning epidemiology epiverse r r-package

Updated 10 months ago

https://github.com/csu-agricultural-water-quality-program/als-data-cleaning-tool • Science 26%

A coding tool developed in R to take water analysis results exported from the ALS WEBTRIEVE™ data portal. Exported data are cleaned, merged, and exported into archiving (e.g., CSV) or visual (e.g., HTML) formats.

data-cleaning data-visualization water-quality

Updated 10 months ago

mrclean • Science 52%

Two Mixed Integer Programs for cleaning a data file.

cplex cpp data-cleaning data-cleansing discrete-optimization integer-linear-programming mixed-integer-programming

Updated 10 months ago

datalark • Science 54%

Like the mudlark finding treasures on the foreshore, the datalark seeks treasures hidden within messy data!

data-cleaning data-preparation data-preprocessing data-transformation rstats-package

Updated 10 months ago

cleansumstats • Science 54%

Convert GWAS sumstat files into a common format with a common reference for positions, rsids and effect alleles.

data-cleaning gwas nextflow pipeline

Updated 10 months ago

data2neo • Science 54%

Data2Neo is a library that simplifies the conversion of data in relational format to a graph knowledge database.

data-cleaning data-conversion data-engineering data2neo database-migrations graphs neo4j relational-databases remodeling

Updated 10 months ago

tutorials-early • Science 44%

Tutorials to learn reading, cleaning and validating case data, and converting line list data to incidence for visualizing epidemic curves.

carpentries-workbench data-cleaning data-validation data-visualization english-language epiverse exploratory-data-analysis outbreak-analysis rstats

Updated 10 months ago

stata-economics • Science 18%

Economics Lesson with Stata

carpentries data-carpentry data-cleaning data-wrangling economics english lesson pre-alpha stata