Projects | Open Source Science

Scientific Software

Updated 11 months ago

BetaML — Peer-reviewed • Rank 10.5 • Science 95%

BetaML: The Beta Machine Learning Toolkit, a self-contained repository of Machine Learning algorithms in Julia - Published in JOSS (2021)

ai artificial-intelligence autoencoder classification clustering data-science decision-trees deep-learning feature-importance imputation julia machine-learning ml neural-networks pca random-forest regression

Earth and Environmental Sciences (40%) Psychology (40%)

Scientific Software · Peer-reviewed

Updated 11 months ago

pypots • Rank 21.6 • Science 77%

A Python toolkit/library for reality-centric machine/deep learning and data mining on partially-observed time series, including SOTA neural network models for scientific analysis tasks of imputation/classification/clustering/forecasting/anomaly detection/cleaning on incomplete industrial (irregularly-sampled) multivariate TS with NaN missing values

anomaly-detection classification clustering data-analysis data-mining data-science deep-learning forecasting generation imputation machine-learning missing-values neural-networks pytorch time-series

Updated 11 months ago

synthpred • Rank 0.7 • Science 67%

A Julia package for synthetic data analysis, advanced imputation (ARIMA, RNN), AutoML, and ensemble modeling.

arima automl ensemble flux imputation julia machine-learning synthetic-data time-series

Updated 11 months ago

birdie • Rank 8.6 • Science 59%

Bayesian Instrumental Regression for Disparity Estimation

imputation r racial-disparities statistics

Updated 11 months ago

mice • Rank 22.6 • Science 36%

Multivariate Imputation by Chained Equations

chained-equations fcs imputation mice missing-data missing-values multiple-imputation multivariate-data

Updated 11 months ago

mifa • Rank 8.0 • Science 49%

An R package providing multiple Imputation of covariance matrices in order to perform factor analysis.

factor-analysis imputation rstats

Updated 11 months ago

missRanger • Rank 17.1 • Science 39%

Fast multivariate imputation by random forests.

imputation machine-learning missing-values r random-forest rstats

Updated 11 months ago

gap • Rank 16.9 • Science 36%

R packages

genetics imputation lmm

Updated 11 months ago

mitml • Rank 15.8 • Science 36%

Tools for multiple imputation in multilevel modeling

imputation missing-data mixed-effects multilevel-data multilevel-models r r-package

Updated 11 months ago

JointAI • Rank 15.8 • Science 26%

Joint Analysis and Imputation of generalized linear models and linear mixed models with missing values

bayesian generalized-linear-models glm glmm imputation imputations jags joint-analysis linear-mixed-models linear-regression-models mcmc-sample mcmc-sampling missing-data missing-values rstats survival

Updated 11 months ago

HIBAG • Rank 14.7 • Science 26%

R package – HLA Genotype Imputation with Attribute Bagging (development version only)

bioinformatics gpu hla imputation mhc r snp

Updated 11 months ago

miceFast • Rank 14.2 • Science 26%

R enviroment - fast imputations :dragon:

cpp fast fast-imputations grouping imputation imputations matrix mro multiple-imputation package r rcpp rcpparmadillo vif weighting

Updated 11 months ago

icellr • Rank 16.2 • Science 23%

Single (i) Cell R package (iCellR) is an interactive R package to work with high-throughput single cell sequencing technologies (i.e scRNA-seq, scVDJ-seq, scATAC-seq, CITE-Seq and Spatial Transcriptomics (ST)).

10xgenomics 3d batch-normalization cell-type-classification cite-seq clustering clustering-algorithm diffusion-maps dropout icellr imputation intractive-graph normalization pseudotime scrna-seq scvdj-seq singel-cell-sequencing umap

Updated 11 months ago

datawig • Rank 13.8 • Science 23%

Imputation of missing values in tables.

imputation missing-value-handling

Updated 11 months ago

ncdssm • Rank 4.0 • Science 28%

PyTorch implementation of the NCDSSM models presented in the ICML '23 paper "Neural Continuous-Discrete State Space Models for Irregularly-Sampled Time Series".

continuous-time forecasting icml-2023 imputation kalman-filter state-space-model time-series

Updated 11 months ago

imputeTS • Rank 18.3 • Science 13%

CRAN R Package: Time Series Missing Value Imputation

cran data-visualization imputation imputation-algorithm imputets missing-data time-series

Updated 11 months ago

disc • Rank 8.3 • Science 23%

A highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning.

deep-learning imputation semi-supervised-learning single-cell transcriptome

Updated 11 months ago

https://github.com/markvanderloo/simputation • Rank 15.8 • Science 13%

Making imputation easy

data-science imputation officialstatistics r rstats

Updated 11 months ago

yaImpute • Rank 12.4 • Science 13%

Nearest neighbor-based imputation on multivariate data

cran imputation r r-package rstats

Updated 11 months ago

mlim • Rank 10.1 • Science 10%

mlim: single and multiple imputation with automated machine learning

automatic-machine-learning automl classimbalance data-science elastic-net extreme-gradient-boosting gbm glm gradient-boosting gradient-boosting-machine imputation imputation-algorithm imputation-methods machine-learning missing-data multipleimputation r rstats rstats-package stack-ensemble

Updated 11 months ago

RfEmpImp • Rank 7.5 • Science 10%

Multiple Imputation using Chained Random Forests

imputation missing-data random-forest

Updated 11 months ago

https://github.com/exascaleinfolab/imputegap • Science 36%

ImputeGAP: A library of Imputation Techniques for Time Series Data

auto-ml explainer imputation missing-value-imputation missing-values time-series

Updated 11 months ago

https://github.com/cran-task-views/missingdata • Science 26%

CRAN Task View: Missing Data

cran imputation missing-data r rstats task-views

Updated 11 months ago

localFDA • Science 10%

Localization processes for functional data analysis. Software companion for the paper “Localization processes for functional data analysis” by Elías, A., Jiménez, R., and Yukich, J. (2020)

classification functional-data-analysis imputation outliers-detection

Updated 11 months ago

multimput • Science 67%

multimput is an R package that assists with analysing dataset with missing values using multiple imputation.

imputation imputation-model package r

Updated 11 months ago

jamie • Science 36%

Joint variational Autoencoders for Multimodal Imputation and Embedding (JAMIE)

autoencoder imputation integration multimodal variational variational-autoencoder

Updated 11 months ago

phaseimpute • Science 44%

A bioinformatics pipeline to phase and impute genetic data

genomics genotype imputation low-pass-sequencing phasing pipeline

Updated 11 months ago

saits • Science 67%

The official PyTorch implementation of the paper "SAITS: Self-Attention-based Imputation for Time Series". A fast and state-of-the-art (SOTA) deep-learning neural network model for efficient time-series imputation (impute multivariate incomplete time series containing NaN missing data/values with machine learning). https://arxiv.org/abs/2202.08516

attention attention-mechanism deep-learning imputation imputation-model impute incomplete-data incomplete-time-series interpolation irregular-sampling machine-learning missing-values partially-observed partially-observed-data partially-observed-time-series pytorch self-attention time-series time-series-imputation transformer

Updated 11 months ago

nf-gwas • Science 65%

A nextflow pipeline to perform state-of-the-art genome-wide association studies.

gwas imputation nextflow regenie singularity slurm

Updated 11 months ago

tsdb • Science 67%

a Python toolbox loads 172 public time series datasets for machine/deep learning with a single line of code. Datasets from multiple domains including healthcare, financial, power, traffic, weather, and etc.

classification data-mining database deep-learning forecasting imputation machine-learning partially-observed-time-series time-series time-series-analysis time-series-database time-series-datasets

Updated 11 months ago

https://github.com/arvkevi/openhumansimputer • Science 26%

Imputation pipeline for Open Humans

genomics imputation open-data open-science

Updated 11 months ago

trefle • Science 23%

Imputing the mammalian virome with the LF-SVD model

imputation svd verena virology zoonotic-disease

Updated 11 months ago

pygrinder • Science 67%

PyGrinder: a Python toolkit for grinding data beans into the incomplete for real-world data simulation by introducing missing values with different missingness patterns, including MCAR (complete at random), MAR (at random), MNAR (not at random), sub sequence missing, and block missing

block data-mining data-science imputation interpolation machine-learning mar mcar missing-data missing-mechanism missing-pattern missing-values missingness mnar pattern-recognition python sequence synthetic

Updated 11 months ago

swansf-datapreprocessing-sampling-notebooks • Science 57%

These notebooks provide a comprehensive workflow, from start to finish, for processing and analyzing the SWAN-SF dataset. They include detailed steps for reading the dataset files, performing full preprocessing, and executing classification.

data-preprocessing deep-learning gru imputation lstm machine-learning multivariate-timeseries normalization pandas python sampling smote solar-flare-prediction time-series-analysis time-series-classification timegan