Projects

Updated 10 months ago

kglab • Rank 15.8 • Science 67%

Graph Data Science: an abstraction layer in Python for building knowledge graphs, integrated with popular graph libraries – atop Pandas, NetworkX, RAPIDS, RDFlib, pySHACL, PyVis, morph-kgc, pslpython, pyarrow, etc.

graph-algorithms graph-libraries graph-thinking inference json-ld knowledge-graph networkx owl pandas parquet python-igraph pyvis r2rml-mapping rapids rdflib shacl skos sparql

Updated 10 months ago

arrow • Rank 40.7 • Science 36%

Apache Arrow is the universal columnar format and multi-language toolbox for fast data interchange and in-memory analytics

arrow parquet

Updated 10 months ago

https://github.com/dathere/qsv • Rank 24.7 • Science 49%

Blazing-fast Data-Wrangling toolkit

ai ckan csv data-engineering data-wrangling dcat excel fair-data geocode luau metadata opendata parquet polars postgresql sampling sql sqlite statistics timeseries

Updated 10 months ago

https://github.com/catalyst-cooperative/pudl-examples • Rank 5.3 • Science 36%

Example Jupyter notebooks hosted on Kaggle that demonstrate how to work with US energy data from PUDL.

data data-science electricity energy energy-data example jupyter jupyter-notebook jupyterlab kaggle natural-gas parquet pudl python sqlite tutorial

Updated 10 months ago

https://github.com/madesroches/micromegas • Rank 5.7 • Science 26%

Scalable Observability

apache-arrow datafusion fdap flight-sql logging metrics observability parquet python rust time-series traces unreal-engine-5

Updated 10 months ago

https://github.com/catalyst-cooperative/pudl-catalog • Rank 7.9 • Science 23%

An Intake catalog for distributing open energy system data liberated by Catalyst Cooperative.

data-catalog database eia electricity energy epa ferc intake natural-gas open-data parquet public-data pudl python sql sqlite utility

Updated 10 months ago

hybridbackend • Science 54%

A high-performance framework for training wide-and-deep recommender systems on heterogeneous cluster

deep-learning gpu hybrid-parallelism parquet recommender-system

Updated 10 months ago

https://github.com/crowdstrike/kafka-replicator • Science 13%

Kafka replicator is a tool used to mirror and backup Kafka topics across regions

aws kafka parquet replication s3

Updated 10 months ago

https://github.com/bigbio/pgatk-io • Science 13%

High performance io library for proteogenomics

fileformats mass-spectrometry parquet proteogenomics proteomics spark

Updated 10 months ago

https://github.com/rumbledb/rumble • Science 36%

⛈️ RumbleDB 2.0.0 "Lemon Ironwood" 🌳 for Apache Spark | Run queries on your large-scale, messy JSON-like data (JSON, text, CSV, Parquet, ROOT, AVRO, SVM...) | No install required (just a jar to download) | Declarative Machine Learning and more

avro azure csv data-science dataframes hdfs json jsoniq machine-learning nested parquet query query-engine s3 scale schemaless spark svm text yaml

Updated 10 months ago

https://github.com/apecloud/myduckserver • Science 13%

Unified MySQL, Postgres & FlightSQL Server, Powered by DuckDB.

analytics arrow business-analytics business-intelligence columnar-storage data-engineering data-science database duckdb htap mariadb mysql olap pandas parquet polars postgres replication sql zero-etl

Updated 10 months ago

nanoparquet • Science 26%

R package to read and write Parquet files

parquet r

Updated 10 months ago

legalkit-pipeline • Science 44%

Publication pipeline for French legal codes on 🤗 Datasets from LegiFrance with concurrent upload and dynamic REAMDE.md.

data datasets huggingface huggingface-datasets legal legaltech legifrance open-source parquet piste-api python

Updated 10 months ago

https://github.com/awslabs/amazon-s3-find-and-forget • Science 26%

Amazon S3 Find and Forget is a solution to handle data erasure requests from data lakes stored on Amazon S3, for example, pursuant to the European General Data Protection Regulation (GDPR)

amazon-s3 aws big-data ccpa data data-erasure data-lake gdpr parquet privacy right-to-be-forgotten s3

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science

kglab • Rank 15.8 • Science 67%

arrow • Rank 40.7 • Science 36%

https://github.com/dathere/qsv • Rank 24.7 • Science 49%

https://github.com/catalyst-cooperative/pudl-examples • Rank 5.3 • Science 36%

https://github.com/madesroches/micromegas • Rank 5.7 • Science 26%

https://github.com/catalyst-cooperative/pudl-catalog • Rank 7.9 • Science 23%

hybridbackend • Science 54%

https://github.com/crowdstrike/kafka-replicator • Science 13%

https://github.com/bigbio/pgatk-io • Science 13%

https://github.com/rumbledb/rumble • Science 36%

https://github.com/apecloud/myduckserver • Science 13%

nanoparquet • Science 26%

legalkit-pipeline • Science 44%

https://github.com/awslabs/amazon-s3-find-and-forget • Science 26%