Projects | Open Source Science

Scientific Software

Updated 10 months ago

textnets — Peer-reviewed • Rank 13.9 • Science 100%

textnets: A Python package for text analysis with networks - Published in JOSS (2020)

computational-social-science network-analysis nlp sociology text-analysis text-as-data visualization

Mathematics

Scientific Software · Peer-reviewed

Scientific Software

Updated 10 months ago

jstor — Peer-reviewed • Rank 16.6 • Science 93%

jstor: Import and Analyse Data from Scientific Texts - Published in JOSS (2018)

jstor peer-reviewed r r-package rstats text-analysis text-mining

Scientific Software · Peer-reviewed

Scientific Software

Updated 10 months ago

corporaexplorer — Peer-reviewed • Rank 14.8 • Science 93%

corporaexplorer: An R package for dynamic exploration of text collections - Published in JOSS (2019)

corpora corpus r shiny text-analysis

Scientific Software · Peer-reviewed

Scientific Software

Updated 10 months ago

TRUNAJOD — Peer-reviewed • Rank 12.2 • Science 95%

TRUNAJOD: A text complexity library to enhance natural language processing - Published in JOSS (2021)

coherence cohesion entity-graph lexical-diversity natural-language-processing readability-metrics semantic-measurements spacy spacy-extensions text-analysis text-mining text-processing ttr type-token-ratio

Engineering

Scientific Software · Peer-reviewed

Updated 10 months ago

cntext • Rank 12.3 • Science 67%

text analysis, supporting multiple methods including word count, readability, document similarity, sentiment analysis, Word2Vec/GloVe, and Large Language Models (LLMs).文本分析包，支持字数统计、可读性、文档相似度、情感分析在内的多种文本分析方法。

chinese content-analysis discourse-analysis glove llm nlp semantic-analysis sentiment-analysis social-science text-analysis text-mining word2vec

Updated 10 months ago

constituent-treelib • Rank 4.9 • Science 67%

A lightweight Python library for constructing, processing, and visualizing constituent trees.

constituency-parser constituency-tree constituent-structure constituent-tree-parser constituents export-to-pdf feature-extraction linguistic-analysis nlp-parsing noun-phrase-extract parse-tree-visualization phrase-extraction text-analysis text-analytics text-visualization verb-phrase-extract

Updated 10 months ago

LSX • Rank 11.5 • Science 59%

Semi-supervised algorithm for document scaling

lsa quanteda sentiment-analysis text-analysis

Updated 10 months ago

rainette • Rank 11.2 • Science 59%

R implementation of the Reinert text clustering method

r text-analysis text-classification

Updated 10 months ago

contextgem • Rank 15.2 • Science 44%

ContextGem: Effortless LLM extraction from documents

ai contract-analysis data-extraction document-intelligence docx docx2md docx2txt generative-ai legaltech llm llm-extraction llm-framework llm-pipeline llms nlp prompt-engineering text-analysis unstructured-data

Updated 10 months ago

obsei • Rank 15.0 • Science 44%

Obsei is a low code AI powered automation tool. It can be used in various business flows like social listening, AI based alerting, brand image analysis, comparative study and more .

anonymization artificial-intelligence business-process-automation customer-engagement customer-support issue-tracking-system low-code lowcode natural-language-processing nlp process-automation python sentiment-analysis social-listening social-network-analysis text-analysis text-analytics text-classification workflow workflow-automation

Updated 10 months ago

occupationcoder • Rank 9.9 • Science 44%

Given a job title and job description, the algorithm assigns a standard occupational classification (SOC) code to the job.

economics jobs python soc text-analysis tf-idf vacancies

Updated 10 months ago

align • Rank 13.1 • Science 36%

Python library for extracting quantitative, reproducible metrics of multi-level alignment between speakers in naturalistic language corpora.

conversation-analysis corpus-tools linguistic-alignment linguistic-analysis ngram-analysis nltk notebooks python text-analysis word2vec

Updated 10 months ago

newsmap • Rank 13.4 • Science 33%

Semi-supervised algorithm for geographical document classification

machine-learning news-stories quanteda text-analysis

Updated 10 months ago

qdap • Rank 18.4 • Science 23%

Quantitative Discourse Analysis Package: Bridging the gap between qualitative data and quantitative analysis

qdap quantitative-discourse-analysis text-analysis text-mining text-plotting

Updated 10 months ago

textclean • Rank 15.8 • Science 23%

Tools for cleaning and normalizing text data

data-munging emoticons r regex text-analysis text-cleaning

Updated 10 months ago

https://github.com/brucewlee/lftk • Rank 11.0 • Science 23%

[BEA @ ACL 2023] General-purpose tool for linguistic features extraction; Tested on readability assessment, essay scoring, fake news detection, hate speech detection, etc.

bea-workshop feature-extraction handcrafted-features linguistic-features natural-language-processing python readability-scores reading-time spacy text-analysis word-difficulty

Updated 10 months ago

stylest • Rank 10.0 • Science 23%

R package for estimating speaker style distinctiveness in texts. Install it from CRAN!

classification r text-analysis

Updated 10 months ago

lingmatch • Rank 8.8 • Science 23%

An all-in-one R package for the assessment of linguistic similarity

nlp r rcpp text-analysis

Updated 10 months ago

https://github.com/cahya-wirawan/text-classification • Rank 2.4 • Science 26%

Text Classification engine using several algorithms in machine learning

bayesian machine-learning svm tensorflow text-analysis text-classification

Updated 10 months ago

trace • Science 44%

TRACE - Text Reuse Analysis and Comparison Engine

information-retrieval natural-language-processing network-analysis nlp semantic-similarity text-analysis text-reuse

Updated 10 months ago

wtt • Science 57%

The Word-Text-Topic (WTT) extraction approach, implemented in Python and R.

published social-sciences text-analysis

Updated 4 months ago

anvay: A Web-based Tool for Interpretive Topic Modelling in Bengali • Science 87%

anvay: A Web-based Tool for Interpretive Topic Modelling in Bengali - Published in JOSS (2026)

bengali digital-humanities flask gensim lda text-analysis topic-modelling

Updated 8 months ago

https://github.com/hidadeng/chinese-pretrained-word-embeddings • Science 26%

中文文本分析工具、语料、预训练模型相关资源汇总。

chinese cntext cntext2x corpus glove glove-model knowledge-graph nlp python text-analysis word2vec word2vec-model

Updated 10 months ago

https://github.com/chainsawriot/textplex • Science 13%

Calculate textual complexity using the algorithm by Tolochko & Boomgaarden (2019).

r text-analysis

Updated 10 months ago

python-text-analysis • Science 26%

Text Analysis with Python

carpentries-incubator english hacktoberfest lesson pre-alpha python text-analysis

Updated 10 months ago

i-analyzer • Science 67%

The great textmining tool that obviates all others

corpus-linguistics corpus-search digital-history digital-humanities elasticsearch literary-studies text-analysis

Updated 10 months ago

https://github.com/sergeyklay/clusterium • Science 13%

Text Clustering Toolkit for Bayesian Nonparametric Analysis

bayesian-analysis clustering data-science dirichlet-process embeddings machine-learning natural-language-processing nlp pitman-yor-process power-law sentence-transformers text-analysis

Updated 10 months ago

https://github.com/chainsawriot/rectr • Science 26%

💒 Reproducible Extraction of Cross-lingual Topics using R

r text-analysis topic-model

Updated 10 months ago

architxt • Science 44%

ArchiTXT is an open source Python library that transforms unstructured text into structured, searchable, and AI-ready data. It enables automated database generation and seamless data integration.

architxt data-analysis database nlp open-source python python-library research structured-data text-analysis text-mining

Updated 10 months ago

taguette • Science 54%

Free and open source qualitative research tool -- MIRROR OF GITLAB REPOSITORY

hacktoberfest highlighting notes qualitative-analysis research-tool tagging tags text-analysis

Updated 8 months ago

https://github.com/hidadeng/hidadeng • Science 26%

github介绍页

chinese chinese-nlp cntext embeddings glove management-science ollama python social-science text-analysis word2vec

Updated 10 months ago

universitatespodcastdata • Science 67%

An R package for downloading, extracting, and analyzing interview transcripts from the Universitates podcast series. It provides tools for data processing, searching, and visualization

data-collection data-processing podcast r r-package russian-language text-analysis web-scraping

Updated 10 months ago

iramuteqlike • Science 26%

💬⛏️ IRaMuTeQ Software Analyses in R

iramuteq qualitative-analysis r r-package rstats text-analysis text-mining

Updated 10 months ago

corpusexplorer.sdk • Science 44%

Korpuslinguistik war noch nie so einfach...

big-data cleaning-data cooccurrence corpus-linguistics corpus-processing data-minig data-mining data-science datajournalism journalism linguistics natural-language-processing natural-language-understanding nlp sdk tagger text-analysis text-mining text-processing visualization