Projects

Projects

Updated 6 months ago

dpo-rlhf-paraphrase-types • Science 67%

Enhancing paraphrase-type generation using Direct Preference Optimization (DPO) and Reinforcement Learning from Human Feedback (RLHF), with large-scale HPC support. This project aligns model outputs to human-ranked data for robust, safety-focused NLP.

alignment deep-learning direct-preference-optimization human-feedback paraphrase-generation paraphrase-type-generation reinforcement-learning transformers

Updated 5 months ago

https://github.com/cluebbers/adverserial-paraphrasing • Science 26%

Evaluate how LLaMA 3.1 8B handles paraphrased adversarial prompts targeting refusal behavior.

deep-learning direct-preference-optimization redteam reinforcement-learning

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science

dpo-rlhf-paraphrase-types • Science 67%

https://github.com/cluebbers/adverserial-paraphrasing • Science 26%