GitHub / techiaith 6 projects
Uned Technolegau Iaith / Language Technologies Unit
Uned ymchwil hunan-gynhaliol sy’n datblygu technolegau ar gyfer y Gymraeg / A self-funded research unit that develops technologies for the Welsh language
Projects
brawddegau-tagiedig
Corpws o frawddegau CC0 mewn fformat jsonl, gyda rhannau ymadrodd y tocynnau (geiriau etc.) wedi'u tagio â thagiau Universal Dependencies. // A Corpus of CC0 sentences in the jsonl format, tagged with Universal Dependency part-of-speech tags.
anonymeiddiwr-beta
Anonymeiddiwr Beta ar gyfer testunau dwyieithog Saesneg-Cymraeg a thestunau Cymraeg uniaith.
spacy
Mae spaCy yn llyfrgell ar gyfer Prosesu Iaith Naturiol uwch yn Python a Cython. // spaCy is a library for advanced Natural Language Processing in Python and Cython.
lecsicon-cymraeg-bangor
Lecsicon cynhwysfawr o eirffurfiau'r Gymraeg yn seiliedig ar ddata gwirydd sillafu a gramadeg Cysill // A comprehensive lexicon of Welsh-language wordforms based on data from the Cysill spelling and grammar checker
corpws-meincnodi-rhannau-ymadrodd
Corpws ar gyfer meincnodi tagwyr rhannau ymadrodd Cymraeg | A corpus for benchmarking Welsh part-of-speech taggers
corpws-cc0
Corpws o frawddegau o destun Cymraeg wedi'u trwyddedu o dan drwydded CC0 | A corpus of Welsh texts licensed under the CC0 licence