https://github.com/linuxscout/mishtar
Mishtar: Named and temporal entities chunker
Science Score: 13.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
○CITATION.cff file
-
✓codemeta.json file
Found codemeta.json file -
○.zenodo.json file
-
○DOI references
-
○Academic publication links
-
○Committers with academic emails
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (7.8%) to scientific vocabulary
Keywords
Repository
Mishtar: Named and temporal entities chunker
Basic Info
Statistics
- Stars: 13
- Watchers: 3
- Forks: 2
- Open Issues: 1
- Releases: 0
Topics
Metadata Files
README.md
مشطار: استخلاص المسميات والعبارات الزمنية Mishtar: Named and temporal entities chunker
استخلاص العبارات الاسمية والزمنية من النص مفيدة للتحليل النحوي، Chunking is to extract named entities and temporal expression.
Developpers: Taha Zerrouki: http://tahadz.com taha dot zerrouki at gmail dot com
Features | value ------------|----------- Authors | Taha Zerrouki: http://tahadz.com, taha dot zerrouki at gmail dot com Release | 0.3 License |GPL Tracker |linuxscout/mishtar/Issues Website |https://pypi.python.org/pypi/mishtar Source |Github Feedbacks |Comments Accounts |@Twitter @Sourceforge
مزايا
- استخلاص المسميات
- استخلاص العبارات الزمنية (تواريخ ميلادية وهجرية، ونسبية)
Features
- Extract named entities
- Extract Tempral expressions
Applications
- Text mining.
- Text summarizing.
- Sentences identification.
- Grammar analysis.
- Morphological analysis acceleration.
- Extraction of ngrams..
تطبيقات
- التنقيب عن المعلومات.
- تلخيص النص.
- التعرف على الجمل.
- التحليل النحوي.
- تسريع التحليل الصرفي.
- استخراج المصطلحات والمسكوكات والمتلازمات.
Demo جرّب
يمكن التجربة على موقع مشكال
، اختر أدوات، ثم استخلاص ثم المكونات
You can test it on Mishkal Site, choose: Tool > extraction > Entities

Installation
pip install mishtar
Usage
python
import mishtar.mynamed as mynamed
* Example Test named entities
python
import mishtar.mynamed
import pyarabic.araby as araby
TEXTS = [
u"جاء خالد بن الوليد وقاتل مسيلمة بن حذام الكذاب في موقعة الحديقة",
u'''روى أحمد بن عقيل الشامي عن أبي طلحة
المغربي أنّ عقابا بن مسعود بن أبي سعاد قال''',
u"صرّح الأمير تشارلز الأول",
]
chunker = mishtar.mynamed.myNamed()
for text1 in TEXTS:
word_list = araby.tokenize(text1)
tag_list2 = chunker.detect_chunks(word_list)
result = chunker.pretashkeel(word_list)
print("tashkeel", (u' '.join(result)))
tuples = (zip(tag_list2, word_list))
for tup in tuples:
print(tup)
****Result ****
المغربي أنّ عقابا بْنَ مسعود بْنِ أبي سعاد قال
(u'0', u'روى')
('NB', u'أحمد')
('NI', u'بن')
('NI', u'عقيل')
('NI', u'الشامي')
(u'0', u'عن')
('NB', u'أبي')
('NI', u'طلحة')
(u'0', u'')
(u'0', u'المغربي')
(u'0', u'أنّ')
('NB', u'عقابا')
('NI', u'بن')
('NI', u'مسعود')
('NI', u'بن')
('NI', u'أبي')
('NI', u'سعاد')
(u'0', u'قال')
tashkeel صرّح الأمير تشارلز الأول
(u'0', u'صرّح')
(u'0', u'الأمير')
(u'0', u'تشارلز')
(u'0', u'الأول')
- Test Temporal expressions
```python import pyarabic.araby as araby import mishtar.mytemped as mytemped texts =[ '* قسم واحد فقط: شهر نوفمبر سنة 2015، ', u'* قسمين : شهر أكتوبر 1973، الخامس من نوفمبر، ', u'* ثلاثة اقسام: يوم الجمعة الخامس عشر من شهر رمضان سنة 1435 هجرية.', ] chunker = mytemped.myTemped() for text1 in texts: wordlist = araby.tokenize(text1) taglist2 = chunker.detectchunks(wordlist) print(text1)
tuples = (zip(tag_list2, word_list))
for tup in tuples:
print(tup)
**Result ** * قسم واحد فقط: شهر نوفمبر سنة 2015، (u'0', u'') (u'0', u'قسم') (u'0', u'واحد') (u'0', u'فقط') (u'0', u':') (u'NB', u'شهر') (u'NI', u'نوفمبر') (u'NB', u'سنة') (u'NI', u'2015') (u'0', u'،') * قسمين : شهر أكتوبر 1973، الخامس من نوفمبر، (u'0', u'') (u'0', u'قسمين') (u'0', u':') (u'NB', u'شهر') (u'NI', u'أكتوبر') (u'NI', u'1973') (u'0', u'،') (u'NB', u'الخامس') (u'NI', u'من') (u'NI', u'نوفمبر') (u'0', u'،') * ثلاثة اقسام: يوم الجمعة الخامس عشر من شهر رمضان سنة 1435 هجرية. (u'0', u'*') (u'0', u'ثلاثة') (u'0', u'اقسام') (u'0', u':') (u'NB', u'يوم') (u'NI', u'الجمعة') (u'NI', u'الخامس') (u'NI', u'عشر') (u'NI', u'من') (u'NI', u'شهر') (u'NI', u'رمضان') (u'NB', u'سنة') (u'NI', u'1435') (u'NI', u'هجرية') (u'0', u'.')
```
Owner
- Name: Taha Zerrouki (طه زروقي )
- Login: linuxscout
- Kind: user
- Location: Bouira, Algeria
- Company: Bouira University
- Website: tahadz.com
- Twitter: linuxscout
- Repositories: 22
- Profile: https://github.com/linuxscout
PhD, Computer Science Professor, Interest : Arabic Natural Language processing
GitHub Events
Total
Last Year
Issues and Pull Requests
Last synced: 5 months ago
All Time
- Total issues: 1
- Total pull requests: 0
- Average time to close issues: N/A
- Average time to close pull requests: N/A
- Total issue authors: 1
- Total pull request authors: 0
- Average comments per issue: 0.0
- Average comments per pull request: 0
- Merged pull requests: 0
- Bot issues: 0
- Bot pull requests: 0
Past Year
- Issues: 0
- Pull requests: 0
- Average time to close issues: N/A
- Average time to close pull requests: N/A
- Issue authors: 0
- Pull request authors: 0
- Average comments per issue: 0
- Average comments per pull request: 0
- Merged pull requests: 0
- Bot issues: 0
- Bot pull requests: 0
Top Authors
Issue Authors
- linuxscout (1)