Naftawayh:阿拉伯语单词标注器
项目描述
نفطويه: تصنيف الكلمات العربية
Naftawayh:阿拉伯语单词标注器
Naftawayh 是一个用于将阿拉伯语单词标记(单词分类)转换为类型(名词、动词、停用词)的 python 库,它在语言处理中很有用,尤其是对于文本挖掘。Naftawayh 根据阿拉伯语单词结构和通过某些符号猜测单词类别的能力工作。例如,以 Teh Marbuta 结尾的词是名词。Hamza 在 Alef 下面,将这个词归类为名词。我们可以通过模式识别许多词类,尤其是现在时态的动词和已定义的词。
نفطويه هو برنامج ومكتبة لتصنيف الكلمات إلى أنواعها (اسم، فعل، حرف)، ويفيد في المعالجة الآلية للغة وخصوصا التنقيب عن المعلومات، ومبدأه يعمل على بنية الكلمة العربية، وقدرتنا على تخمين نوعها، من خلال علامات معينة. فمثلا كل كلمة تنتهي بتاء مربوطة فهي اسم، وكل كلمة فيها همزة تحت الألف اسم。ويمكننا التعرف على كثير من الكلمات المعرّفة بالألف واللام، وبعض أنماط الأفعال المضارعة。
开发者: Taha Zerrouki:http : //tahadz.com taha dot zerrouki at gmail dot com
特征 |
价值 |
---|---|
作者 |
Taha Zerrouki:http ://tahadz.com,gmail dot com 的 taha dot zerrouki |
发布 |
0.3 |
执照 |
|
追踪器 |
|
网站 |
|
文档 |
|
资源 |
|
下载 |
|
反馈 |
|
帐号 |
[@Twitter]( https://twitter.com/linuxscout ) [@Sourceforge]( http://sourceforge.net/projects/naftawayh/ ) |
引文
如果你想在学术工作中引用它,你能用这个引用吗
T. Zerrouki, Naftawayh, Arabic Word Tagger, https://pypi.python.org/pypi/naftawayh/, 2010
或以 bibtex 格式
@misc{zerrouki2012naftawayh,
title=<s>{Naftawayh : Arabic Word Tagger}</s>,
author=<s>{Zerrouki, Taha}</s>,
url=<s>{https://pypi.python.org/pypi/naftawayh,
year={2010}
}</s>
应用
文本挖掘。
文字总结。
句子识别。
语法分析。
形态分析加速。
提取ngrams..
### تطبيقات
التنقيب عن المعلومات。
تلخيص النص。
التعرف على الجمل。
答案是什么。
تسريع التحليل الصرفي。
استخراج المصطلحات والمسكوكات والمتلازمات。
من هو نفطويه 谁是 Naftawayh
<图>纳夫塔瓦是谁?
</figcaption> </figure>演示 جرّب
安装
pip install naftawayh
用法
import naftawayh.wordtag as wordtag
测试单词表
>>> import naftawayh.wordtag
>>> word_list=(u'بالبلاد', u'بينما', u'أو', u'انسحاب', u'انعدام',
u'انفجار', u'البرنامج', u'بانفعالاتها', u'العربي', u'الصرفي',
u'التطرف', u'اقتصادي', )
>>> tagger = naftawayh.wordtag.WordTagger();
>>> # test all words
>>> list_tags = tagger.word_tagging(word_list)
>>> for word, tag in zip(word_list, list_tags):
>>> print word, tag
بالبلاد n
بينما vn3
أو t
انسحاب n
انعدام n
انفجار n
البرنامج n
بانفعالاتها n
العربي n
الصرفي n
التطرف n
اقتصادي n
逐字测试
>>> import naftawayh.wordtag
>>> word_list=(u'بالبلاد', u'بينما', u'أو', u'انسحاب', u'انعدام',
u'انفجار', u'البرنامج', u'بانفعالاتها', u'العربي', u'الصرفي',
u'التطرف', u'اقتصادي', )
>>> tagger = naftawayh.wordtag.WordTagger();
>>> #test word by word
>>> for word in word_list:
>>> if tagger.is_noun(word):
>>> print(u'%s is noun'%word)
>>> if tagger.is_verb(word):
>>> print(u'%s is verb'%word)
>>> if tagger.is_stopword(word):
>>> print(u'%s is stopword'%word)
بالبلاد is noun
بينما is noun
بينما is verb
أو is noun
أو is verb
أو is stopword
انسحاب is noun
انعدام is noun
انفجار is noun
البرنامج is noun
بانفعالاتها is noun
العربي is noun
الصرفي is noun
التطرف is noun
اقتصادي is noun
上下文中的测试词
>>> import naftawayh.wordtag
>>> word_list=(u'بالبلاد', u'بينما', u'أو', u'انسحاب', u'انعدام',
u'انفجار', u'البرنامج', u'بانفعالاتها', u'العربي', u'الصرفي',
u'التطرف', u'اقتصادي', )
>>> tagger = naftawayh.wordtag.WordTagger();
>>> previous_word=""
>>> print (" **** test words in context***")
>>> # test words in context
>>> for word in word_list:
>>> tag=tagger.context_analyse(previous_word,word);
>>> print(u"%s from context is %s "%(word,tag))
>>> previous_word=word;
**** test words in context***
بالبلاد from context is vn
بينما from context is vn
أو from context is vn
انسحاب from context is vn
انعدام from context is vn
انفجار from context is vn
البرنامج from context is vn
بانفعالاتها from context is vn
العربي from context is vn
الصرفي from context is vn
التطرف from context is vn
اقتصادي from context is vn
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。