jieba提取关键词时筛选词性时单词性选择的一点注意事项详解大数据

2021年7月19日 09:25 • 大数据

最近又在迭代特征工程，发现jieba提取特征词有个需要注意的地方，直接看例子

例子1

>>> import jieba 
>>> import jieba.posseg as pseg 
>>> s = '我们喜欢支付宝, 苹果' 
>>> ws = pseg.cut(s) 
>>> for i in ws: 
...     print i 
... 
我们/r 
喜欢/v 
支付宝/nr 
,/x 
 /x 
苹果/n 
>>> allow_pos = ('nr',) 
>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos) 
>>> for t in tags: 
...     print t 
... 
支付宝 
 
>>> allow_pos = ('nr') 
>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos) 
>>> for t in tags: 
...     print t 
... 
苹果 
我们

allow_pos = (‘nr’,) 带逗号，allow_pos是tuple，结果只选取’nr’词性的词
allow_pos = (‘nr’), allow_pos是一个string，结果选取了’n’ 和’r’的词性
这个差别造成了关键词提取方法中词性选取的差异

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/9337.html

分布式文件系统，分布式数据库区块链并行处理（MPP）数据库，数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集

pandas read_csv 错误： pandas.parser.CParserError: Error tokenizing data. C error详解大数据

上一篇 2021年7月19日

哈工大ltp词性标注列表和ICTCLAS词性列表详解大数据

下一篇 2021年7月19日

发表回复

登录后才能评论

jieba提取关键词时筛选词性时单词性选择的一点注意事项详解大数据

例子1

相关推荐

发表回复