python 英语分词_Python实现中英文分词


既然选择的是不重复的元素,那么试图在[1,100]这样的区间里选择500个元素,当然是不可能的,但是机器不知道这事,就一直尝试,没有精力做别的事了。

今天的话题是分词:Python扩展库jieba和snownlp很好地支持了中文分词,可以使用pip命令进行安装。在自然语言处理领域经常需要对文字进行分词,分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。

>>> import jieba #导入jieba模块

>>> x = 分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。

>>> jieba.cut(x) #使用默认词库进行分词

>>> list(_)

[分词, 的, 准确度, 直接, 影响, 了, 后续, 文本处理, 和, 挖掘, 算法, 的, 最终, 效果, 。]

>>> list(jieba.cut(纸杯))

[纸杯]

>>> list(jieba.cut(花纸杯))

[花, 纸杯]

>>> jieba.add_word(花纸杯) #增加新词条

>>> list(jieba.cut(花纸杯)) #使用新题库进行分词

[花纸杯]

>>> import snownlp 导入snownlp模块

>>> snownlp.SnowNLP(学而时习之,不亦说乎).words

[学而, 时习, 之, ,, 不亦, 说乎]

>>> snownlp.SnowNLP(x).words

[分词, 的, 准确度, 直接, 影响, 了, 后续, 文本, 处理, 和, 挖掘, 算法, 的, 最终, 效果, 。]

如果有一本Python书,像下面图中所展示的写作风格,大家会不会很喜欢呢,至少我是会的。

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/292521.html

(0)
上一篇 2022年11月2日
下一篇 2022年11月2日

相关推荐

发表回复

登录后才能评论