TF-IDF简易说明详解程序员


百度新闻之类的系统,它从互联网上收集文章,然后自动分成“娱乐”“军事”等类别。可是计算机读不懂文章啊,那怎样让计算机读懂文章的内容并做出合适的分类呢?

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

大家都学过余弦定理吧,自动归类的算法有赖于余弦定理。

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

最简单的计算文章向量的方法是给定一个词表(如64000常用词),再计算文章中每个词的权重。权重算法下面再介绍。

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

所以,只要能够用一个向量来代表文章,然后计算它与分类向量的夹角,就能够做出分类了。

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

最简单的是求词汇的频率

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

但是只考虑词汇频率的算法是有漏洞的

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

那怎么计算一个词预测主题的能力呢,可以用到IDF。

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员

结合词汇的频率和逆文本频率,就得到一种比较好的算法了。

TF-IDF简易说明详解程序员

TF-IDF简易说明详解程序员
– 本文出自中华MOD网,原文地址:http://www.1mod.org/thread-133190-1-1.html

原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/7446.html

(0)
上一篇 2021年7月17日
下一篇 2021年7月17日

相关推荐

发表回复

登录后才能评论