百度新闻之类的系统,它从互联网上收集文章,然后自动分成“娱乐”“军事”等类别。可是计算机读不懂文章啊,那怎样让计算机读懂文章的内容并做出合适的分类呢?
大家都学过余弦定理吧,自动归类的算法有赖于余弦定理。
最简单的计算文章向量的方法是给定一个词表(如64000常用词),再计算文章中每个词的权重。权重算法下面再介绍。
所以,只要能够用一个向量来代表文章,然后计算它与分类向量的夹角,就能够做出分类了。
最简单的是求词汇的频率
但是只考虑词汇频率的算法是有漏洞的
那怎么计算一个词预测主题的能力呢,可以用到IDF。
结合词汇的频率和逆文本频率,就得到一种比较好的算法了。
– 本文出自中华MOD网,原文地址:http://www.1mod.org/thread-133190-1-1.html
原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/7446.html