####1. TF-IDF算法思想 词频(Term Frequency,TF):指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度,需要对给定词语进行归一化,一般是用给定词语的次数除以当前文件的总词数。 公式:  需要注意的是,有些通用的词语对一篇文章的主题并没有太多的作用,相反,一些出现频率比较小的词语更能代表一篇文章,所以TF一般不单独使用。 权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作。 逆向文件频率(Inverse Document Frequency,IDF):是一个词语普遍重要性的度量。即如果一个词语只在很少的文件中出现,表示更能代表文件的主旨,它的权重也就越大;如果一个词在大量文件中都出现,表示不清楚代表什么内容,它的权重就应该小。 公式:  某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。 TF-IDF = TF * IDF 最后修改:2019 年 08 月 21 日 11 : 16 AM © 著作权归作者所有