27-7 - HolaSecurity

TF-IDF 的核心思想

TF-IDF 的核心思想可以用一句话概括：一个词语在一个文档中出现得越多，并且在所有文档中出现得越少，那么它对于该文档的区分度就越高，也就越重要

这个算法将一个词语的重要性分为两个部分来计算：

1. 词频

TF 表示一个词语在一个文档中出现的频率。计算公式通常是：

TF(t,d)=文档 d 中所有词语的总数词语 t 在文档 d 中出现的次数

2. 逆文档频率（IDF, Inverse Document Frequency）

IDF 表示一个词语在整个文档集中出现的稀有程度。计算公式通常是：

IDF(t,D)=log(包含词语 t 的文档数+1文档总数 N)

这里的 +1 是为了防止分母为零，以避免对未出现的词语产生错误计算。

作用：衡量一个词语在所有文档中的重要性。
- 如果一个词语在很多文档中都出现，说明它是一个通用词（如“的”、“是”、“了”），它的 IDF 值就会很低，接近于0。
- 如果一个词语只在很少的文档中出现，说明它是一个稀有词，它的 IDF 值就会很高。