了解 TF-IDF 文档匹配算法吗
TF-IDF 的核心思想
TF-IDF 的核心思想可以用一句话概括:一个词语在一个文档中出现得越多,并且在所有文档中出现得越少,那么它对于该文档的区分度就越高,也就越重要
这个算法将一个词语的重要性分为两个部分来计算:
1. 词频
TF 表示一个词语在一个文档中出现的频率。计算公式通常是:
TF(t,d)=文档 d 中所有词语的总数词语 t 在文档 d 中出现的次数
- 作用:衡量一个词语在当前文档中的重要性。一个词在文档中出现得越多,TF 值就越大,表明该词与该文档的相关性可能更高。
2. 逆文档频率(IDF, Inverse Document Frequency)
IDF 表示一个词语在整个文档集中出现的稀有程度。计算公式通常是:
IDF(t,D)=log(包含词语 t 的文档数+1文档总数 N)
这里的 +1 是为了防止分母为零,以避免对未出现的词语产生错误计算。
- 作用:衡量一个词语在所有文档中的重要性。
- 如果一个词语在很多文档中都出现,说明它是一个通用词(如“的”、“是”、“了”),它的 IDF 值就会很低,接近于0。
- 如果一个词语只在很少的文档中出现,说明它是一个稀有词,它的 IDF 值就会很高。