内积公式【相识度计算】文档 d1:a b c a f b a f h文档 d2:a c查询 q:a c a 索引项集合
0
0

1个回答

  • 这种相似度貌似已经是极大简化的了.

    直接拿文档向量和查询向量作内积即可.

    sim(d1,q) = (1,1,1,0,0,1,0,1)(1,0,1,0,0,0,0,0) = 2.

    sim(d2,q) = (1,0,1,0,0,0,0,0)(1,0,1,0,0,0,0,0) = 2.

    实际上,文档d2明显更接近于查询q,但根据该相似度定义,d1和d2无法区分好坏.这说明这种简单的相似度度量基本没用.

    正常的做法是计算TF-IDF的余弦相似度.如果你还不了解这个,可以上网搜搜.如果你已经掌握了,那就当我多嘴好了.:)