王琛

王琛的博客

她的个人主页  她的博客

请教:文档聚类算法问题

王琛  2010年06月03日 星期四 18:43 | 1439次浏览 | 3条评论

坛子里做技术的人很多,不知有没有现在在高校里做科研的人,或者和文档聚类打交道的。

想问下,做文档聚类方面的研究用哪种方法效果比较好,目前比较想用的是SVM和朴素贝叶斯,不知大家有什么好的建议?

注:目前只关注文档聚类的结果好坏,对于其他方面:像聚类速度等等暂时不加考虑……

评论

我的评论:

发表评论

请 登录 后发表评论。还没有在Zeuux哲思注册吗?现在 注册 !
夏清然

回复 夏清然  2011年01月17日 星期一 23:12

就svm了。

0条回复

夏武

回复 夏武  2010年06月04日 星期五 08:44

使用哪种方法很多情况下与采样的数据集有关。Naive bayes方法在属性相关性较小的情况下表现良好,SVM在小样本空间效果优异。从近来的一些文档聚类研究结果来看,svm效果更好一些,不过这仅限于一些特定的研究领域。可以多试试各种方法,或者多种方法结合起来。另外,在很多情况下,最简单的方法或者也能收到不错的效果,比如k-meas算法

1条回复

  • 王琛

    回复 王琛  2010年06月04日 星期五 23:16

    其实,我觉得,现在制约结果的不是你选择的聚类算法,而是文本的预处理结果

    0条回复

暂时没有评论

Zeuux © 2024

京ICP备05028076号