[研究方向] 文本聚类

文本聚类是数据挖掘和机器学习中的重要技术,在事件的发现与跟踪、文档摘要、搜索结果聚类等问题中有广泛的应用。虽然针对文本聚类问题已经有许多研究工作,但是目前依然有许多非常有挑战性的问题需要解决:

(1)如何设定簇的数目?是否能够从数据中自动发现簇的数目?
(2)如何应对短文本的稀疏性问题?
(3)如何自动发现数据集中的异常文档?
(4)如何应对流文本聚类的概念漂移问题?

我们提出了基于模型的文本聚类算法,可以在一定程度上应对以上挑战。相关的数据及代码如下:https://github.com/jackyin12

Scroll to Top