随着互联网技术的不断发展,网络信息激增,搜索引擎逐渐成为用户查找网络信息的主要工具。但是,著名的搜索引擎如Google、百度等,为用户返回的结果均为线性列表的形式,毫无规律的罗列在一起。这些搜索结果往往数以万计,因此用户经常需要花费大量时间在这些杂乱的线性列表中来查找自己真正需要的结果。所谓搜索结果聚类,是指将搜索引擎的返回结果按照不同的主题聚类,然后以类别的形式展现给用户。与传统搜索引擎以列表形式返回搜索结果相比,以类别的形式返回搜索结果更能方便用户快速查找定位信息,可以有效地帮助用户减少查找信息所需要的时间,提高用户获取信息的效率,从而提升搜索引擎的用户体验。
论文的工作主要包括以下几个方面:(1)研究搜索结果的向量表示形式,特征词项的权重计算和搜索结果间的相似性度量方法,通过实验验证找出适用于搜索结果在线聚类的最佳方法。(2)针对传统向量空间模型及相似性度量方法中忽略搜索结果中词项前后位关系以及词项词性等问题,提出一种针对搜索结果标题聚类的相似性度量方法。(3)针对模糊C均值算法需预先指定聚类数目的问题,结合近邻传播算法对这一问题进行改进,并使用Carrot2聚类平台获取大量搜索结果集进行新聚类方法的验证。 更多本文关键词:
国土资源
科技园
中国科学院
计算机系统
教育
战略
古今
中国国情
接受
两岸关系
塑料
中华活页
论文格式
河南省
党课
海洋经济
水利工程
克拉玛依
学术研究
高新区