随着互联网的发展,数据呈现几何式的增长,如何能够从巨大的数据中快速寻找出对自己有用的数据,将会是大家面临的一个问题。搜索技术的出现方便了人们快速而且有效的获取信息。在搜索技术中,最突出的搜索工具就是搜索引擎,当然针对于一些特定数据的搜索工具,比如说在交叉学科领域的一些数据的检索工具也给人们带来了巨大的便利之处。本文正是基于这两个方面开展研究工作,并且从研究和设计的角度出发,对于分布式搜索领域的相关理论和技术进行了详细的讨论和分析,详细的介绍了Map/Reduce的分布式架构技术和搜索领域的Lucene技术,并以此为基础,开展了两项工作的设计开发。
论文中主要实现的工作为:第一,实现了学术论文搜索的单机搜索模型和分布式搜索模型的开发,并对于其中遇到的一些问题进行了解决或优化;第二,对于学术论文搜索中的文本分类和索引存储进行了方法上的改进,使得效率有了显著的提高;第三,实现了基因/蛋白质序列搜索的单机搜索模型和分布式搜索模型的开发,对于分布式中的Combiner优化和数据倾斜的问题,给出了合理的解决方法;第四,通过对于单机搜索模式和分布式搜索模式的实验数据对比,突出展示了分布式模式在解决大数据问题上的优越性。
本文通过设计与开发搜索工具并进行分布式扩展,使我们了解到分布式搜索模型在大数据领域的先进性和优越性,并且对于其中遇到的问题都有妥善的处理和详细的解答,所以,本文的内容是具有极大的研究意义的。本文关键词:
历史
防治
调查分析
航务
时事
研究生发表
融资
珠海
修订研究
乌鲁木齐
中学物理
海燕
教育现状
地市
党报
真理
肝胆
影视制作
柳州
恋爱