搜索引擎系统主要分为三部分:信息采集模块、基于系统插件结构的主题过滤模块和基于ApacheSolr索引服务器的中文分词预处理模块。网络爬虫模块负责根据要爬虫的网页的URL集(预取列表)进行网页爬虫。在爬行过程中,提取并分析页面的脚本内容,用正则表达式匹配Ajax请求。如果包含Ajax请求,则使用htmlUnit来处理当前页面,以便在完成页面中获取JS的所有静态页面。主题过滤模块主要基于朴素贝叶斯算法,结合系统插件构建的特殊机制,实现主题过滤功能,达到主题爬虫的效果。信息预处理模块是将存储的Web内容解析为字段并将其转换为最基本的索引表示单元项(term)的过程。针对系统本身是面向英语的特点,在系统中添加中文分词插件,更好地实现检索策略的本质“关键词匹配”,然后建立反索引,对过滤后的词汇单元进行分析,达到快速检索信息的目的