项目编号 : 229197

项目预算 : 竞标出价

开发周期 : 30 天

技能 : Python

类别 : -

发布日期 : 2019-04-19

描述

搜索引擎系统主要分为三部分：信息采集模块、基于系统插件结构的主题过滤模块和基于ApacheSolr索引服务器的中文分词预处理模块。网络爬虫模块负责根据要爬虫的网页的URL集（预取列表）进行网页爬虫。在爬行过程中，提取并分析页面的脚本内容，用正则表达式匹配Ajax请求。如果包含Ajax请求，则使用htmlUnit来处理当前页面，以便在完成页面中获取JS的所有静态页面。主题过滤模块主要基于朴素贝叶斯算法，结合系统插件构建的特殊机制，实现主题过滤功能，达到主题爬虫的效果。信息预处理模块是将存储的Web内容解析为字段并将其转换为最基本的索引表示单元项（term）的过程。针对系统本身是面向英语的特点，在系统中添加中文分词插件，更好地实现检索策略的本质“关键词匹配”，然后建立反索引，对过滤后的词汇单元进行分析，达到快速检索信息的目的

项目竞标

	接包方	国家/地区
	10 Bestpartner	成都市
	5 Xisou	上海市
	5 Ittray	广州市
	4 York_li	上海市
	1 Hain	北京市
	1 Trenshion	上海市

竞标

请您先登录，然后提交此项目的竞标方案。

还不是智城用户? 智城期待您的加入，请注册成为我们的一员吧！

python搜索引擎系统开发

描述

项目竞标

竞标