所有软件外包项目 Gray arrow bg 国外大学爬虫项目二期

国外大学爬虫项目二期

发包方 : Dazedpuppy 状态 :竞标已结束
项目编号 : 215133
项目预算 : ¥8,000-10,000
开发周期 : 30 天
技能 : MySQL Java JavaScript
发布日期 : 2015-03-16
竞标后显示联系方式

描述

我们现在需要若干程序员来开发爬虫,爬取国外院校的课程信息,包括院系、教授、时间、教室、学期起止时间。我们现在已经针对典型网页开发出脚本,所以之后的开发基本上只是微调。我们会发给你脚本。需要开发的爬虫数目有上千个。我们每个支付20元人民币。我们拥有代码示例脚本,需要对其进行修改就可以,每个爬虫的开发时间其实非常短,我们现在人手不够,所以外包一部分。如果感兴趣的话,请加我QQ联系,344217995。

一、部署说明
1、创建数据库。执行seafish.sql文件,创建数据库。
2、配置数据库连接。修改jdbc.properties文件,配置数据库连接。
爬虫系统将爬虫任务,爬取的数据存存数据库中。目前两部分的数据存在不同的数据库中。后续可以将数据存入同一数据库。
3、配置casperjs路径,工作路径。修改common.properties,配置相关参数。
其中CMD指向本地casperjs.bat(casperjs为绿色软件,可放置在系统任意目录)
WKDIR是工作路径,包含多个文件夹。每个文件夹代表一个学校,以学校ID命名,包 括casperjs脚本,及爬取后的数据。
4、在数据库中,往main_task表中,插入任务数据,只需要指定学校ID。
5、执行 com.omar.entry.Main ,开始爬虫任务。
6、需要在系统环境变量path中,配置casperjs目录
例如:E:\projects\classbox\spider\n1k0-casperjs-cd1fab5\batchbin

二、代码说明
系统由以下几部分组成:
1、Spring容器,负责管理数据库连接、线程池、配置参数等资源管理。
2、ControlPanel,控制页面。负责Spring容器生成,对外提供静态的数据处理、爬虫任务管理等方法。
3、Spider,爬虫管理。负责爬虫任务生成(根据学期及院系生成独立的子任务)。并通过线程池,对任务进行调度。
4、Exec,爬虫执行者。负责调用casperjs,执行具体的爬虫任务,并反馈结果。
5、爬虫脚本:act_term 需要爬取的学期;class.js class爬取脚本;depart.js 院系爬取脚本;term.js 学期爬取脚本。

项目竞标

接包方 国家/地区
用户在智城存有保证金 通过实名认证 公司沈阳成兴科技有限公司通过公司认证 拥有案例
10
Appbank
沈阳市
通过实名认证 拥有案例
3
Qq82998221
泉州市
通过实名认证 拥有案例
2
Yunduokeji
天津市
通过实名认证 拥有案例
2
Wlc1056
通过实名认证
1
Baiworld
通过实名认证
0
Cnryb

竞标

请您先登录,然后提交此项目的竞标方案。
还不是智城用户? 智城期待您的加入,请注册成为我们的一员吧!
Project ad2