所有软件外包项目 Gray arrow bg 大型网站的数据采集

大型网站的数据采集

发包方 : Dullboy 接包方 : Chrisj 状态 :项目已取消
项目编号 : 219791
项目预算 : ¥5,000-8,000
开发周期 : 30 天
技能 : MySQL Python
发布日期 : 2016-03-24
竞标后显示联系方式

描述

1. 需要爬取58 同城(新房部分包含“安居客”网站)和赶集网的数据

2. 需要爬取城市表定义的所有城市的相关数据(附相关城市的表定义)

3. 需要爬取所有分类的相关数据(附相关分类的表定义)

4. 程序需要有设置文件以便用户可以预先设置采集网站,城市id,分类id, 采集页面的数目,线程数来定制数据采集

5. 需要正确解析所有的采集数据,数据与表字段的含义100%吻合,数据要求完整,也不能有多余的标识

6. 需要能处理电话识别(附电话识别程序),电话识别程序输出的文本格式电话存储在数据库里相应的字段。

7. 程序爬取数据结束需要能够正常退出

8. 程序需要有文件记录所有的出错信息

9. 加上IP代理循环调用

10. 数据采集速度需要达到平均每小时3~4 个城市的所有分类数据

11. 需要支持程序的断点续传(程序在断网,出现意外的情况下能正常退出程序,下次程序运行的时候能够从上次数据采集点重新开始采集数据,既不能有数据遗漏,也不能有重复数据)

12. 程序的语言使用python,相关的数据库采用mysql 存储数据,nosql 做缓存. 程序需要在ubuntu 14.4 下正常运行

13. 需要能处理网站的反爬虫手段

14. 程序需要模块化。网站链接,http 请求,数据库链接,数据库读写需要是跟网站无关的独立的模块。 数据解析需要多个网站通用

15. 程序需要完成一个城市的所有分类的数据采集后才能进入下一个城市,以便保证断点续传以及数据采集不会出现遗漏

16. 程序在不同设置下多次运行,采集数据不能出现重复,也不能出现遗漏

项目竞标

接包方 国家/地区
通过实名认证 拥有案例
2
Tianxialoveall
通过实名认证 拥有案例
2
Chrisj (中标)
北京市
通过实名认证 拥有案例
2
Chrisj (中标)
北京市

竞标

请您先登录,然后提交此项目的竞标方案。
还不是智城用户? 智城期待您的加入,请注册成为我们的一员吧!
Project ad2