1. 需要爬取58 同城(新房部分包含“安居客”网站)和赶集网的数据
2. 需要爬取城市表定义的所有城市的相关数据(附相关城市的表定义)
3. 需要爬取所有分类的相关数据(附相关分类的表定义)
4. 程序需要有设置文件以便用户可以预先设置采集网站,城市id,分类id, 采集页面的数目,线程数来定制数据采集
5. 需要正确解析所有的采集数据,数据与表字段的含义100%吻合,数据要求完整,也不能有多余的标识
6. 需要能处理电话识别(附电话识别程序),电话识别程序输出的文本格式电话存储在数据库里相应的字段。
7. 程序爬取数据结束需要能够正常退出
8. 程序需要有文件记录所有的出错信息
9. 加上IP代理循环调用
10. 数据采集速度需要达到平均每小时3~4 个城市的所有分类数据
11. 需要支持程序的断点续传(程序在断网,出现意外的情况下能正常退出程序,下次程序运行的时候能够从上次数据采集点重新开始采集数据,既不能有数据遗漏,也不能有重复数据)
12. 程序的语言使用python,相关的数据库采用mysql 存储数据,nosql 做缓存. 程序需要在ubuntu 14.4 下正常运行
13. 需要能处理网站的反爬虫手段
14. 程序需要模块化。网站链接,http 请求,数据库链接,数据库读写需要是跟网站无关的独立的模块。 数据解析需要多个网站通用
15. 程序需要完成一个城市的所有分类的数据采集后才能进入下一个城市,以便保证断点续传以及数据采集不会出现遗漏
16. 程序在不同设置下多次运行,采集数据不能出现重复,也不能出现遗漏