该项目是一个小型的网络爬虫,是给一个医院做的。主要是从华医网上将病人的档案信息抓取出来,然后存放到该医院的数据库中。并进行数据的有效性验证和相似度验证。整个接近17W条数据,全部抓取并进行验证的话大概会花费7个小时左右
购买咨询,请扫微信