代理IP池的构建

最近开始学scrapy的使用,总的来说框架使用起来还不错,毕竟使用了异步架构,效率挺高的。底层还没看,再学点去读源码。

成果

本来计划爬西刺代理构建好代理IP池然后再去爬其他网站数据,结果我是想多了,免费的不靠谱啊,没有合适的IP不说,还封我IP!!!!WTF!!!!!!!!!

😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔

2019/03/29-->哈哈哈,换了个站(zdaye)的IP有效率不错

代码构成

默认采用scrapy创建项目就可以了,会自动构成一套完整的代码

scrapy startproject IP_POOLS

项目目录:

项目目录

item.py

class IpPoolsItem(scrapy.Item):
    country = scrapy.Field()
    ip = scrapy.Field()
    port = scrapy.Field()
    server_location = scrapy.Field()
    is_high_anonymous = scrapy.Field()
    ip_type = scrapy.Field()
    speed = scrapy.Field()
    connect_time = scrapy.Field()
    survial_time = scrapy.Field()
    check_time = scrapy.Field()

根据最后要存在数据库中的属性,


  转载请注明: Tomorrow 代理IP池的构建

 上一篇
Python小技巧 Python小技巧
列表推导# 列表推导 l = [x for x in range(10)] # 集合推导 s = {x for x in range(10)} # 字典推导 d = {x:x/2 for x in range(10)} 计数器 这个很有
2019-03-29
下一篇 
scrapy学习 scrapy学习
配置文件文件以ini的方式记录,从以下路径寻找scrapy.cfg文件: /etc/srcapy.cfg或c:\scrapy\scrapy.cfg(系统层面) ~/.config/scrapy.cfg($XDG_CONFIG_HOME)及
2019-03-21
  目录