最近开始学scrapy的使用,总的来说框架使用起来还不错,毕竟使用了异步架构,效率挺高的。底层还没看,再学点去读源码。

成果

本来计划爬西刺代理构建好代理IP池然后再去爬其他网站数据,结果我是想多了,免费的不靠谱啊,没有合适的IP不说,还封我IP!!!!WTF!!!!!!!!!

😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔😔

2019/03/29-->哈哈哈,换了个站(zdaye)的IP有效率不错

代码构成

默认采用scrapy创建项目就可以了,会自动构成一套完整的代码

1
scrapy startproject IP_POOLS

项目目录:

项目目录

item.py

1
2
3
4
5
6
7
8
9
10
11
class IpPoolsItem(scrapy.Item):
country = scrapy.Field()
ip = scrapy.Field()
port = scrapy.Field()
server_location = scrapy.Field()
is_high_anonymous = scrapy.Field()
ip_type = scrapy.Field()
speed = scrapy.Field()
connect_time = scrapy.Field()
survial_time = scrapy.Field()
check_time = scrapy.Field()

根据最后要存在数据库中的属性,

相关文章
评论
分享
  • python类反射

    起因 最近一直在写数据构造器,所有的虚假数据均调用的是一个Methor类,需要用到类反射。 采取的做法方法一 为了方便,采取了eval()将组合成的方法名字符串运行成函数,刚开始很正常,但是一看速度,心态炸了啊!!!!!平均需要0....

    python类反射
  • Python小技巧

    列表推导123456# 列表推导l = [x for x in range(10)]# 集合推导s = {x for x in range(10)}# 字典推导d = {x:x/2 for x in r...

    Python小技巧