换ip软件,代理ip软件,更改ip地址-智游代理
首页 IP软件套餐 HTTP代理套餐 API提取 使用帮助 新闻资讯 长效IP 注册 登录 实名验证

在线咨询

800819380 售前客服
在线客服,实时响应

客户经理:
13326404693

473197630 QQ群
473197630

微信客服

您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

分布式爬虫代理IP有什么解决方案

发布时间:2018年10月13日 来源:智游代理 www.zhiyoudaili.com

没有代理IP,爬虫工作将寸步难行,所以很多爬虫工程师都需要去选购高效稳定的代理IP。有了优质代理IP后,是不是就可以高枕无忧了呢?事情没有那么简单,还需要优化方案,合理分配资源,提高工作效率,更高效更快速更稳定地进行爬虫工作。

 

方案一、每个进程从接口API中随机取一个IP列表(比如一次提取100IP)来循环使用,失败则再调用API获取,大概逻辑如下:

 

1、每个进程(或线程),从接口随机取回一批IP回来,循环尝试IP列表去抓取数据;

2、如果访问成功,则继续抓取下一条;

3、如果失败了(比如超时、出现验证码等),再从接口取一批IP,继续尝试。

方案缺点:每个IP都是有有效期的,如果提取了100个,当使用了第10个的时候,可能后面的大部分都失效了。如果你设置HTTP请求的时候连接时间超时为3秒,读取时间超时为5秒,那你将会有可能浪费3-8秒的时间,说不定这3-8秒已经可以抓取几十次了。

 

方案二:每个进程从接口API中随机取一个IP来使用,失败则再调用API获取一个IP,大概逻辑如下:

 

1、每个进程(或线程),从接口随机取回一个IP来,用这个IP去访问资源;

2、如果访问成功,则继续抓下一条;

3、如果失败了(比如超时、出现验证码等),再从接口随机取一个IP,继续尝试。

方案缺点:调用API获取IP的行为非常频繁,会对代理服务器造成非常大的压力,影响API接口稳定,可能会被限制提取。这种方案也不适合,不能持久稳定的运行。


方案三:先提取大量IP导入本地数据库,从数据库里面取IP,大概逻辑如下:


1、在数据库里面建一个表,写一个导入脚本,每分钟请求多少次API(咨询代理IP服务商建议),把IP列表导入到数据库里面;

2、在数据库里面记录好:导入时间、IPPort、过期时间、IP可用状态 等字段;

3、写一个抓取脚本,抓取脚本从数据库里面读取可用IP,每个进程从数据库获取一个IP进行使用;

4、执行抓取,对结果进行判断,处理cookie等,只要出现验证码或者失败就放弃这个IP,重新换一个IP

 

这种方案有效地避开了代理服务器资源的消耗,有效地分配代理IP的使用,更加的高效和稳定,保障了爬虫工作的持久性和稳定性。

转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 爬虫用自建代理效果怎么样

爬虫是抓取数据的主要途径,现在很多企业都需要。但由于反爬虫的限制,想让爬虫顺利进行就要用代理IP,那么,爬虫用自建代理效果怎么样?自建服务器来获取代理IP的方法很好,稳定性也很强,但是需要大量的服务器。但是在正常情况下,爬虫用户并没有技术能力去维护服务器,这是因为对技术要求和成本都很高。作为用户来说,没有资源,也没有技术,所以并不推荐爬虫用户自建代理。现在有很多可以提供代理IP的商家,提供的IP质量都不错,并且稳定性也不错,所以建议爬虫用户试试付费的代理IP。如果没有目标,可以尝试智游代理,可以提供IP资源,还可以根据用户的需求来制定套餐,用来爬虫稳定又高效。... [阅读全文]

2 使用代理IP做爬虫的正确姿势

  没有被封过IP的爬虫工程师,肯定不是一个好的工程师。在爬虫工作的过程中,总是会遇到封IP的烦心事,今天这样爬,被封,明天那样爬,还是被封,到底要怎样爬呢,才不会被封。  很多人认为之所以被封IP,是因为爬取的太快了,确实是这样。那好吧,我就放慢速度,依然被封,再放慢速度,再被封,再再放慢速度,终于不被封了,但这速度和蜗牛没什么差别了,爬虫失去了它存在的意义。  很多人想到了使用代理IP来做爬虫,提升速度爬,被封,再换一个IP,再被封,再再换,再再被封,进入了“封了一个IP,还有千千万万IP”模式,工作效率终于提高了。  但这种方法也有一个致命的问题,上哪找这么多高效稳定的代理IP?  有人很快行动,写了个爬虫爬取网上的代理IP,然后筛选验证,最后封装在IP池里。结果发现,这种方法效率太低,IP质量太低,当然花费的成本也最低,只不过时间成本最高。  也有人迟疑,在网上经过各种筛选,找到了收费的代理IP,购买了一批。结果发现,这种方法一般般,勉强可以正常工作,但还达不到自己的预期,不是理想中的完美解决方案。  终于,有人找到了智游代理IP平台上的... [阅读全文]

热门标签

推荐阅读

  1. 25

    2020-03

    爬虫时遇到反爬虫机制该如何处理?

    什么是网络爬虫?用简单一点的话来形容,就是实现浏览器的功能。通过指定url,将获取到用户所需的信息数据返回到客户端,而不需要一步步人工去操纵浏览器获取。有效的缩短了收集时间,

  2. 23

    2018-11

    代理服务器助你匿名访问网络

    ​除非你是一个非常有才华的黑客,否则在互联网上就没有匿名性。关于匿名的一个常见误解是,它们允许您在没有任何人能够追踪到您的情况下上网并做任何您想做的事情。

  3. 20

    2018-11

    如何设置网络代理

    ​在日常工作中,有的网站打不开,受到了限制,这可以用代理服务器来访问。那么,如何使用代理IP呢?

  4. 28

    2019-09

    爬虫代理服务商哪家好用

    或许我们在网上冲浪的时候,有时候会用到代理的,爬虫代理在目前是很火热的。之所以要用到爬虫代理,是因为我们有时候需要更换ip,但是爬虫代理服务商哪家好用呢?尤其是做爬虫抓取数

  5. 24

    2018-11

    怎样设置代理服务器节省网络费用

    正常情况下,浏览器发送的浏览请求会首先传到ISP服务器,由ISP的DNS把URL翻译成IP、返回给浏览器,然后浏览器连上该IP对应的网站,下载网页。

  6. 10

    2018-11

    微信电脑版怎么使用网络代理上网?

    微信如今已经是人人都离不开的社交渠道了,不但手机上必装,很多人的电脑上也得来一个,办公啥的会方便很多。