换ip软件,代理ip软件,更改ip地址-智游代理
首页 IP软件套餐 HTTP代理套餐 API提取 使用帮助 新闻资讯 长效IP 注册 登录 实名验证
在线咨询
大客户经理
大客户经理
13318873961

大客户经理微信

微信公众号

微信公众号

回到顶部
您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

浅析分布式爬虫使用代理IP的几种方案

发布时间:2019年07月02日 来源:智游代理 www.zhiyoudaili.com

没有代理IP,爬虫工作将寸步难行,所以很多爬虫工程师都需要去选购高效稳定的代理IP。有了优质代理IP后,是不是就可以高枕无忧了呢?事情没有那么简单,还需要优化方案,合理分配资源,提高工作效率,更高效更快速更稳定的进行爬虫工作。


浅析分布式爬虫使用代理IP的几种方案


方案一、每个进程从接口API中随机取一个IP列表(比如一次提取100个IP)来循环使用,失败则再调用API获取,大概逻辑如下:


1、每个进程(或线程),从接口随机取回一批IP回来,循环尝试IP列表去抓取数据;


2、如果访问成功,则继续抓取下一条。


3、如果失败了(比如超时、出现验证码等),再从接口取一批IP,继续尝试。


方案缺点:每个IP都是有有效期的,如果提取了100个,当使用了第10个的时候,可能后面的大部分都失效了。如果你设置HTTP请求的时候连接时间超时为3秒,读取时间超时为5秒,那你将会有可能浪费3-8秒的时间,说不定这3-8秒已经可以抓取几十次了。


方案二:每个进程从接口API中随机取一个IP来使用,失败则再调用API获取一个IP,大概逻辑如下:


1、每个进程(或线程),从接口随机取回一个IP来,用这个IP去访问资源,


2、如果访问成功,则继续抓下一条。


3、如果失败了(比如超时、出现验证码等),再从接口随机取一个IP,继续尝试。


方案缺点:调用API获取IP的行为非常频繁,会对代理服务器造成非常大的压力,影响API接口稳定,可能会被限制提取。这种方案也不适合,不能持久稳定的运行。


方案三:先提取大量IP导入本地数据库,从数据库里面取IP,大概逻辑如下:


1、在数据库里面建一个表,写一个导入脚本,每分钟请求多少次API(咨询代理IP服务商建议),把IP列表导入到数据库里面。


2、在数据库里面记录好 导入时间、IP、Port、过期时间、IP可用状态 等字段;


3、写一个抓取脚本,抓取脚本从数据库里面读取可用IP,每个进程从数据库获取一个IP进行使用。


4、执行抓取,对结果进行判断,处理cookie等,只要出现验证码或者失败就放弃这个IP,重新换一个IP。


这种方案有效的避开了代理服务器资源的消耗,有效的分配代理IP的使用,更加的高效和稳定,保障了爬虫工作的持久性和稳定性。


转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 优质爬虫http代理ip怎么选择?

最近跟多个爬虫采集的客户聊天,无论互联网行业发展到何种地步,“资源”永远是任何互联网公司必不可少的弹药粮草。夸大些讲,任何一个互联网公司都会用到不同类型的数据。那么数据从何而来,这就要讲到爬虫http代理IP的重要性了。因为我们的爬虫采集无论如何都绕不过去http爬虫IP代理。传统意义上讲,代理服务器主要用于安全领域,而爬虫代理IP主要用于突破互联网访问限制,但今天,随着我们对营销要求的提高,高质量代理IP就起到了必不可少的作用。1、高质量代理IP是什么?所谓高质量代理IP,必须要具体3个特点:A.高匿名,B.私密性,C.纯净资源;2、如何做到“高匿名”?智游代理所提供的高质量代理ip均为高匿类型,对方服务器检测不到你的真实源IP。3、如何做到“私密性”?在使用智游代理所提供的代理IP时,可以使用安全IP白名单授权,并且是即时生效型,即只有绑定的IP才可以使用代理IP,最大化化解客户IP所有权的安全问题。4、什么是“纯净资源”?智游代理的IP的资源来自自建机房,阿里云平台进行节点管理和运营支撑,也有P2P CDN节点,这种IP具有活跃时间长,真实... [阅读全文]

2 爬虫要选择专业的代理IP

爬虫是大数据时代非常受欢迎的工具,因为现在互联网上的数据非常庞大,而且每天都在不断的增加,所以信息采集脱离爬虫几乎是不可能的事情。爬虫相当于一个访问网页的用户,但不是一个普通的用户,因为爬虫在采集过程中会发出大量请求,而服务器一般很不欢迎这样的用户,所以总是用各种手段发现和禁止,也就是网站的“反爬虫”机制。最常见的方法就是判断你访问的频率,因为普通人访问网页的频率是不会很快的,如果发现某个IP访问的过快就会将此IP封禁。为了能让爬虫继续工作,就要更换它的IP,常用的更换IP的方法就是用代理IP来更换,但是代理IP也有很多种类型,不同类型的代理IP适合不同的场景,而最适合爬虫的则是高匿代理IP。所以,想让爬虫能够高效的工作,一定要选择高匿代理IP。... [阅读全文]

热门标签

推荐阅读

  1. 12

    2019-06

    用代理IP爬虫遇到问题怎么办

    爬虫在抓取数据的时候都知道需要使用代理IP,不然是无法顺利进行的。用户在使用了代理IP爬虫,还会出现一些问题,导致爬虫无法继续。那么,用代理IP爬虫遇到问题怎么办呢?1.分布式爬虫

  2. 17

    2019-07

    爬虫所需要的代理IP究竟是啥

    在爬取某些网站时,我们经常会设置代理 IP 来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商(如西刺代理,快代理,无忧代理等)的免费代理。这些代理商一般都

  3. 29

    2018-11

    网络代理的类型及实现原理

    大家都知道,网络代理服务根据工作层次,一般可分为应用层代理、传输层代理和SOCKS代理。那么它们之间有哪些区别呢?实现原理是怎么样的呢?请看下面的介绍。

  4. 31

    2019-07

    爬虫刷量代理ip提供商怎么选择?

    现在的网络业务中,越来越多的需要使用到高匿真实动态,尤其是http代理,相比https以及socks5代理,http更加常见,需求量也更加广泛。对于初学者,可能更多的是去寻找一些免费的代理ip,虽然

  5. 05

    2020-06

    企业爬虫为什么不能使用免费代理IP

    对于爬虫来说,为了防止在爬取的过程中IP被封禁,一个最有效的方式就是选择使用代理IP,代理IP可以说是爬虫的“黄金搭档”了。代理IP有免费和收费之分,虽然选择免费代理可以有效地节约

  6. 03

    2018-12

    通过爬虫代理IP快速增加博客访问量

    每个玩博客的人,都在想怎么才能增加博客的人气,提高自己文章的阅读量,但如何快速提高阅读量,其中一种方式就是通过爬虫代理IP去刷人气刷访问,一般不建议这种方法