换ip软件,代理ip软件,更改ip地址-智游代理
首页 IP软件套餐 HTTP代理套餐 API提取 使用帮助 新闻资讯 长效IP 注册 登录 实名验证

在线咨询

800819380 售前客服
在线客服,实时响应

客户经理:
13326404693

473197630 QQ群
473197630

微信客服

您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

爬虫IP被禁怎么解决?可以使用代理ip吗

发布时间:2019年01月02日 来源:智游代理 www.zhiyoudaili.com

爬虫以前听上去好厉害好神秘的样子,用好了可以成就像Google、百度这样的索索引擎,用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每年扛住的并发请求量,觉得好牛逼。


peitu1.png


爬虫和反爬虫从一直以来都是一个道高一尺魔高一丈的架势。反爬虫技术增加了爬取的难度,各路crawler的爬取过程可以说是一个和各种网站站长斗智斗勇的过程,各种解决方式可谓层出不穷,但是这里说是“简单”解决方案,肯定就是立足于一些比较基础的方法,分分钟就可以上手。


user_agent 伪装和轮换


不同浏览器的不同版本都有不同的user_agent,是浏览器类型的详细信息,也是浏览器提交Http请求的重要头部信息。我们可以在每次请求的时候提供不同的user_agent,绕过网站检测客户端的反爬虫机制。比如说,可以把很多的user_agent放在一个列表中,每次随机选一个用于提交访问请求。


使用代理IP和轮换


检查ip的访问情况是网站的反爬机制最喜欢也最喜欢用的方式。这种时候就可以更换不同的ip地址来爬取内容。当然,你有很多有公网ip地址的主机或者vps是更好的选择,如果没有的话就可以考虑使用代理,让代理服务器去帮你获得网页内容,然后再转发回你的电脑。代理按透明度可以分为透明代理、匿名代理和高度匿名代理:


透明代理:目标网站知道你使用了代理并且知道你的源IP地址,这种代理显然不符合我们这里使用代理的初衷。

匿名代理:匿名程度比较低,也就是网站知道你使用了代理,但是并不知道你的源IP地址。

高匿代理:这是最保险的方式,目标网站既不知道你使用的代理更不知道你的源IP 。

代理的获取方式可以去购买,当然也可以去自己爬取免费的,但是免费的代理通常不够稳定。


设置访问时间间隔


很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent 可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:

import time,random

time.sleep(random.random()*3)

对于一个crawler来说,这是一个比较responsible的做法。 

因为本来爬虫就可能会给对方网站造成访问的负载压力,所以这种防范既可以从一定程度上防止被封,还可以降低对方的访问压力。

转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 爬虫使用代理IP有什么优势

当我们要使用爬虫时,有经验的工程师肯定会配合代理IP来使用,而且网络上有很多文章也建议要使用爬虫代理IP,特别是一些优质代理IP,那么,爬虫使用代理IP有什么优势呢?爬虫在数据采集过程中,想要提高爬取的效率,就肯定会触发网站的“反爬虫措施”,限制爬虫的IP。而使用了代理IP的爬虫就不一样了,由于爬虫的IP在限制之前会不断的改变,所以爬虫就可以连续不断的工作了。爬虫使用代理IP之后,留在网站上的IP信息就是代理服务器的IP,这样就“隐藏”了爬虫的真实IP,保证了用户的网络安全。提高效率,保障安全,正是爬虫使用代理IP的优质,不过需要注意的是,只有高匿的代理IP才可以实现这一目标。... [阅读全文]

2 代理ip在爬虫与优化推广的运用

想来大多数人都比较了解代理ip,其通常被运用网站爬虫及其优化推广这两种场景设计。那接下来,随着小编一起来看看吧。在网络数据抓取这一层面运用ip代理爬虫,我们都需要了解什么?通常情况下我们都在爬虫工作上,或是某些平台网站的软网上都是看到关于爬虫中提到的高频率请求并发等字眼,请求便是新建的请求数,如果是每秒新建请求,便是每一秒能够新传出多少条HTTP请求。而高并发是指每秒的并非数,也是指每秒可同时运用的HTTP网页链接。如每秒新建10条请求,代理ip的存活有效时间是3分钟,也便是180秒。如果代理ip第一秒传出去10条新的请求,那同时也便是10个并发了,如果第二秒又增加了10条,那同时也会增加10条并非。如果第一秒的请求数没有关闭,那第二秒总共就有20条并发,以此计算,代理ip存活时长180秒有多少条并发,便是10条请求最高是支持10条并发,也便是10/秒*180/ip存活时间=1800条并发。那大家知道在通常情况下我们都会在什么样营销模式运用换ip软件吗?而对于运用代理ip能够做如下优化推广:1、网盟推广营销:有些类似于找个网络数据代销商,用手上有... [阅读全文]

热门标签

推荐阅读

  1. 03

    2018-12

    爬虫工作者一定需要代理IP吗?

    互联网时代,很多朋友从事爬虫行业,认为做爬虫就一定要使用代理IP,否则就爬取不了。其实也并非如此。爬虫程序从本质上来说,也是访问网页的用户

  2. 06

    2019-12

    网络爬虫伪装的三种方式

    爬虫和反爬虫相爱相杀,没有了爬虫,反爬虫毫无存在的意义,有了反爬虫,爬虫的日子也别想好过。爬虫每天都在想怎么甩了反爬虫,反爬虫则是每天都在想怎么黏住爬虫,它们不断的在对抗

  3. 15

    2019-05

    爬虫代理IP的时长怎么计算

    在用爬虫爬取数据的时候,为了更顺利的爬取到我们需要的数据,这时我们就要使用爬虫代理。这样有了大量的IP后,我们就可以每请求几次就更换一个IP,保证了爬取的正常进行。那么,爬虫

  4. 31

    2019-01

    为什么你的Python爬虫总是不行?

    为何称之为大数据时代,由于互联网和移动网的迅猛发展,各种各样数据信息存在在互联网世界中,由网络爬虫采集整理,以方便日后用户查看。

  5. 17

    2019-06

    爬虫使用代理IP如何高效采集数据

    如何让爬虫畅通无阻地高效稳定地夜以继日地永不停息地工作,是无数爬虫工作者梦寐以求的愿望。事实再次证明,世上无难事只怕有心人,只要拥有一个独享IP池,就可以让爬虫再也不怕封IP

  6. 14

    2018-11

    爬虫使用代理服务器的简要思路

    爬虫有的时候会遇到被禁代理的情况,这个时候你可以找一下代理网站,抓取一下免费的代理,来进行动态的轮询就没问题了,也可以用别人做好的第三方代理平台