换ip软件,代理ip软件,更改ip地址-智游代理
首页 IP软件套餐 HTTP代理套餐 API提取 使用帮助 新闻资讯 长效IP 注册 登录 实名验证

在线咨询

800819380 售前客服
在线客服,实时响应

客户经理:
13326404693

473197630 QQ群
473197630

微信客服

您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

爬虫IP被禁怎么解决?可以使用代理ip吗

发布时间:2019年01月02日 来源:智游代理 www.zhiyoudaili.com

爬虫以前听上去好厉害好神秘的样子,用好了可以成就像Google、百度这样的索索引擎,用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每年扛住的并发请求量,觉得好牛逼。


peitu1.png


爬虫和反爬虫从一直以来都是一个道高一尺魔高一丈的架势。反爬虫技术增加了爬取的难度,各路crawler的爬取过程可以说是一个和各种网站站长斗智斗勇的过程,各种解决方式可谓层出不穷,但是这里说是“简单”解决方案,肯定就是立足于一些比较基础的方法,分分钟就可以上手。


user_agent 伪装和轮换


不同浏览器的不同版本都有不同的user_agent,是浏览器类型的详细信息,也是浏览器提交Http请求的重要头部信息。我们可以在每次请求的时候提供不同的user_agent,绕过网站检测客户端的反爬虫机制。比如说,可以把很多的user_agent放在一个列表中,每次随机选一个用于提交访问请求。


使用代理IP和轮换


检查ip的访问情况是网站的反爬机制最喜欢也最喜欢用的方式。这种时候就可以更换不同的ip地址来爬取内容。当然,你有很多有公网ip地址的主机或者vps是更好的选择,如果没有的话就可以考虑使用代理,让代理服务器去帮你获得网页内容,然后再转发回你的电脑。代理按透明度可以分为透明代理、匿名代理和高度匿名代理:


透明代理:目标网站知道你使用了代理并且知道你的源IP地址,这种代理显然不符合我们这里使用代理的初衷。

匿名代理:匿名程度比较低,也就是网站知道你使用了代理,但是并不知道你的源IP地址。

高匿代理:这是最保险的方式,目标网站既不知道你使用的代理更不知道你的源IP 。

代理的获取方式可以去购买,当然也可以去自己爬取免费的,但是免费的代理通常不够稳定。


设置访问时间间隔


很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent 可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:

import time,random

time.sleep(random.random()*3)

对于一个crawler来说,这是一个比较responsible的做法。 

因为本来爬虫就可能会给对方网站造成访问的负载压力,所以这种防范既可以从一定程度上防止被封,还可以降低对方的访问压力。

转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 哪种代理ip适合网络爬虫

现时代大数据兴起,网络成为了重要的部分,线上运营就有了大量的信息数据。网商竞争,市场调查,数据分析,如何获取?成就网络爬虫问世,通过网络爬虫采集才能获取到大量的数据信息。爬虫采集也不是那么简单就能爬取到数据,网站的自我保护意思,将信息保护防止流失也同样做出了相对的策略,使用了反爬虫机制。正常的用户访问网站浏览时间较长,访问也不会太过于频繁,终端网站如何对对网络爬虫作出判断的,爬虫采集需要频繁并发对服务器进行访问,访问停留很短,需要不停请求响应返回信息数据,服务器很快很能察觉发现,对其ip进行限制访问。使用代理ip隐藏真实ip,突破反爬虫机制,使爬虫采集畅通无阻。代理ip分为很多种类,那哪种代理ip适合网络爬虫?高质量优质短效代理ip,是一款专业爬虫的代理ip,高质量高匿极速,稳定绿色安全,短效3-6分钟,可选择失效或者时间切换ip,防止ip被封遭受限制,具有海量的ip存储的短效优质代理ip是网络爬虫采集的首选。... [阅读全文]

2 爬虫需要大量IP怎样解决

现阶段,许多网站的反爬虫对策基本都是依据识别到的IP来分辨的,在我们浏览这一网站的时候IP便会被记录,假如操作方法不当,便会被服务器评定这一IP为爬虫,便会限制或是禁止这一IP的继续访问。那么,爬虫需要大量IP怎样解决呢?爬虫被限制最普遍的根本原因是爬取的频率过快,超出了目标网站设定的时长,便会被该服务器禁止访问。因此,许多爬虫工作者都是会挑选代理IP来协助工作正常开展。有时候使用了代理IP,但还是会遇到IP不够用的情况。假如再次购入,成本会提高。可以采用以下方法尝试解决:1.降低爬取速度,削减IP或是其它资源的损耗,但如此会降低工作的效率,很有可能会影响到工作的速度。2.提高爬虫技术,将多余的流程削减,将程序的工作效率提高,如此还可以削减对IP或其它资源的损耗。假如通过这两个方法依然不能处理问题,就只有再次购入代理IP了。智游代理高匿稳定,海量IP任意选,爬虫解决反爬虫完全无压力。... [阅读全文]

热门标签

推荐阅读

  1. 15

    2018-12

    http爬虫代理可以分为哪几种

    ​许多Python爬虫爱好者在利用爬虫采集网站数据时,IP被封是很正常的,很多网站为了防止采集都会设定这个功能,这个时候就需要用到http代理IP。

  2. 21

    2019-01

    python如何设置使用http代理

    大家对HTTP代理应该都非常熟悉,它在很多方面都有着极为广泛的应用。HTTP代理分为正向代理和反向代理两种,后者一般用于将防火墙后面的服务提供给用户访问或者进行负载均衡

  3. 11

    2020-06

    网站怎样检测被爬虫

    你有没有想过网站是依据什么来判断现在有爬虫正在抓取自己网站信息?那么网站的反爬虫机制是以什么为基准来建立的呢。下面来介绍4中最常见的方式:

  4. 10

    2019-06

    爬虫代理IP不够的问题如何解决

    爬虫代理IP不够的问题如何解决?在爬虫工作过程中,经常会被目标网站禁止访问,但又找不到原因,这是令人非常恼火的事情。一般来说,目标网站的反爬虫策略都是依靠IP来标识爬虫的,很

  5. 28

    2019-09

    爬虫代理服务商哪家好用

    或许我们在网上冲浪的时候,有时候会用到代理的,爬虫代理在目前是很火热的。之所以要用到爬虫代理,是因为我们有时候需要更换ip,但是爬虫代理服务商哪家好用呢?尤其是做爬虫抓取数

  6. 17

    2019-01

    代理ip与爬虫有什么关系

    爬虫一直是python使用的一个重要部分,而许多网站也为此做了许多反爬措施,其中爬虫访问过于频繁直接封ip地址也作为一种“伤敌一千,自损八百”的方法被许多网站采用