换ip软件,代理ip软件,更改ip地址-智游代理
您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

爬虫使用代理防封IP

发布时间:2018年11月08日 来源:本站

在写爬虫爬取数据的时候,经常会遇到“HTTP Error 403: Forbidden”的提示,其实它只是一个HTTP状态码,表示你在请求一个资源文件但是nginx不允许你查看。不属于技术上的错误,但也需要技术解决。 


哪些场景需要返回403状态码的场景?


1、网站禁止特定的用户访问所有内容,例:网站屏蔽某个ip访问。

2、访问禁止目录浏览的目录,例:设置autoindex off后访问目录。

3、用户访问只能被内网访问的文件


以上几种常见的需要返回 403 Forbidden 的场景。


所以为了防止返回403状态码防止爬虫被封,是需要及时更换不同IP,下面记录一下python 使用代理爬取的过程。


直接上代码:


image.png

爬虫经验说明:

免费的代理很不太稳定,而且可用率太低,不高匿,安全性不高,如果大量长时间爬取,还是稍微花点小钱使用IP代理商提供的,高效安心。


zhiyou3 (1).png


智游代理可为您提供海量IP资源,官网可领取免费试用时长,我们保证资源的稳定性和可用性,给您带来更好的“互联网+”时代的体验,我们还可以针对您的要求为您提供高质量的定制服务,助您不间断获取行业数据,赢在大数据时代,更多问题官网咨询客服。


按字母排序文章

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

相关文章内容简介

1 爬虫所需要的代理IP究竟是啥

在爬取某些网站时,我们经常会设置代理IP来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商(如西刺代理,快代理,无忧代理等)的免费代理。这些代理商一般都会提供透明代理,匿名代理,高匿代理。那么这几种代理的区别是什么?我们该如何选择呢?本文的主要内容是讲解各种代理 IP 背后的原理。1 代理类型代理类型一共能分为四种。除了前面提到的透明代理,匿名代理,高匿代理,还有混淆代理。从安全程度来说,这四种代理类型的排序是 高匿 > 混淆 > 匿名 > 透明。2 代理原理代理类型主要取决于代理服务器端的配置。不同配置会形成不同的代理类型。在配置中,这三个变量 REMOTE_ADDR,HTTP_VIA,HTTP_X_FORWARDED_FOR 是决定性因素。1) REMOTE_ADDRREMOTE_ADDR 表示客户端的 IP,但是它的值不是由客户端提供的,而是服务器根据客户端的 IP 指定的。如果使用浏览器直接访问某个网站,那么网站的 web 服务器(Nginx、Apache等)就会把 REMOTE_ADDR ... [阅读全文]

2 为什么爬虫需要代理IP?

在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力,所以你一直用同一个代理IP爬取这个网页,很有可能IP会被禁止访问网页,所以基本上做爬虫的都躲不过去IP的问题,需要很多的IP来实现自己IP地址的不停切换,达到正常抓取信息的目的。通常情况下,爬虫用户自己是没有能力去自己维护服务器或者是自己搞定代理ip的问题的,一来是因为技术含量太高,二来是因为成本太高当然,也有很多人会在网上放一些免费的代理ip,但是从实用性、稳定性以及安全性来考虑,不推荐大家使用免费的ip。因为网上公布的代理ip不一定是可用的,很可能你在使用过程中会发现ip不可用或者已失效的情况。所以现在市面上很多代理服务器应运而生,基本上都能给你提供代理ip的服务。现在,爬虫程序怎么样安全躲避防爬程序,可以说是一个很普遍的需求了。做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。代理IP的获取,可以... [阅读全文]

热门标签

推荐阅读

  1. 12

    2019-03

    可以使用换ip软件访问淘宝吗?

    可以使用换ip软件访问淘宝吗?​淘宝是亚太地区的大型综合C2C在线购物平台。它目前拥有数亿注册会员和数千家商店。这么多商店,这么多商品,他们怎么排名?

  2. 19

    2018-11

    python爬虫可以离开代理IP?

    做过python爬虫的人应该都知道,抓取网站数据多了,如果爬得过快,免不了触发网站的防爬机制,而最普遍的防爬手段,几乎用的同一招就是封IP,那么我们如何摆脱这个困境呢?

  3. 02

    2019-07

    浅析分布式爬虫使用代理IP的几种方案

    没有代理IP,爬虫工作将寸步难行,所以很多爬虫工程师都需要去选购高效稳定的代理IP。有了优质代理IP后,是不是就可以高枕无忧了呢?事情没有那么简单,还需要优化方案,合理分配资源,

  4. 15

    2018-11

    爬虫代理IP该怎么用

    写网络爬虫时,大家都知道,如果爬虫抓取速度过快或者抓的网站和数据多了,经常会遇到ip频繁访问被封的问题。那么如何解决这种问题呢?

  5. 29

    2018-11

    爬虫代理技术有什么优点?

    ​在如今这个互联网发达的时代,很多工作都要通过互联网交易,这些互联网工作使用到爬虫代理技术的机会有很多。那么,爬虫的代理技术能帮助互联网工作哪些方面?或者说它有什么优点呢

  6. 10

    2018-11

    爬虫怎样设置代理ip池

    在网络迅速发展的今天,互联网企业层出不穷,爬虫工作者也越来越多,大家都知道,代理ip是爬虫工作者的一个有力助手