换ip软件,代理ip软件,更改ip地址-智游代理
您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

解决爬虫采集网站时被封IP的几种方法

发布时间:2018年10月15日 来源:本站

本文主要介绍了使用爬虫采集网站时,解决被封IP常见的几种方法的相关资料,需要的朋友可以参考下。

 

方法1:

之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。

经验如下:

1.IP必须需要,如果有条件,可以直接使用成熟的代理IP服务商,类似像智游代理这种。

2.在有外网IP的机器上,部署代理服务器。

3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。

好处:

1.程序逻辑变化小,只需要代理功能。

2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。

3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。

 

方法2:

有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for即可绕过。

大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效。

 

方法3:

ADSL + 脚本,监测是否被封,然后不断切换 ip

设置查询频率限制

正统的做法是调用该网站提供的服务接口。

 

方法4:

1 user agent 伪装和轮换

2 使用代理 ip 和轮换

3 cookies 的处理,有的网站对登陆用户政策宽松些

友情提示:考虑爬虫给人家网站带来的负担,be a responsible crawler :)

 

方法5:

尽可能的模拟用户行为:

1、UserAgent经常换一换;

2、访问时间间隔设长一点,访问时间设置为随机数;

3、访问页面的顺序也可以随机着来

 

方法6:

网站封的依据一般是单位时间内特定IP的访问次数.

我是将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了。

 

方法7:

1. 对爬虫抓取进行压力控制;

2. 可以考虑使用代理的方式访问目标站点。

-降低抓取频率,时间设置长一些,访问时间采用随机数

-频繁切换UserAgent(模拟浏览器访问)

-多页面数据,随机访问然后抓取数据

-更换用户IP

按字母排序文章

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

相关文章内容简介

1 爬虫所需要的代理IP究竟是啥

在爬取某些网站时,我们经常会设置代理IP来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商(如西刺代理,快代理,无忧代理等)的免费代理。这些代理商一般都会提供透明代理,匿名代理,高匿代理。那么这几种代理的区别是什么?我们该如何选择呢?本文的主要内容是讲解各种代理 IP 背后的原理。1 代理类型代理类型一共能分为四种。除了前面提到的透明代理,匿名代理,高匿代理,还有混淆代理。从安全程度来说,这四种代理类型的排序是 高匿 > 混淆 > 匿名 > 透明。2 代理原理代理类型主要取决于代理服务器端的配置。不同配置会形成不同的代理类型。在配置中,这三个变量 REMOTE_ADDR,HTTP_VIA,HTTP_X_FORWARDED_FOR 是决定性因素。1) REMOTE_ADDRREMOTE_ADDR 表示客户端的 IP,但是它的值不是由客户端提供的,而是服务器根据客户端的 IP 指定的。如果使用浏览器直接访问某个网站,那么网站的 web 服务器(Nginx、Apache等)就会把 REMOTE_ADDR ... [阅读全文]

2 为什么爬虫需要代理IP?

在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力,所以你一直用同一个代理IP爬取这个网页,很有可能IP会被禁止访问网页,所以基本上做爬虫的都躲不过去IP的问题,需要很多的IP来实现自己IP地址的不停切换,达到正常抓取信息的目的。通常情况下,爬虫用户自己是没有能力去自己维护服务器或者是自己搞定代理ip的问题的,一来是因为技术含量太高,二来是因为成本太高当然,也有很多人会在网上放一些免费的代理ip,但是从实用性、稳定性以及安全性来考虑,不推荐大家使用免费的ip。因为网上公布的代理ip不一定是可用的,很可能你在使用过程中会发现ip不可用或者已失效的情况。所以现在市面上很多代理服务器应运而生,基本上都能给你提供代理ip的服务。现在,爬虫程序怎么样安全躲避防爬程序,可以说是一个很普遍的需求了。做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。代理IP的获取,可以... [阅读全文]

热门标签

推荐阅读

  1. 18

    2019-01

    如何选择合适的爬虫代理ip

    ​在我们学习各种编程语言的时候,出现各种异常是很常见的,拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违规操作等多种问题

  2. 12

    2019-01

    ip代理保护网络用户上网安全

    ​在互联网日益发达的今天,我们每天都在使用电脑上网网游戏、购物等等等,这成为了现代人必不可少的内容之一。

  3. 11

    2019-06

    大量爬虫代理IP如何获得

    Python是一门很神奇的语言,python应用最多的场景还是web快速开发、爬虫、自动化运维,对于Python爬虫来说,访问网站抓取信息,常常需要大量的代理IP资源,那么这些大量爬虫代理IP如何获得呢

  4. 28

    2018-11

    爬虫怎么解决封IP的问题?

    ​在网络爬虫抓取信息的过程中,如果抓取频率高过了网站的设置阀值,将会被禁止访问。通常,网站的反爬虫机制都是依据IP来标识爬虫的。

  5. 12

    2019-06

    企业爬虫如何选择合适的代理IP

    在互联网发展快速的今天,企业的发展已经离不开数据的支持。企业可以通过爬虫来进行数据收集进行分析,并制定最合适的营销方案。在数据收集的过程中,代理IP是必不可少的。那么,企业

  6. 04

    2018-12

    爬虫工作者缺数据可以用代理ip吗?

    ​近几年来互联网行业飞速发展,搞人工智能和大数据应用没有数据,好比“巧妇难为无米之炊”的尴尬。要想快速获得数据,最好的办法就是使用Python爬虫,批量从互联网搞“拿来主义”。