换ip软件,代理ip软件,更改ip地址-智游代理
首页 IP软件套餐 HTTP代理套餐 API提取 使用帮助 新闻资讯 长效IP 注册 登录 实名验证

在线咨询

800819380 售前客服
在线客服,实时响应

客户经理:
13326404693

473197630 QQ群
473197630

微信客服

您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

解决爬虫采集网站时被封IP的几种方法

发布时间:2018年10月15日 来源:智游代理 www.zhiyoudaili.com

本文主要介绍了使用爬虫采集网站时,解决被封IP常见的几种方法的相关资料,需要的朋友可以参考下。

 

方法1:

之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。

经验如下:

1.IP必须需要,如果有条件,可以直接使用成熟的代理IP服务商,类似像智游代理这种。

2.在有外网IP的机器上,部署代理服务器。

3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。

好处:

1.程序逻辑变化小,只需要代理功能。

2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。

3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。

 

方法2:

有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for即可绕过。

大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效。

 

方法3:

ADSL + 脚本,监测是否被封,然后不断切换 ip

设置查询频率限制

正统的做法是调用该网站提供的服务接口。

 

方法4:

1 user agent 伪装和轮换

2 使用代理 ip 和轮换

3 cookies 的处理,有的网站对登陆用户政策宽松些

友情提示:考虑爬虫给人家网站带来的负担,be a responsible crawler :)

 

方法5:

尽可能的模拟用户行为:

1、UserAgent经常换一换;

2、访问时间间隔设长一点,访问时间设置为随机数;

3、访问页面的顺序也可以随机着来

 

方法6:

网站封的依据一般是单位时间内特定IP的访问次数.

我是将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了。

 

方法7:

1. 对爬虫抓取进行压力控制;

2. 可以考虑使用代理的方式访问目标站点。

-降低抓取频率,时间设置长一些,访问时间采用随机数

-频繁切换UserAgent(模拟浏览器访问)

-多页面数据,随机访问然后抓取数据

-更换用户IP

转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 爬虫使用代理IP有什么优势

当我们要使用爬虫时,有经验的工程师肯定会配合代理IP来使用,而且网络上有很多文章也建议要使用爬虫代理IP,特别是一些优质代理IP,那么,爬虫使用代理IP有什么优势呢?爬虫在数据采集过程中,想要提高爬取的效率,就肯定会触发网站的“反爬虫措施”,限制爬虫的IP。而使用了代理IP的爬虫就不一样了,由于爬虫的IP在限制之前会不断的改变,所以爬虫就可以连续不断的工作了。爬虫使用代理IP之后,留在网站上的IP信息就是代理服务器的IP,这样就“隐藏”了爬虫的真实IP,保证了用户的网络安全。提高效率,保障安全,正是爬虫使用代理IP的优质,不过需要注意的是,只有高匿的代理IP才可以实现这一目标。... [阅读全文]

2 代理ip在爬虫与优化推广的运用

想来大多数人都比较了解代理ip,其通常被运用网站爬虫及其优化推广这两种场景设计。那接下来,随着小编一起来看看吧。在网络数据抓取这一层面运用ip代理爬虫,我们都需要了解什么?通常情况下我们都在爬虫工作上,或是某些平台网站的软网上都是看到关于爬虫中提到的高频率请求并发等字眼,请求便是新建的请求数,如果是每秒新建请求,便是每一秒能够新传出多少条HTTP请求。而高并发是指每秒的并非数,也是指每秒可同时运用的HTTP网页链接。如每秒新建10条请求,代理ip的存活有效时间是3分钟,也便是180秒。如果代理ip第一秒传出去10条新的请求,那同时也便是10个并发了,如果第二秒又增加了10条,那同时也会增加10条并非。如果第一秒的请求数没有关闭,那第二秒总共就有20条并发,以此计算,代理ip存活时长180秒有多少条并发,便是10条请求最高是支持10条并发,也便是10/秒*180/ip存活时间=1800条并发。那大家知道在通常情况下我们都会在什么样营销模式运用换ip软件吗?而对于运用代理ip能够做如下优化推广:1、网盟推广营销:有些类似于找个网络数据代销商,用手上有... [阅读全文]

热门标签

推荐阅读

  1. 19

    2018-12

    爬虫遇到代理IP被封应该如何解决

    作为爬虫爱好者的你,有没有遇到过搭好了分布式爬虫,正准备让程序用代理IP去抓取数据,服务器也搭好了,突然发现,办公室的IP被封掉了,这时候怎么办,应该如何解决?

  2. 29

    2018-11

    网络代理的类型及实现原理

    大家都知道,网络代理服务根据工作层次,一般可分为应用层代理、传输层代理和SOCKS代理。那么它们之间有哪些区别呢?实现原理是怎么样的呢?请看下面的介绍。

  3. 20

    2018-11

    模拟器设置网络代理失败的解决办法

    ​在互联网时代,代理这个词已经被很多人所熟悉了,有朋友说,在服务器上启动模拟器的时候加了--http-proxy,但是不起作用,小编分析了下,以下是解决办法

  4. 28

    2018-11

    网络代理和虚拟专用网络的区别

    今天小编给大家介绍一下网络代理和虚拟专用网络的区别,请看下面分享。虚拟专用网络功能是:在公用网络上建立专用网络,进行加密通讯。在企业网络

  5. 10

    2019-07

    为什么爬虫需要代理IP?

    在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力,所以你一直用同一个代理IP爬取这个网页

  6. 23

    2018-11

    用代理上网的电脑怎样共享无线网络?

    ​平常我们都喜欢用代理服务器上网,那么在这种情况下如何共享无线网络呢?请看下面的步骤。