换ip软件,代理ip软件,更改ip地址-智游代理
首页 IP软件套餐 HTTP代理套餐 API提取 使用帮助 新闻资讯 长效IP 注册 登录 实名验证

在线咨询

800819380 售前客服
在线客服,实时响应

客户经理:
13326404693

473197630 QQ群
473197630

微信客服

您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

解决爬虫采集网站时被封IP的几种方法

发布时间:2018年10月15日 来源:智游代理 www.zhiyoudaili.com

本文主要介绍了使用爬虫采集网站时,解决被封IP常见的几种方法的相关资料,需要的朋友可以参考下。

 

方法1:

之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。

经验如下:

1.IP必须需要,如果有条件,可以直接使用成熟的代理IP服务商,类似像智游代理这种。

2.在有外网IP的机器上,部署代理服务器。

3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。

好处:

1.程序逻辑变化小,只需要代理功能。

2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。

3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。

 

方法2:

有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for即可绕过。

大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效。

 

方法3:

ADSL + 脚本,监测是否被封,然后不断切换 ip

设置查询频率限制

正统的做法是调用该网站提供的服务接口。

 

方法4:

1 user agent 伪装和轮换

2 使用代理 ip 和轮换

3 cookies 的处理,有的网站对登陆用户政策宽松些

友情提示:考虑爬虫给人家网站带来的负担,be a responsible crawler :)

 

方法5:

尽可能的模拟用户行为:

1、UserAgent经常换一换;

2、访问时间间隔设长一点,访问时间设置为随机数;

3、访问页面的顺序也可以随机着来

 

方法6:

网站封的依据一般是单位时间内特定IP的访问次数.

我是将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了。

 

方法7:

1. 对爬虫抓取进行压力控制;

2. 可以考虑使用代理的方式访问目标站点。

-降低抓取频率,时间设置长一些,访问时间采用随机数

-频繁切换UserAgent(模拟浏览器访问)

-多页面数据,随机访问然后抓取数据

-更换用户IP

转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 通用的爬虫系统有哪些类型?

通用的爬虫系统有哪些类型?爬虫技术就是一个高效的下载系统,能够将海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。根据具体应用的不同,爬虫系统虽然在许多细节方面存在差异,但大体可以将爬虫系统分为如下3种类型:一、批量型爬虫:批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。至于具体目标可能各异,也许是设定抓取一定数量的网页即可,也许是设定抓取的时间等,各不一样;二、增量型爬虫:增量型爬虫与批量型爬虫不同,会保持持续不断地抓取,对于抓取到的网页,要定期更新。因为互联网网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类;三、垂直型爬虫:垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如对于养生网站来说,只需要从互联网页面里找到与养生相关的页面内容即可,其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是:如何识别网页内容是否属于指定行业或主题。从节... [阅读全文]

2 网络爬虫伪装有哪些方式?

爬虫和反爬虫一直相爱相杀着:没有爬虫,反爬虫毫无存在的意义;有了反爬虫,爬虫的日子也别想好过。爬虫每天都在想怎么甩了反爬虫,反爬虫则是每天都在想怎么黏住爬虫,它们不断地在对抗中,不断地在提升自己,谁落后谁就要输。爬虫在此期间为了甩开反爬虫自创了一招技能——伪装术,这技能又分为三招,分别是:伪装UA、伪装IP和伪装真实用户。下面我们来将技能进行分解,希望对新手朋友们有所帮助。一、伪装UA。UA全称是User-Agent,叫做用户代理,不同的浏览器UA各有不同。反爬虫会根据UA来判断某个IP是否爬虫,所以需要进行伪装。网上有很多UA,搜集起来写在自己的配置里,在添加UA的时候随机选一个,这样毫无规律地设置UA,会让反爬虫傻眼;二、伪装IP。很多时候反爬虫都是根据单IP的行为来判断是否爬虫,比如某IP访问频率太快,访问次数太多了……反爬虫就会限制IP再次访问。解决方法也很简单,找代理IP服务商购买高效稳定的代理IP,比如智游代理的动态高质量代理;三、伪装真实用户。这个伪装技术就比较厉害了,反爬虫不可能杀死真实用户,不然网站就没什么意义了。那么如何伪装真... [阅读全文]

热门标签

推荐阅读

  1. 20

    2018-11

    代理服务器的网络作用详解

    ​代理服务器大家都是很熟悉了,小编前面的文章中已经介绍了很多相关内容,今天给大家介绍一下它的网络作用,请看下面。

  2. 12

    2019-06

    企业爬虫如何选择合适的代理IP

    在互联网发展快速的今天,企业的发展已经离不开数据的支持。企业可以通过爬虫来进行数据收集进行分析,并制定最合适的营销方案。在数据收集的过程中,代理IP是必不可少的。那么,企业

  3. 12

    2018-11

    爬虫代理ip对网络营销有什么作用?

    自网络兴起后,不断发展完善,对于用户而言,网络的限制也越来越多,这对于网络优化人员来讲是一件不利的事情,注册数量限制,IP也限制,影响工作效果,这其实可以使用智游代理

  4. 21

    2019-05

    爬虫加代理的三种方式

    爬虫的时候,我们用同一个ip反复爬一个网站有可能会被封,这时候就需要使用到代理,下面为大家介绍爬虫加代理的三种方式,一起来了解看看吧!1.Selenium调用代理 from selenium import webdriver

  5. 17

    2019-06

    爬虫代理IP不足该怎么解决

    目前,很多网站的反爬虫策略都是根据识别到的IP来分辨的,当我们访问这个网站的时候IP就会被记录,如果操作不当,就会被服务器认定这个IP为爬虫,就会限制或者禁止这个IP的继续访问。那

  6. 10

    2019-07

    为什么爬虫需要代理IP?

    在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力,所以你一直用同一个代理IP爬取这个网页