换ip软件,代理ip软件,更改ip地址-智游代理
首页 IP软件套餐 HTTP代理套餐 API提取 使用帮助 新闻资讯 长效IP 注册 登录 实名验证

在线咨询

800819380 售前客服
在线客服,实时响应

客户经理:
13326404693

473197630 QQ群
473197630

微信客服

您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

python爬虫使用代理IP的正确方式

发布时间:2018年11月22日 来源:智游代理 www.zhiyoudaili.com

现在从事爬虫行业的朋友非常多,但是很多都不知道Python爬虫程序里应该怎样来使用代理IP,今天小编就来分享一下这方面经验。这里以python3为例,请看下面介绍。


一、首先要导入 urllib的request,然后调用ProxyHandler,它可以接受代理IP的参数。

from urllib import request

px=request.ProxyHandler()


二、接着把IP地址以字典的形式放入其中,这个IP地址是我从站大爷的短效优质代理里随便提取的一个IP。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号。

st.ProxyHandler({'http':'171.11.178.189:38458'})


三、接着再用build_opener()来构建一个opener对象。

opener=request.build_opener(px)


四、然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。

req=request.Request('网址')

res=opener.open(req)

with open('a.html','wb') as f:

 f.write(res.read())


这就是小编带来的分享了,大家明白了吗?

转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 爬虫IP被封了怎么解决

在数据采集或者爬虫的工作中,我们不可避免的会遭遇反爬封锁,所以就会有爬虫的攻防,在攻和守之间两股力量不断的抗衡。接下来就讲讲在数据采集或爬虫时ip被限制的几种解决方案问题:解决方案一:建议一定要使用代理IP;在有外网IP的机器上,部署爬虫代理服务器;使用轮训替换代理服务器来访问想要采集的网站。这样的话,你的程序逻辑变化小,只需要代理功能就可以,而且根据对方网站屏蔽规则不同,你只需要添加不同的代理就可以了。再者,就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。解决方案二:useragent伪装和轮换,使用代理ip和轮换,cookies的处理。解决方案三:使用ADSL+脚本,监测是否被封,然后不断切换ip;设置查询频率限制,也就是限制调用该网站提供的服务接口。解决方案四:网站封IP的依据一般是单位时间内特定IP的访问次数过多,采集很多网站时可以将采集的任务按目标站点的IP进行分组,然后通过控制每个IP在单位时间内发出任务的个数来避免被封。解决方案五:尽可能的模拟用户行为,比如UserAgent经常换一换,访问时间间隔设长一... [阅读全文]

2 哪种代理ip适合网络爬虫

现时代大数据兴起,网络成为了重要的部分,线上运营就有了大量的信息数据。网商竞争,市场调查,数据分析,如何获取?成就网络爬虫问世,通过网络爬虫采集才能获取到大量的数据信息。爬虫采集也不是那么简单就能爬取到数据,网站的自我保护意思,将信息保护防止流失也同样做出了相对的策略,使用了反爬虫机制。正常的用户访问网站浏览时间较长,访问也不会太过于频繁,终端网站如何对对网络爬虫作出判断的,爬虫采集需要频繁并发对服务器进行访问,访问停留很短,需要不停请求响应返回信息数据,服务器很快很能察觉发现,对其ip进行限制访问。使用代理ip隐藏真实ip,突破反爬虫机制,使爬虫采集畅通无阻。代理ip分为很多种类,那哪种代理ip适合网络爬虫?高质量优质短效代理ip,是一款专业爬虫的代理ip,高质量高匿极速,稳定绿色安全,短效3-6分钟,可选择失效或者时间切换ip,防止ip被封遭受限制,具有海量的ip存储的短效优质代理ip是网络爬虫采集的首选。... [阅读全文]

热门标签

推荐阅读

  1. 25

    2020-03

    爬虫时遇到反爬虫机制该如何处理?

    什么是网络爬虫?用简单一点的话来形容,就是实现浏览器的功能。通过指定url,将获取到用户所需的信息数据返回到客户端,而不需要一步步人工去操纵浏览器获取。有效的缩短了收集时间,

  2. 06

    2019-10

    分布式爬虫如何解决IP问题

    分布式爬虫如何解决IP问题?大数据时代来临,爬虫工作者的春天也随之来了。然而在我们进行爬虫业务时,却经常受到目标网站反爬虫机制的阻碍,尤其是分布式爬虫,因为采集信息量和采集

  3. 11

    2019-06

    优质爬虫http代理ip怎么选择?需要具备哪些特征?

    最近跟几个爬虫采集的客户聊天,无论互联网行业发展到何种地步,“资源”永远是任何互联网公司必不可少的弹药粮草。夸大些讲,任何一个互联网公司都会用到不同类型的数据。那么数据从

  4. 15

    2019-10

    python爬虫数据抓取如何解决封IP的问题

    python爬虫数据抓取如何解决封IP的问题?在python爬虫抓取信息的过程中,如果抓取频率过高,很可能收到503或者403等响应,将会被禁止访问。通常,网站的反爬虫机制都是依据IP来标识爬虫的。py

  5. 27

    2018-11

    代理IP不足时爬虫该怎么办?

    ​互联网时代,爬虫和反爬虫是一对欢喜冤家,在Python爬虫和反爬虫的对弈中,没有绝对的胜利方。

  6. 04

    2018-12

    使用代理ip如何突破反爬虫限制?

    ​在互联网中,有网络爬虫的地方,绝对少不了反爬虫的身影。网站反爬虫的拦截前提是要正确区分人类访问用户和网络机器人,当发现可疑目标时,通过限制IP地址等措施阻止你继续访问。