
qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
400-998-9776转3
一、为何要设置User Agent
有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。
User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁在访问。在Python中,如果不设置User Agent,程序将使用默认的参数,那么这个User Agent就会有Python的字样,如果服务器检查User Agent,那么没有设置User Agent的Python程序将无法正常访问网站。
Python允许我们修改这个User Agent来模拟浏览器访问,它的强大毋庸置疑。
二、常见的User Agent
1.Android
Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19
Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30
Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
2.Firefox
Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0
Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0
3.Google Chrome
Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36
Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19
4.iOS
Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3
Mozilla/5.0 (iPod; U; CPU like Mac OS X; en) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/3A101a Safari/419.3
上面列举了Andriod、Firefox、Google Chrome、iOS的一些User Agent,直接copy就能用。
三、IP代理的使用
1.为何使用IP代理
UA已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。
2.代理IP选取
在写代码之前,先在代理IP网站选好一个IP地址,这里推介亿牛云代理。他们家产品比较齐全,api接口调用和动态转发调用都支持,而且代理是自营线路,电信专线。我稳定性,可用性,速度吗,延迟都是非常好的。这里就展示下他们的动态转发代理进行示例,动态转发就是他们会提供一个固定的ip地址给你,,直接配置到程序里面就可以使用,不需要自己去调用ip,也不需要自己管理ip池,使用起来超级方便简单,对于懒人来说绝对是最好的选择。
代码示例,这里是以python为例子
1、Python¶
requests
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = http://httpbin.org/ip
# 要访问的目标HTTPS页面
# targetUrl = https://httpbin.org/ip
# 代理服务器
proxyHost = t.16yun.cn
proxyPort = 31111
# 代理隧道验证信息
proxyUser = username
proxyPass = password
proxyMeta = http://%(user)s:%(pass)s@%(host)s:%(port)s % {
host : proxyHost,
port : proxyPort,
user : proxyUser,
pass : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
http : proxyMeta,
https : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {Proxy-Tunnel: str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
转载注明来自:智游代理IP http://www.zhiyoudaili.com/
相关文章内容简介
1 选择代理IP要从实际出发
很多互联网方面的工作都需要使用代理IP,可以说代理IP已经越来越普遍了。代理IP有多种类型,我们应该如何选择呢?代理IP的作用就是通过更换新的IP来代替自己的真实IP,这样做有很多好处,但是不同类型的代理IP使用效果也是不同的,所以代理IP一定要根据自己的实际情况进行选择。代理IP最常见的应用就是爬虫,因为爬虫在进行数据采集时,会向目标服务器发出大量请求,导致目标服务器压力增加,从而触发网站的反爬虫机制,这样爬虫的IP就会被限制了。如果想要继续爬取,就必须要更换IP才行,这时就可以使用代理IP来更换爬虫的IP了。不过爬虫需要隐匿性好的代理IP,否则即使更换了IP同样会被限制,所以爬虫要选择高匿代理IP。而有的业务不像爬虫那样需要很高的隐匿性,所以选择透明代理或者普通匿名代理就可以了。... [阅读全文]
2 网络扫描获取的代理ip能用吗?
从事互联网大数据的工作者都众所周知代理ip的来源方式有很多,获取到的ip用途千百种,如网络爬虫采集,网络营销,投票助力等等,用途广泛,深受广大用户使用。代理ip来源有哪些获取方式?网络扫描获取的代理ip能用吗?ADLS动态拨号VPS;购买动态拨号VPS,通过拨号获取到ip,更繁琐的是需要自己搭建ip池。通过处理后放入ip池中待用,通过生成的提取链接提取ip使用。这种ip需要时间和大力的精力去维护,成本也相对来说偏高,但ip的质量很高,因为可以根据自己的需求量身定制。收费代理ip在网上有很多代理ip的服务商,如开心代理ip服务平台,这种ip是现成制定好的,购买后通过api直接获取即可使用,这种代理ip简单方便,特殊业务还可以私人定制,ip质量高,不需要花时间精力维护,性价比极高,所以这种方式也是大部分所选择的。网络扫描获取ip很多用户为了省钱节约成本会自己写代码在网上扫描大量的公用ip,然后自己筛选后放入搭建好的ip池中,这种ip可用率极低,不到10%有效率,还有一个众所周知的问题,就是不安全,万人骑,很多人都使用过,不知道使用前别人用这个ip做什... [阅读全文]
热门标签
最新标签
推荐阅读
20
2019-05
使用代理IP的常见问题
前些天有客户对关于ip代理的几个问题不解,求解答,下面小编把这些问题整理了出来,供给大家参考。1、代理商靠什么提供代理服务,大型服务器?大型路由器?2、免费代理为了什么提供免
30
2019-06
免费代理IP和付费代理IP的差异
使用过代理IP的用户都知道,代理IP有免费使用的,也有付费使用的。首先免费代理IP就如字面意思是免费使用的,虽然表面不花钱,但免费代理IP可以用的几率很小,增加了时间成本。这种免费
11
2019-06
如何利用代理ip保护自己
早前,代理ip并没有被人们时长接触到,更早之前,甚至有人还不知道什么ip,更别说代理ip了。但是随着时代的发展,以及互联网的不断进步,越来越多的人也就开始意识到了ip,尤其是代理ip
09
2019-08
免费代理IP为什么不安全
在使用代理IP的时候,大家都喜欢用免费的,因为不花钱,但是很多人都说免费代理IP不安全,还有很多用户不了解。那么,免费代理IP为什么不安全?在上网的时候,用了免费代理IP后,我们在
25
2019-06
哪家定制代理IP比较好
说到IP,大家可能首先想到的是IP地址,是一个由数字组成的IP组合,但是这里说要的是我们做网络业务的时候使用到的代理IP,那么在什么时候会使用到代理IP呢?在我们做网络业务,注册、抢
14
2020-01
Java中如何设置使用代理IP发送网络请求
Java中如何设置使用代理IP发送网络请求?Java中有两种方法可以实现用代理IP连接网络。方式一,设置系统属性
热门文章