换ip软件,代理ip软件,更改ip地址-智游代理
您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

爬虫ip代理有哪些分类

发布时间:2018年10月07日 来源:本站

对于爬虫来说,由于爬虫爬取速度过快,在爬取过程中可能遇到同一个IP访问过于频繁的问题,此时网站就会让我们输入验证码登录或者直接封锁IP,这样会给爬取带来极大的不便。使用代理隐藏真实的IP,让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。

 

代理分类时,既可以根据协议区分,也可以根据其匿名程度区分。

 

(1)根据代理的协议,代理可以分为如下类别。

 

1.FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为212121等。

2.HTTP代理服务器:主要用于访问网页,一般有内容过滤和缓存功能,端口一般为8080803128等。

3.SSL/TLS代理:主要用于访问加密网站,一般有SSLTLS加密功能(最高支持128位加密强度),端口一般为443

4.RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554

5.Telnet代理:主要用于telnet远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23

6.POP3/SMTP代理:主要用于POP3/SMTP方式收发邮件,一般有缓存功能,端口一般为110/257.SOCKS代理:只是单纯传递数据包,不关心具体协议和用法,所以速度快很多,一般有缓存功能,端口一般为1080SOCKS代理协议又分为SOCKS4SOCKS5,前者只支持TCP,而后者支持TCPUDP,还支持各种身份验证机制、服务器端域名解析等。简单来说,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。 爬虫代理分类有哪些?

 

(2)根据匿名程度


根据代理的匿名程度,代理可以分为如下类别。

 

1.高度匿名代理:会将数据包原封不动地转发,在服务端看来就好像真的是一个普通客 户端在访问,而记录的IP是代理服务器的IP

 

2.普通匿名代理:会在数据包上做一些改动,服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP。代理服务器通常会加入的HTTP头有HTTP_VIAHTTP_X_FORWARDED_FOR

 

3.透明代理:不但改动了数据包,还会告诉服务器客户端的真实IP。这种代理除了能用缓存技术提高浏览速度,能用内容过滤提高安全性之外,并无其他显著作用,最常见的例子是内网中的硬件防火墙。

 

4.间谍代理:指组织或个人创建的用于记录用户传输的数据,然后进行研究、监控等目的的代理服务器。

按字母排序文章

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

相关文章内容简介

1 爬虫所需要的代理IP究竟是啥

在爬取某些网站时,我们经常会设置代理IP来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商(如西刺代理,快代理,无忧代理等)的免费代理。这些代理商一般都会提供透明代理,匿名代理,高匿代理。那么这几种代理的区别是什么?我们该如何选择呢?本文的主要内容是讲解各种代理 IP 背后的原理。1 代理类型代理类型一共能分为四种。除了前面提到的透明代理,匿名代理,高匿代理,还有混淆代理。从安全程度来说,这四种代理类型的排序是 高匿 > 混淆 > 匿名 > 透明。2 代理原理代理类型主要取决于代理服务器端的配置。不同配置会形成不同的代理类型。在配置中,这三个变量 REMOTE_ADDR,HTTP_VIA,HTTP_X_FORWARDED_FOR 是决定性因素。1) REMOTE_ADDRREMOTE_ADDR 表示客户端的 IP,但是它的值不是由客户端提供的,而是服务器根据客户端的 IP 指定的。如果使用浏览器直接访问某个网站,那么网站的 web 服务器(Nginx、Apache等)就会把 REMOTE_ADDR ... [阅读全文]

2 为什么爬虫需要代理IP?

在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力,所以你一直用同一个代理IP爬取这个网页,很有可能IP会被禁止访问网页,所以基本上做爬虫的都躲不过去IP的问题,需要很多的IP来实现自己IP地址的不停切换,达到正常抓取信息的目的。通常情况下,爬虫用户自己是没有能力去自己维护服务器或者是自己搞定代理ip的问题的,一来是因为技术含量太高,二来是因为成本太高当然,也有很多人会在网上放一些免费的代理ip,但是从实用性、稳定性以及安全性来考虑,不推荐大家使用免费的ip。因为网上公布的代理ip不一定是可用的,很可能你在使用过程中会发现ip不可用或者已失效的情况。所以现在市面上很多代理服务器应运而生,基本上都能给你提供代理ip的服务。现在,爬虫程序怎么样安全躲避防爬程序,可以说是一个很普遍的需求了。做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。代理IP的获取,可以... [阅读全文]

热门标签

推荐阅读

  1. 20

    2018-11

    如何设置网络代理

    ​在日常工作中,有的网站打不开,受到了限制,这可以用代理服务器来访问。那么,如何使用代理IP呢?

  2. 25

    2019-02

    JAVA如何使用代理IP来进行爬虫采集

    如果说爬虫的出现是为了爬取网页信息,收集数据的,那么代理IP的出现就是为了爬虫保驾护航的,爬虫大家都知道,我们总在一个网站爬取的时候,网站的反爬虫机制可能会对我们的IP进行限

  3. 18

    2019-06

    爬虫如何避免封IP

    爬虫如何避免封IP?做爬虫,碰到最多的问题不是代码bug,而是封IP。开发好一个爬虫,部署好服务器,然后开始抓取信息,不一会儿,就提示封IP了,这时候的内心是崩溃的。那么,有什么办法

  4. 31

    2018-12

    如何选择爬虫所需的代理IP

    在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。

  5. 10

    2019-07

    为什么爬虫需要代理IP?

    在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力,所以你一直用同一个代理IP爬取这个网页

  6. 21

    2019-01

    python如何设置使用http代理

    大家对HTTP代理应该都非常熟悉,它在很多方面都有着极为广泛的应用。HTTP代理分为正向代理和反向代理两种,后者一般用于将防火墙后面的服务提供给用户访问或者进行负载均衡