换ip软件,代理ip软件,更改ip地址-智游代理
首页 IP软件套餐 HTTP代理套餐 API提取 使用帮助 新闻资讯 长效IP 注册 登录 实名验证

在线咨询

800819380 售前客服
在线客服,实时响应

客户经理:
13326404693

473197630 QQ群
473197630

微信客服

您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

网络蜘蛛安全隐患 web如何应对有害爬虫

发布时间:2019年02月15日 来源:智游代理 www.zhiyoudaili.com

网络爬虫概述


网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。不断优化的网络爬虫技术正在有效地应对这种挑战,为高效搜索用户关注的特定领域与主题提供了有力支撑。网络爬虫也为中小站点的推广提供了有效的途径,网站针对搜索引擎爬虫的优化曾风靡一时。


传统网络爬虫从一个或若干个初始网页的URL(Universal Resource Locator统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定条件停止抓取。现阶段网络爬虫已发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法综合应用的智能工具。


网络爬虫


网络爬虫的安全性问题


由于网络爬虫的策略是尽可能多的“爬过”网站中的高价值信息,会根据特定策略尽可能多的访问页面,占用网络带宽并增加Web服务器的处理开销,不少小型站点的站长发现当网络爬虫光顾的时候,访问流量将会有明显的增长。恶意用户可以利用爬虫程序对Web站点发动DoS攻击,使Web服务在大量爬虫程序的暴力访问下,资源耗尽而不能提供正常服务。恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当用途,主要表现在以下几个方面:


1)搜索目录列表


互联网中的许多Web服务器在客户端请求该站点中某个没有默认页面的目录时,会返回一个目录列表。该目录列表通常包括可供用户点击的目录和文件链接,通过这些链接可以访问下一层目录及当前目录中的文件。因而通过抓取目录列表,恶意用户往往可获取大量有用的资料,包括站点的目录结构、敏感文件以及 Web服务器设计架构及配置信息等等,比如程序使用的配置文件、日志文件、密码文件、数据库文件等,都有可能被网络爬虫抓取。这些信息可以作为挑选攻击目标或者直接入侵站点的重要资料。


2)搜索测试页面、手册文档、样本程序及可能存在的缺陷程序

大多数Web服务器软件附带了测试页面、帮助文档、样本程序及调试用后门程序等。这些文件往往会泄漏大量的系统信息甚至提供绕过认证直接访问Web服务数据的方法,成为恶意用户分析攻击Web服务器的有效情报来源。而且这些文件的存在本身也暗示网站中存在潜在的安全漏洞。


3)搜索管理员登录页面

许多网络产品提供了基于Web的管理接口,允许管理员在互联网中对其进行远程管理与控制。如果管理员疏于防范,没有修改网络产品默认的管理员名及密码,一旦其管理员登录页面被恶意用户搜索到,网络安全将面临极大的威胁。


4)搜索互联网用户的个人资料

互联网用户的个人资料包括姓名、身份证号、电话、Email地址、QQ号、通信地址等个人信息,恶意用户获取后容易利用社会工程学实施攻击或诈骗。

因此,采取适当的措施限制网络爬虫的访问权限,向网络爬虫开放网站希望推广的页面,屏蔽比较敏感的页面,对于保持网站的安全运行、保护用户的隐私是极其重要的。


基于网络爬虫技术的Web漏洞扫描


前面提到的网络爬虫对网站的间接安全威胁,是通过对网络站点的信息收集为不法份子的非法访问、攻击或诈骗作准备。随着安全技术的发展,利用网络爬虫技术对Web漏洞的直接探测已经出现,这会直接影响到Web服务器的安全。Web服务器漏洞中,跨站脚本(Cross Site Script)漏洞与SQL注入(SQL Injection)漏洞所占比例很高,这两种漏洞均可以通过对网络爬虫的改进来进行探测。由于缺乏足够的安全知识,相当多的程序员在编写Web应用程序时对网页的请求内容缺乏足够的检查,使得不少Web应用程序存在安全隐患。用户可以通过提交一段精心构造的包含SQL语句或脚本的URL请求,根据程序的返回结果获得有关的敏感信息甚至直接修改后台数据。基于目前的安全现状,网络爬虫技术在Web漏洞扫描上的应用,大大提高了发现漏洞的效率。


基于网络爬虫技术的Web漏洞扫描大至分为如下过程:


1)页面过滤:通过自动化的程序抓取网站页面,对包Web页面进行URL提取处理,这些HTML标签中包含URL信息,便于恶意用户进行更深入的Web访问或提交操作。


2)URL匹配:对Web页面中的URL进行自动匹配,提取由参数组合而成的动态查询URL或提交URL,进行下一步的漏洞探测。如动态查询 URL“http://baike.xxxx.com/searchword/?word=frameset&pic=1”,其中 frameset为URL中动态的参数部分,可以进行参数变换。提交URL用于把Web用户的输入提交到服务器进行处理,其参数多为用户输入,同样可以进行参数变换。


3)漏洞试探:根据动态查询URL或提交URL,自动在参数部分进行参数变换,插入引号、分号(SQL注入对其敏感)及script标签(XSS对 其敏感)等操作进行试探,并根据Web服务器返回的结果自动判断是否存在漏洞。如“URL匹配”中的动态查询URL可以变换成 http://baike.xxxx.com/searchword/?word= &pic=1进行跨站脚本漏洞探测。


如何应对爬虫的安全威胁


由于网络爬虫带来的安全威胁,不少网站的管理人员都在考虑对爬虫访问进行限制甚至拒绝爬虫访问。实际上,根据网站内容的安全性及敏感性,区别对待爬 虫是比较理想的措施。网站的URL组织应该根据是否为适合大范围公开,设置不同的URL路径,在同一Web页面中既有需要完全公开信息也有敏感信息时,应 通过链接、标签嵌入网页等方式显示敏感内容,另外尽可能把静态页面等经评估安全性较高的页面与安全性较差的动态页面从URL上分开。当限制爬虫时可以针对 URL路径的安全性与敏感性对不同种类的爬虫与代理进行限制。


限制爬虫可以通过以下几种方法实现:


1) 设置robots.txt文件


限制爬虫最简单的方法是设置robots.txt文件。robots.txt文件是搜索引擎爬虫访问网站的时候要查看的第一个文件,它告诉爬虫程序在服务器上什么文件是可以被查看的,如设置Disallow: /,则表示所有的路径均不能查看。遗憾的是并不是所有的搜索引擎爬虫会遵守这个规则,因此仅仅设置robots文件是不够的。


2) User Agent识别与限制


要对不理会robots.txt文件的爬虫访问进行限制,首先要把爬虫流量与普通用户的访问流量进行区分,即对其进行识别。一般的爬虫程序都可以通过其HTTP请求中的User Agent字段进行识别,该字段使服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。爬虫的User Agent字段一般与浏览器的有所不同,如Google搜索引擎爬虫User Agent字段中会有类似Googlebot的字符串,如User-Agent: Googlebot/2.1 ( http://www.google.com/bot.html),百度搜索引擎爬虫则会有类似Baiduspider的字符串。不少Web服务器软件如 Apache,可以设置通过User Agent字段进行访问过滤,可以比较有效的限制大部分爬虫的访问。


3) 通过访问行为特征识别与限制


对于在HTTP请求的User Agent字段刻意伪装成浏览器的爬虫,可以通过其访问行为特征进行识别。爬虫程序的访问一般是有规律性的频率比较高,区别于真实用户浏览时的随意性与低 频率。对这类爬虫的限制原理与DDoS攻击的防御原理很相似,都基于统计数据。对于这类爬虫的限制只能通过应用识别设备、IPS等能够做深度识别的网络设 备来实现。用网络设备限制网络爬虫,不仅比较全面,而且非常适合在多服务器情况下进行统一的管理,避免多服务器单独管理有可能造成的疏漏。

转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 代理ip在爬虫与优化推广的运用

想来大多数人都比较了解代理ip,其通常被运用网站爬虫及其优化推广这两种场景设计。那接下来,随着小编一起来看看吧。在网络数据抓取这一层面运用ip代理爬虫,我们都需要了解什么?通常情况下我们都在爬虫工作上,或是某些平台网站的软网上都是看到关于爬虫中提到的高频率请求并发等字眼,请求便是新建的请求数,如果是每秒新建请求,便是每一秒能够新传出多少条HTTP请求。而高并发是指每秒的并非数,也是指每秒可同时运用的HTTP网页链接。如每秒新建10条请求,代理ip的存活有效时间是3分钟,也便是180秒。如果代理ip第一秒传出去10条新的请求,那同时也便是10个并发了,如果第二秒又增加了10条,那同时也会增加10条并非。如果第一秒的请求数没有关闭,那第二秒总共就有20条并发,以此计算,代理ip存活时长180秒有多少条并发,便是10条请求最高是支持10条并发,也便是10/秒*180/ip存活时间=1800条并发。那大家知道在通常情况下我们都会在什么样营销模式运用换ip软件吗?而对于运用代理ip能够做如下优化推广:1、网盟推广营销:有些类似于找个网络数据代销商,用手上有... [阅读全文]

2 怎么解决爬虫资源问题

在大数据的时间,爬虫业务大家都不再陌生。随着网络的发展,反爬虫也在不断的优化。想突破反爬虫的限制,好的代理IP资源是非常重要的。那么,怎么解决爬虫资源问题呢?解决爬虫资源问题,最常见的就是用代理IP,一个是免费的资源,一个是购买专业的代理IP。免费成本低,但不稳定,大部分代理IP根本都不能用的,质量很差。对于爬虫工作者来说,任务量大,分布式爬虫也是提高工作效率的好办法,所以就更需要专业代理IP的帮助了。智游代理拥有国内很多城市的IP资源,可以满足爬虫的需求,质量高是很好的选择。所以,解决爬虫资源问题,是离不开代理IP的帮助的。挑选代理的时候要注意,找到质量好的代理才是好帮手。... [阅读全文]

热门标签

推荐阅读

  1. 18

    2019-01

    如何选择合适的爬虫代理ip

    ​在我们学习各种编程语言的时候,出现各种异常是很常见的,拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违规操作等多种问题

  2. 11

    2019-06

    企业爬虫为什么不能用免费代理ip

    在大数据的前提下,现在会用代理IP的人增多,本着有便宜不占王八蛋的心里,还是有很多用户不愿意使用付费的爬虫代理ip.而是选择网上公开的免费代理ip,尽管是完全免费,但是老话说得好

  3. 11

    2019-06

    优质爬虫http代理ip怎么选择?需要具备哪些特征?

    最近跟几个爬虫采集的客户聊天,无论互联网行业发展到何种地步,“资源”永远是任何互联网公司必不可少的弹药粮草。夸大些讲,任何一个互联网公司都会用到不同类型的数据。那么数据从

  4. 31

    2019-12

    爬虫使用代理防封IP

    在我们使用爬虫进行数据爬取的时候,爬着爬着就经常会遇到这种情况出现“HTTP Error 403:Forbidden”的提示,这是啥意思呢?其实他是一种http状态码,表示你在请求一个资源文件但是nginx不允许你

  5. 29

    2019-01

    python开发软件有哪些?

    ​Python开发软件可根据其用途不同分为两种,一种是Python代码编辑器,一种是Python集成开发工具,两者的配合使用可以极大的提高Python开发人员的编程效率

  6. 20

    2019-11

    分布式爬虫为什么要用代理IP

    什么叫分布式爬虫?分布式爬虫是在计算机集群之上运转的爬虫系统。集群每一个节点上运行的爬虫程序与集中式爬虫系统工作原理相同,随着计算机集群使用数量增加,分布式爬虫优势也逐渐