换ip软件,代理ip软件,更改ip地址-智游代理

在线咨询

800821111 售前客服
在线客服,实时响应

800821111 售前客服
在线客服,实时响应

大客户经理
2110220233

微信客服

您的位置: 首页 > 新闻资讯 > 爬虫代理 > 正文

Java爬虫之匿名代理IP的获取

发布时间:2019年01月24日 来源:智游代理 www.zhiyoudaili.com

爬虫,AI一直是近年来为之关注的焦点,Java以自己独有的严格的语言约束和庞大且成熟的各种框架,成为企业一度的选择,也成为当今码农必知必会的编程语言。


诚然,Java仍然更多地用在WEB开发上,所以学会初级Java爬虫,也是在Java的技能道路上,多看了一处别样的风景。


环境准备:


1. 一个开发工具

2. MAVEN包管理环境

3. JAR:Jsoup、HTTPClient

4. 目标站点:某个代理网站


步骤:


一、 创建WeChat类,并添加JAR包,如下图:

image.png


二、编辑WeChat类,定义一个用于发起HTTP请求的然后返回HTML文本页面的方法:


private String getHTML(String url) {

        CloseableHttpClient httpClient = HttpClients.createDefault();

        HttpGet httpGet = new HttpGet(url);

        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36");

        CloseableHttpResponse response;

        try {

            response = httpClient.execute(httpGet);

            HttpEntity responseEntity = response.getEntity();

            return EntityUtils.toString(responseEntity, "utf-8");

        } catch (IOException e) {

            e.printStackTrace();

        }

        return "";}


1、如上图所示,使用HTTPClient创建Http发起者,使用HttpGet,创建GET请求的对象,封装该对象,并使用HTTPClient将其发送到目标站点,获得返回值类型为HTTPResponse,对该响应使用EntityUtils工具统一格式化编码后,将其返回。

PS:被EntityUtils工具处理后,该响应不再为HTTPResponse对象,而是进行了编码后的该Response对象的文本。类型为String。


三、对第二步中的方法进行测试,确保其正确无误,测试及结果如下:

image.png


四、承接第二步,我们继续编写用于解析HTML文本的方法,在第二步中我们使用HttPClient发起了GET请求,这里,我们要使用Jsoup解析HTML文本,通过对根节点和子节点的解析,准确获取目标信息,代码如下:

private void doParser(String html) {

        Document document = Jsoup.parse(html);

        Elements elements = document.select("tr.odd");

        for (Element element : elements) {

            String context = element.getAllElements().select("td").text();

            if (context.contains("高匿")) {

                int index_ip = context.indexOf(" ");

                String ip_text = context.substring(0, index_ip);

                String sub_string = context.substring(index_ip, context.length());

                sub_string = sub_string.trim();

                int index_port = sub_string.indexOf(" ");

                String port_text = sub_string.substring(0, index_port);

                System.out.println(ip_text + ":" + port_text);

            }

        }}

如上所示:定义了名为doParser()的无返回值方法,以String类型的形参HTML为目标,使用Jsoup.parser()方法,将其转化为Document对象,使用select() CSS选择器,查找该HTML中所有的class为“odd”的标签(在该网页中:class为“odd”的标签和没有class的标签是一半一半所以这里只是选择了当前网页的一半的IP,但这拿来使用足矣)。


Select()选择器查找到class为odd的tr标签后,返回Elements对象,使用for each循环遍历得到该Elements中的所有单个element,使用if过滤掉非高匿的IP,从此处开始,正式进入本文的核心环节,也是爬虫的难点所在信息提取!

信息提取详解:

在if条件句中,首先打印出过滤了非高匿IP后的信息,如图:

image.png


诚然,没有价值的信息很多,我们需要做文本清洗,剥离出有价值的IP和端口必要信息,将其他繁杂信息舍去。


一、IP提取

分析单行文本可知,若想提取出IP,该行首次出现的“ ”(空格)符号是分割的重点,此处我们使用indexOf()方法,获得第一次出现的“ ”(空格)符号的下标所在,再根据下标,使用substring()方法,将其剥离出来,如图:

image.png


这样我们就拿到了IP地址;


一、 端口号的获取


原本的思路是在API文档中找到一个可以查找当前字符串中某一字符第二次出现的位置并返回下标,然而并没有找到,不是返回最后一次的就是返回第一次的,我百思不得解,一个final的String类竟然不会有这样的方法?为何?这说明该类下的所有已发布方法足矣处理任何String的问题,所以,我开始尝试用不相干的方法,制造合理的利用条件,思路如下:

image.png


首先我们来看,在第一步剥离了IP地址后,如果想再次使用IndexOf()方法这样去返回第一个“ ”(空格)字符的下标,然后再根据获得的下标切割去得到关键信息的话,显然IP地址是不应该再存在的,因为在IP地址和port之间已经有一个 “ ”(空格)字符了。所以解决办法第一步,调用substring()方法,使获得的第一个“ ”(空格)字符的下标作为切割的起始下标,字符串的长度为末尾下标,这样我们就得到了一个新的字符串,如下:

image.png

     

但是这仍然不是最适合的剥离环境,因为根据“ ”(空格)字符的下标作为判断依据的话,那么我们还要除去首位的空格(不难发现,每一个端口之前是有一个空格的,仔细看图),调用String.trim()方法,除去字符串首位的空格,得到全新的完美字符串,这时再使用提取IP时的方法就可以得到关于IP和Port的信息,如图:

image.png


今天的分享就到这里,希望对大家有所帮助。

转载注明来自:智游代理IP http://www.zhiyoudaili.com/

相关文章内容简介

1 分布式爬虫如何解决IP问题

分布式爬虫如何解决IP问题?大数据时代来临,爬虫工作者的春天也随之来了。然而在我们进行爬虫业务时,却经常受到目标网站反爬虫机制的阻碍,尤其是分布式爬虫,因为采集信息量和采集速度过快,常常给对方服务器带来巨大负荷,不用猜也知道你是爬虫,怎么可能不被封。要想解决这种窘境,使用代理IP堪称一个捷径,当遇到IP被封,换个IP就可以继续访问。新网站为了保证搜索引擎优化质量,前期需要一点一点填充内容,但面对庞大的填充量,耗费的时间和精力实在太大了,因此很多站长在做新网站时首选分布式爬虫抓取信息进行填充,保证网站定期更新量。分布式爬虫,从字面意思可以理解为集群爬虫,如果有spider任务,可以用多台机器同时运行,大大提高工作效率。但分布式爬虫并不是一劳永逸,在提升效率的同时,触发网站反爬虫的几率也会大大增加。为了保证可以顺利使用分布式爬虫,拥有一款IP数量大、质量好的HTTP代理IP资源很重要,例如智游代理。智游代理为各大站长提供大量国内优质HTTP代理IP资源,帮助他们利用分布式爬虫更效率更便捷的优化新网站,维护老网站,节省人力的同时也降低了成本,事半功倍。... [阅读全文]

2 爬虫代理服务商哪家好用

或许我们在网上冲浪的时候,有时候会用到代理的,爬虫代理在目前是很火热的。之所以要用到爬虫代理,是因为我们有时候需要更换ip,但是爬虫代理服务商哪家好用呢?尤其是做爬虫抓取数据的时候,做爬虫的都绕不过去代理这一条槛,免费的ip代理、付费的、自己扫的、动态拨号vps等应有尽有,尤其是趟过付费IP代理这趟浑水的,会发现市面上的ip代理鱼龙混杂,普遍存在以下问题:1.ip可用率低,因为是从网上扫的量,IP时长和质量均无法保证。2.ip池夸大,吹嘘自己有几百万的量,实际上只有十几万到二三十万,因为重复使用的原因,造成ip可用率不高。那如果遇到大客户怎么办呢?只能找更大的ip代理供应商寻求合作,赚取差价,那么作为终端客户,又被人掳羊毛了。3.性价比低,虽然有些价格卖得很低,但是可用率同样很低,不稳定,掉线等问题,实际上付出的时间成本远远高于金钱成本。4.本身没有资源,如果说第一种还算有自己的量,遇到问题可能也有工程师解决,那么这一种纯代理商就更加没有保障了,赚取不菲的中间差价外,不需要付出任何成本,也会有拿钱跑路的风险,遇到问题也只能找上级代理ip商寻求解决... [阅读全文]

热门标签