网络爬虫jsoup抓取网页数据使用详解

Java程序在解析HTML文档时,我们常常使用jsoup去解析HTML网页内容。但在jsoup之前我们使用HTMLParser去解析(HTMLParser学习地址:http://www.xttblog.com/?p=322),但现在我已经不再使用htmlparser了,原因是htmlparser很少更新,最重要的是有了jsoup 。
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
3. 可操作 HTML 元素、属性、文本;

jsoup的类层次结构

网络爬虫jsoup抓取网页数据使用详解

根据它的结构图,我们可以很快的写出解析代码,下面列举常用的3中解析加载html的方式:

	//解析html格式的字符串

	String html = "<html><head><title></title></head><body><p>网络爬虫jsoup抓取网页数据使用详解</p></body></html>"; 

	Document doc = Jsoup.parse(html); 

	//根据域名get方式直接加载并解析HTML文档

	Document doc = Jsoup.connect("http://www.xttblog.com").get(); 

	String title = doc.title(); 

	//post+参数提交的方式解析远程HTML文档

	Document doc = Jsoup.connect("http://www.xttblog.com") 

	  .data("xttblog","jsoup") //请求参数

	  .userAgent("") //设置User-Agent 

	  .cookie("userid", "xttblog") //设置cookie 

	  .timeout(3000) //设置连接超时时间

	  .post(); //使用POST方法访问URL 

	//从文件中加载HTML文档

	File input = new File("C:/xttblog.html"); 

	Document doc = Jsoup.parse(input,"UTF-8","http://www.xttblog.com");

jsoup最强大的地方是它提供了非常强大的查询方法,采用类似jquery选择器(selector)语法来处理HTML文档中的数据。选择器主要匹配方式如下:
基本查询方法
    Tagname:通过标签查找元素(例如:a)
    ns|tag:通过标签在命名空间查找元素,例如:fb|name查找<fb:name>元素
    #id:通过ID查找元素,例如#logo
    .class:通过类型名称查找元素,例如.masthead
    [attribute]:带有属性的元素,例如[href]
    [^attr]:带有名称前缀的元素,例如[^data-]查找HTML5带有数据集(dataset)属性的元素
    [attr=value]:带有属性值的元素,例如[width=500]
    [attr^=value],[attr$=value],[attr*=value]:包含属性且其值以value开头、结尾或包含value的元素,例如[href*=/path/]
    [attr~=regex]:属性值满足正则表达式的元素,例如img[src~=(?i)/.(png|jpe?g)]
    *:所有元素,例如*
选择器组合方法
    el#id:带有ID的元素ID,例如div#logo
    el.class:带类型的元素,例如. div.masthead
    el[attr]:包含属性的元素,例如a[href]
    任意组合:例如a[href].highlight
    ancestor child:继承自某祖(父)元素的子元素,例如.body p查找“body”块下的p元素
    parent > child:直接为父元素后代的子元素,例如: div.content > pf查找p元素,body > * 查找body元素的直系子元素
    siblingA + siblingB:查找由同级元素A前导的同级元素,例如div.head + div
    siblingA ~ siblingX:查找同级元素A前导的同级元素X例如h1 ~ p
    el, el, el:多个选择器组合,查找匹配任一选择器的唯一元素,例如div.masthead, div.logo
伪选择器(Pseudo selectors)
    :lt(n):查找索引值(即DOM树中相对于其父元素的位置)小于n的同级元素,例如td:lt(3)
    :gt(n):查找查找索引值大于n的同级元素,例如div p:gt(2)
    :eq(n) :查找索引值等于n的同级元素,例如form input:eq(1)
    :has(seletor):查找匹配选择器包含元素的元素,例如div:has(p)
    :not(selector):查找不匹配选择器的元素,例如div:not(.logo)
    :contains(text):查找包含给定文本的元素,大小写铭感,例如p:contains(jsoup)
    :containsOwn(text):查找直接包含给定文本的元素
    :matches(regex):查找其文本匹配指定的正则表达式的元素,例如div:matches((?i)login)
    :matchesOwn(regex):查找其自身文本匹配指定的正则表达式的元素
注意:上述伪选择器是0-基数的,亦即第一个元素索引值为0,第二个元素index为1等
原文地址:http://www.xttblog.com/?p=326

网络爬虫jsoup抓取网页数据使用详解

: » 网络爬虫jsoup抓取网页数据使用详解

原创文章,作者:wdmbts,如若转载,请注明出处:https://blog.ytso.com/tech/java/251428.html

(0)
上一篇 2022年5月3日 00:19
下一篇 2022年5月3日 00:23

相关推荐

发表回复

登录后才能评论