JSoup教程
JSoup是一个用于处理HTML的Java库,它提供了一个非常方便类似于使用DOM,CSS和jquery的方法的API来提取和操作数据。
jsoup实现WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。
- 从URL,文件或字符串中提取并解析HTML。
- 查找和提取数据,使用DOM遍历或CSS选择器。
- 操纵HTML元素,属性和文本。
- 根据安全的白名单清理用户提交的内容,以防止XSS攻击。
- 输出整洁的HTML。
jsoup旨在处理发现所有格式有差异的HTML; 从原始和验证,到无效的标签; jsoup将创建一个明智的解析树。
实例
获取维基百科主页,解析为DOM,并从新闻部分中选择标题列入元素列表:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Elements newsHeadlines = doc.select("#mp-itn b a");
以下是一个完整的示例,在这个示例中,它提取猿狮院教程网首页的title
标签中的字符串符。
import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class FirstJsoupExample{ public static void main( String[] args ) throws IOException{ Document doc = Jsoup.connect("http://www.vcclass.net").get(); String title = doc.title(); System.out.println("title is: " + title); } }
开源
jsoup是一个根据自由MIT许可证分发的开源项目。 源代码可在GitHub获得:http://github.com/jhy/jsoup/ 。
发展和支持
如果您有任何关于如何使用jsoup的问题,或有未来发展的想法,请通过邮件列表联系( http://jsoup.org/discussion )。
如果您发现任何问题,请在检查重复之后提交错误。
本教程问题
在本Jsoup教程中,我们是通过一些简单的开发和测试实例来一步步演示Jsoup的使用的,但是由于开发环境和工具的不同,我们不能保证所有实例均可在您的机器也能正常运行。 如果您在本教程中发现任何问题或错误,可以向我们报告。我们及时修改/修正错误以方便后来的学习者。
猿狮妹
2022-07-25
JSoup教程
编程课程
猿狮院
热门教程
1 JSoup教程
JSoup是一个用于处理HTML的Java库,它提供了一个非常方便类似于使用DOM,CSS和jquery的方法的API来提取和操作数据。
2 JSoup安装
要运行任何jsoup示例,需要先安装好jsoup相关Jar包。到目前为止(2017年05月),jsoup的当前版本是1.10.2.0。安装jsoup主要有三种方法:
通过Maven的pom.xml配置
3 JSoup快速入门
Jsoup是用于解析HTML,就类似XML解析器用于解析XML。 Jsoup它解析HTML成为真实世界的HTML。 它与jquery选择器的语法非常相似,并且非常灵活容易使用以获得
4 Jsoup API
jsoup api中有6个包提供用于开发jsoup应用程序的类和接口。
org.jsouporg.jsoup.examplesorg.jsoup.helperorg.jsoup.nodesorg.jsoup.parserorg.jsoup.safetyorg.jsoup.salect
以上包中
5 Jsoup应用实例
在本篇文章中,将列出了一些常用的jsoup例子,例如获取URL或HTML文档的标题,链接,图像和元数据。
1. 获取URL的标题
Document doc = Jsoup.connect("http://
6 Jsoup示例:提取给定url的标题
在这篇文章中,我们来演示一个打印一个url的标题的jsoup例子,例如: www.vcclass.net 。 在Jsoup.connect()方法的帮助下,将连接到给定的URL。get()方法返回Docum
7 Jsoup示例:提取给定URL中的链接
在这篇文章中,我们演示如何打印给定URL中的所有链接信息。 要做到这一点,我们需要调用返回元素引用的Document类对象的select()方法。 Elements类中可以
8 Jsoup示例:提取URL中的元数据
在这个例子中,我们将打印一个URL的meta关键字和描述。要实现这个功能,需要调用Document类的select(),first(),get()和attr()方法。
如下代码实现 -
import j
9 Jsoup示例:提取URL中的图像
在这个例子中,我们将提取并打印给定URL的所有图像信息。 要做到这一点,我们调用select()方法传递“"img[src~=(?i)\\.(png|jpe?g|gif)]"”正则表达式
10 Jsoup示例:提取表单参数
在这个例子中,我们将提取并打印表单参数,如参数名称和参数值。 为此,我们调用Document类的getElementById()方法和Element类的getElementsByTag()方法。
创建