Java实现网页数据提取

前言

要实现从网页中提取数据，原理很简单。只需要模拟浏览器发起请求，得到网页内容。然后根据一定的规则提取数据即可。

本例使用 HttpClient 来发起请求的，使用 Jsoup 的 parse 方法将 HTML 字符串解析为一个 Document 对象的。你也可以选择其他方式。

实现过程

1、添加依赖：在 pom.xml 文件中添加

<dependency>
	<groupId>-------------------------</groupId>
	<artifactId>----------</artifactId>
	<version>------</version>
</dependency>

<dependency>
	<groupId>---------</groupId>
	<artifactId>-----</artifactId>
	<version>------</version>
</dependency>

2、获取网站内容

public static void getWebContent(String ----){
	HttpClient ---------- = HttpClients.createDefault();
	HttpGet ------- = new HttpGet(----);
	try {
		HttpResponse -------- = ----------.execute(-------);
		HttpEntity ------ = --------.getEntity();
		String ---- = EntityUtils.toString(------, "UTF-8");
		Document -------- = Jsoup.parse(----);
		// 此时拿到 document 对象了。写你自己提取数据的逻辑
	} catch (Exception -) {
		-.printStackTrace();
	}
}