Java实现网页数据提取的方法

前言

要实现从网页中提取数据,原理很简单。只需要模拟浏览器发起请求,得到网页内容。然后根据一定的规则提取数据即可。

本例使用 HttpClient 来发起请求的,使用 Jsoup 的 parse 方法将 HTML 字符串解析为一个 Document 对象的。你也可以选择其他方式。

实现过程

1、添加依赖:在 pom.xml 文件中添加

---
	-------------------------------
	----------------
	------------
---

---
	---------------
	-----------
	------------
---

2、获取网站内容

public static void getWebContent(String ----){
	HttpClient ---------- = HttpClients.createDefault();
	HttpGet ------- = new HttpGet(----);
	try {
		HttpResponse -------- = ----------.execute(-------);
		HttpEntity ------ = --------.getEntity();
		String ---- = EntityUtils.toString(------, "UTF-8");
		Document -------- = Jsoup.parse(----);
		// 此时拿到 document 对象了。写你自己提取数据的逻辑
	} catch (Exception -) {
		-.printStackTrace();
	}
}