feat: 添加实验二

2 months ago · 673243fa34
4 changed files with 101 additions and 0 deletions
--- a/实验二/BaseCrawler.java
+++ b/实验二/BaseCrawler.java
@ -0,0 +1,28 @@
+package crawler;
+
+import org.jsoup.Connection;
+import org.jsoup.Jsoup;
+import org.jsoup.nodes.Document;
+import java.io.IOException;
+
+public abstract class BaseCrawler {
+    protected static final String USER_AGENT =
+            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36";
+
+    protected String url;
+    protected int timeout = 10;
+
+    public BaseCrawler(String url) {
+        this.url = url;
+    }
+
+    protected Document getDocument() throws IOException {
+        Connection connect = Jsoup.connect(url)
+                .userAgent(USER_AGENT)
+                .timeout(timeout * 1000)
+                .ignoreContentType(true);
+        return connect.get();
+    }
+
+    public abstract void crawl();
+}
--- a/实验二/CrawlerTest.java
+++ b/实验二/CrawlerTest.java
@ -0,0 +1,13 @@
+package crawler;
+
+public class CrawlerTest {
+    public static void main(String[] args) {
+        // 爬取网页
+        BaseCrawler webCrawler = new WebPageCrawler("https://www.baidu.com");
+        webCrawler.crawl();
+
+        // 爬取图片
+        BaseCrawler imgCrawler = new ImageCrawler("https://www.baidu.com");
+        imgCrawler.crawl();
+    }
+}
--- a/实验二/ImageCrawler.java
+++ b/实验二/ImageCrawler.java
@ -0,0 +1,30 @@
+package crawler;
+
+import org.jsoup.nodes.Document;
+import org.jsoup.select.Elements;
+
+public class ImageCrawler extends BaseCrawler {
+
+    public ImageCrawler(String url) {
+        super(url);
+    }
+
+    @Override
+    public void crawl() {
+        try {
+            Document doc = getDocument();
+            Elements imgs = doc.select("img[src]");
+
+            System.out.println("\n===== 图片爬取完成 =====");
+            System.out.println("URL：" + url);
+            System.out.println("找到图片数量：" + imgs.size());
+
+            for (int i = 0; i < Math.min(5, imgs.size()); i++) {
+                String src = imgs.get(i).attr("abs:src");
+                System.out.println("图片" + (i + 1) + "：" + src);
+            }
+        } catch (Exception e) {
+            System.err.println("图片爬取失败：" + e.getMessage());
+        }
+    }
+}
--- a/实验二/WebPageCrawler.java
+++ b/实验二/WebPageCrawler.java
@ -0,0 +1,30 @@
+package crawler;
+
+import org.jsoup.nodes.Document;
+
+public class WebPageCrawler extends BaseCrawler {
+
+    public WebPageCrawler(String url) {
+        super(url);
+    }
+
+    @Override
+    public void crawl() {
+        try {
+            Document doc = getDocument();
+            String title = doc.title();
+            String text = doc.body().text();
+
+            if (text.length() > 200) {
+                text = text.substring(0, 200) + "...";
+            }
+
+            System.out.println("===== 网页爬取完成 =====");
+            System.out.println("URL：" + url);
+            System.out.println("标题：" + title);
+            System.out.println("内容预览：" + text);
+        } catch (Exception e) {
+            System.err.println("网页爬取失败：" + e.getMessage());
+        }
+    }
+}