上传Stategy包

3 weeks ago · 17cb76a469
4 changed files with 166 additions and 0 deletions
--- a/project/src/main/java/org/example/strategy/BaiduStrategy.java
+++ b/project/src/main/java/org/example/strategy/BaiduStrategy.java
@ -0,0 +1,46 @@
+package org.example.strategy;
+
+import org.example.exception.CrawlerException;
+import org.example.model.Article;
+import org.jsoup.Jsoup;
+import org.jsoup.nodes.Document;
+import org.jsoup.nodes.Element;
+import org.jsoup.select.Elements;
+
+import java.io.IOException;
+import java.util.ArrayList;
+import java.util.List;
+
+public class BaiduStrategy implements CrawlerStrategy {
+
+    @Override
+    public List<Article> crawl(String keyword) throws CrawlerException {
+        List<Article> articles = new ArrayList<>();
+        try {
+            String url = "https://www.baidu.com/s?wd=" + keyword;
+
+            Document document = Jsoup.connect(url)
+                    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
+                    .timeout(10000)
+                    .get();
+            Elements elements = document.select("h3.t > a");
+
+            for (Element element : elements) {
+                String title = element.text();
+                String href = element.attr("href");
+                if (!title.isEmpty() && !href.isEmpty()) {
+                    articles.add(new Article(title, href));
+                }
+            }
+
+        } catch (IOException e) {
+            throw new CrawlerException("百度爬取失败: " + e.getMessage());
+        }
+        return articles;
+    }
+
+    @Override
+    public String getName() {
+        return "Baidu";
+    }
+}
--- a/project/src/main/java/org/example/strategy/BingStrategy.java
+++ b/project/src/main/java/org/example/strategy/BingStrategy.java
@ -0,0 +1,50 @@
+package org.example.strategy;
+
+import org.example.exception.CrawlerException;
+import org.example.model.Article;
+import org.jsoup.Jsoup;
+import org.jsoup.nodes.Document;
+import org.jsoup.nodes.Element;
+import org.jsoup.select.Elements;
+
+import java.io.IOException;
+import java.util.ArrayList;
+import java.util.List;
+
+public class BingStrategy implements CrawlerStrategy {
+
+    @Override
+    public List<Article> crawl(String keyword) throws CrawlerException {
+        List<Article> articles = new ArrayList<>();
+        try {
+            // 1. 构造必应搜索 URL
+            String url = "https://cn.bing.com/search?q=" + keyword;
+
+            // 2. 发送请求
+            Document document = Jsoup.connect(url)
+                    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
+                    .timeout(10000)
+                    .get();
+
+            // 3. 解析内容 (必应结果通常在 li.b_algo h2 > a)
+            Elements elements = document.select("li.b_algo h2 > a");
+
+            for (Element element : elements) {
+                String title = element.text();
+                String href = element.attr("href");
+                if (!title.isEmpty() && !href.isEmpty()) {
+                    articles.add(new Article(title, href));
+                }
+            }
+
+        } catch (IOException e) {
+            throw new CrawlerException("必应爬取失败: " + e.getMessage());
+        }
+        return articles;
+    }
+
+    @Override
+    public String getName() {
+        return "Bing";
+    }
+}
--- a/project/src/main/java/org/example/strategy/CrawlerStrategy.java
+++ b/project/src/main/java/org/example/strategy/CrawlerStrategy.java
@ -0,0 +1,23 @@
+package org.example.strategy;
+
+import org.example.exception.CrawlerException;
+import org.example.model.Article;
+
+import java.util.List;
+
+/**
+ * 爬虫策略接口 (或抽象类)
+ */
+public interface CrawlerStrategy { // 如果是 abstract class 也可以，只要方法定义一致
+
+    String getName();
+
+    /**
+     * 【关键】在这里添加 crawl 方法！
+     * 这是所有具体策略（百度、必应等）必须实现的方法。
+     * @param keyword 搜索关键词
+     * @return 爬取到的文章列表
+     * @throws CrawlerException 爬取失败时抛出
+     */
+    List<Article> crawl(String keyword) throws CrawlerException;
+}
--- a/project/src/main/java/org/example/strategy/CsdnStrategy.java
+++ b/project/src/main/java/org/example/strategy/CsdnStrategy.java
@ -0,0 +1,47 @@
+package org.example.strategy;
+
+import org.example.exception.CrawlerException;
+import org.example.model.Article;
+import org.jsoup.Jsoup;
+import org.jsoup.nodes.Document;
+import org.jsoup.nodes.Element;
+import org.jsoup.select.Elements;
+
+import java.io.IOException;
+import java.util.ArrayList;
+import java.util.List;
+
+public class CsdnStrategy implements CrawlerStrategy {
+
+    @Override
+    public List<Article> crawl(String keyword) throws CrawlerException {
+        List<Article> articles = new ArrayList<>();
+        try {
+            String url = "https://so.csdn.net/so/search?q=" + keyword + "&t=&u=";
+
+            Document document = Jsoup.connect(url)
+                    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
+                    .timeout(10000)
+                    .get();
+
+            Elements elements = document.select(".search-list .list-con dl dd a");
+
+            for (Element element : elements) {
+                String title = element.text();
+                String href = element.attr("href");
+                if (!title.isEmpty() && !href.isEmpty()) {
+                    articles.add(new Article(title, href));
+                }
+            }
+
+        } catch (IOException e) {
+            throw new CrawlerException("CSDN 爬取失败: " + e.getMessage());
+        }
+        return articles;
+    }
+
+    @Override
+    public String getName() {
+        return "CSDN";
+    }
+}