上传文件至 'project/strategy'

4 weeks ago · 2d4cccf88d
5 changed files with 187 additions and 0 deletions
--- a/project/strategy/DoubanBookStrategy.java
+++ b/project/strategy/DoubanBookStrategy.java
@ -0,0 +1,33 @@
 package com.example.moviecli.strategy;
 import com.example.moviecli.model.Movie;
 import com.example.moviecli.exception.ParseFailedException;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
 import org.jsoup.select.Elements;
 import java.util.ArrayList;
 import java.util.List;
 public class DoubanBookStrategy implements MovieCrawlStrategy {
    @Override
    public boolean supports(String url) {
        return url.contains("book.douban.com/top250");
    }
    @Override
    public List<Movie> parse(Document doc) throws ParseFailedException {
        try {
            List<Movie> books = new ArrayList<>();
            Elements items = doc.select(".item");
            int rank = 1;
            for (Element item : items) {
                String title = item.select(".pl2 a").text().trim();
                String score = item.select(".rating_nums").text();
                books.add(new Movie(rank++, title, "", score, "图书", "豆瓣图书"));
            }
            return books;
        } catch (Exception e) {
            throw new ParseFailedException("豆瓣图书解析失败", e);
        }
    }
 }
--- a/project/strategy/DoubanTop250Strategy.java
+++ b/project/strategy/DoubanTop250Strategy.java
@ -0,0 +1,59 @@
 package com.example.moviecli.strategy;
 import com.example.moviecli.model.Movie;
 import com.example.moviecli.exception.ParseFailedException;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
 import org.jsoup.select.Elements;
 import java.util.ArrayList;
 import java.util.List;
 public class DoubanTop250Strategy implements MovieCrawlStrategy {
    @Override
    public boolean supports(String url) {
        return url.contains("movie.douban.com/top250");
    }
    @Override
    public List<Movie> parse(Document doc) throws ParseFailedException {
        try {
            List<Movie> movies = new ArrayList<>();
            Elements items = doc.select(".item");
            for (Element item : items) {
                String rankText = item.select(".pic em").text();
                int rank = Integer.parseInt(rankText);
                String title = item.select(".title").first().text();
                String originalTitle = "";
                Elements titles = item.select(".title");
                if (titles.size() > 1) {
                    originalTitle = titles.get(1).text().replace("/", "").trim();
                }
                String score = item.select(".rating_num").text();
                String info = item.select(".bd p").first().text();
                String year = extractYear(info);
                String director = extractDirector(info);
                movies.add(new Movie(rank, title, originalTitle, score, year, director));
            }
            return movies;
        } catch (Exception e) {
            throw new ParseFailedException("豆瓣电影解析失败", e);
        }
    }
    private String extractYear(String info) {
        for (String part : info.split(" ")) {
            if (part.matches("\\d{4}")) return part;
        }
        return "未知";
    }
    private String extractDirector(String info) {
        if (info.contains("导演:")) {
            int start = info.indexOf("导演:") + 3;
            int end = info.indexOf(" ", start);
            if (end == -1) end = info.length();
            return info.substring(start, end).trim();
        }
        return "未知";
    }
 }
--- a/project/strategy/MovieCrawlStrategy.java
+++ b/project/strategy/MovieCrawlStrategy.java
@ -0,0 +1,11 @@
 package com.example.moviecli.strategy;
 import com.example.moviecli.model.Movie;
 import com.example.moviecli.exception.ParseFailedException;
 import org.jsoup.nodes.Document;
 import java.util.List;
 public interface MovieCrawlStrategy {
    boolean supports(String url);
    List<Movie> parse(Document doc) throws ParseFailedException;
 }
--- a/project/strategy/MovieStrategyFactory.java
+++ b/project/strategy/MovieStrategyFactory.java
@ -0,0 +1,25 @@
 package com.example.moviecli.strategy;
 import java.util.ArrayList;
 import java.util.List;
 public class MovieStrategyFactory {
    private final List<MovieCrawlStrategy> strategies = new ArrayList<>();
    public MovieStrategyFactory() {
        strategies.add(new DoubanTop250Strategy());
        strategies.add(new SinaNewsStrategy());   // 新增
        strategies.add(new DoubanBookStrategy());
    }
    public MovieCrawlStrategy getStrategy(String url) {
        for (MovieCrawlStrategy s : strategies) {
            if (s.supports(url)) return s;
        }
        return null;
    }
    public void register(MovieCrawlStrategy strategy) {
        strategies.add(strategy);
    }
 }
--- a/project/strategy/SinaNewsStrategy.java
+++ b/project/strategy/SinaNewsStrategy.java
@ -0,0 +1,59 @@
 package com.example.moviecli.strategy;
 import com.example.moviecli.model.Movie;
 import com.example.moviecli.exception.ParseFailedException;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
 import org.jsoup.select.Elements;
 import java.util.ArrayList;
 import java.util.LinkedHashSet;
 import java.util.List;
 import java.util.Set;
 public class SinaNewsStrategy implements MovieCrawlStrategy {
    @Override
    public boolean supports(String url) {
        return url.contains("news.sina.com.cn");
    }
    @Override
    public List<Movie> parse(Document doc) throws ParseFailedException {
        try {
            List<Movie> newsList = new ArrayList<>();
            Set<String> titleSet = new LinkedHashSet<>();
            // 抓取所有 a 标签，过滤出标题较长的（通常新闻标题长度 > 8）
            Elements allLinks = doc.select("a");
            for (Element link : allLinks) {
                String title = link.text().trim();
                // 过滤短文本、纯数字、纯符号、常见非标题文字
                if (title.length() > 8 && !title.matches("^[\\d\\s]+$") 
                        && !title.contains("评论") && !title.contains("举报")) {
                    // 进一步过滤：通常新闻标题不会太短且不会包含过多标点
                    titleSet.add(title);
                }
                if (titleSet.size() >= 120) break; // 最多抓取120条
            }
            // 如果数量不够 30，再尝试抓取特定区域
            if (titleSet.size() < 30) {
                Elements newsItems = doc.select(".news-item, .blk, .main-content a");
                for (Element item : newsItems) {
                    String title = item.text().trim();
                    if (title.length() > 8 && !titleSet.contains(title)) {
                        titleSet.add(title);
                    }
                    if (titleSet.size() >= 120) break;
                }
            }
            int rank = 1;
            for (String title : titleSet) {
                newsList.add(new Movie(rank++, title, "", "新闻", "新浪", ""));
            }
            return newsList;
        } catch (Exception e) {
            throw new ParseFailedException("新浪新闻解析失败", e);
        }
    }
 }