上传文件至 'w3'

3 months ago · d1d4b0c8ef
5 changed files with 146 additions and 0 deletions
--- a/w3/DoubanCrawler.class
+++ b/w3/DoubanCrawler.class
--- a/w3/DoubanCrawler.java
+++ b/w3/DoubanCrawler.java
@ -0,0 +1,80 @@
 package com.rental.crawler;
 import com.rental.crawler.model.Book;
 import com.rental.crawler.util.HttpUtil;
 import org.jsoup.nodes.Document;
 import org.jsoup.nodes.Element;
 import org.jsoup.select.Elements;
 import java.io.IOException;
 import java.util.ArrayList;
 import java.util.List;
 public class DoubanCrawler {
    private static final String BASE_URL = "https://book.douban.com/tag/论文";
    public List<Book> crawl(int pageCount) throws IOException {
        List<Book> books = new ArrayList<>();
        for (int page = 0; page < pageCount; page++) {
            String url = BASE_URL + "?start=" + (page * 20);
            System.out.println("正在爬取: " + url);
            Document doc = HttpUtil.getDocument(url);
            Elements bookElements = doc.select(".subject-item");
            for (Element bookElement : bookElements) {
                Book book = parseBook(bookElement);
                if (book != null) {
                    books.add(book);
                }
            }
            try {
                Thread.sleep(1000);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
        return books;
    }
    private Book parseBook(Element bookElement) {
        Book book = new Book();
        Element titleElement = bookElement.selectFirst(".info h2 a");
        if (titleElement != null) {
            book.setTitle(titleElement.text().trim());
            book.setUrl(titleElement.attr("href"));
        }
        Element infoElement = bookElement.selectFirst(".info .pub");
        if (infoElement != null) {
            String info = infoElement.text().trim();
            String[] parts = info.split("/");
            if (parts.length >= 4) {
                book.setAuthors(parts[0].trim());
                book.setPublisher(parts[1].trim());
                book.setPublishDate(parts[2].trim());
                book.setPrice(parts[3].trim());
            }
        }
        Element ratingElement = bookElement.selectFirst(".info .rating_nums");
        if (ratingElement != null) {
            try {
                book.setRating(Double.parseDouble(ratingElement.text().trim()));
            } catch (NumberFormatException e) {
                book.setRating(0.0);
            }
        }
        Element summaryElement = bookElement.selectFirst(".info p");
        if (summaryElement != null) {
            book.setSummary(summaryElement.text().trim());
        }
        return book;
    }
 }
--- a/w3/Main.class
+++ b/w3/Main.class
--- a/w3/assistance_record.md
+++ b/w3/assistance_record.md
@ -0,0 +1,66 @@
 # 豆瓣读书爬虫项目协助记录
 ## 项目概述
 - **项目名称**：豆瓣读书爬虫
 - **目标**：爬取豆瓣读书中论文标签的书籍信息
 - **技术栈**：Java + Jsoup
 ## 协助过程
 ### 1. 环境准备
 - 检查Java环境：确认已安装OpenJDK 21.0.10 LTS
 - 添加Jsoup依赖：用于解析网页HTML
 - 创建Maven项目结构
 ### 2. 项目结构搭建
 - 创建目录结构：`com/rental/crawler/model` 和 `com/rental/crawler/util`
 - 配置pom.xml文件：添加Jsoup依赖
 ### 3. 核心文件创建
 #### HTTP工具类 (`HttpUtil.java`)
 - 功能：发送HTTP请求获取网页内容
 - 特性：模拟浏览器User-Agent，设置超时时间
 #### 书籍数据模型 (`Book.java`)
 - 定义书籍属性：书名、作者、出版社、出版日期、价格、评分、简介、链接
 #### 豆瓣爬虫实现 (`DoubanCrawler.java`)
 - 核心功能：爬取豆瓣读书论文标签的书籍信息
 - 支持多页爬取，每页20本书
 - 解析HTML提取书籍信息
 - 实现延迟控制，避免被反爬
 #### 主类 (`Main.java`)
 - 启动爬虫并显示结果
 - 支持指定爬取页数
 ### 4. 编译与运行
 - 编译代码：使用javac命令编译Java文件
 - 运行爬虫：使用java命令运行主类
 - 保存结果：将爬虫结果重定向到文件
 ### 5. 项目打包
 - 创建w3文件夹：用于存放项目文件和结果
 - 复制所有爬虫相关文件到w3文件夹
 - 保存爬虫结果到w3文件夹
 - 保存本协助记录到w3文件夹
 ## 运行结果
 - 成功爬取40本书的信息
 - 包含书名、作者、出版社、出版日期、价格、评分、简介、豆瓣链接
 - 结果保存在 `w3/crawler_result.txt`
 ## 技术要点
 - Jsoup库的使用：解析HTML
 - HTTP请求模拟：设置User-Agent
 - 反爬措施：添加延迟
 - 数据解析：使用CSS选择器提取数据
 - 命令行操作：编译和运行Java程序
 ## 后续扩展建议
 - 增加数据存储到数据库
 - 添加GUI界面
 - 实现多线程爬取
 - 增加更多标签的爬取
 - 实现数据可视化
--- a/w3/crawler_result.txt
+++ b/w3/crawler_result.txt