2.0 KiB

Raw Permalink Blame History

豆瓣读书爬虫项目协助记录

项目概述

项目名称：豆瓣读书爬虫
目标：爬取豆瓣读书中论文标签的书籍信息
技术栈：Java + Jsoup

协助过程

1. 环境准备

检查Java环境：确认已安装OpenJDK 21.0.10 LTS
添加Jsoup依赖：用于解析网页HTML
创建Maven项目结构

2. 项目结构搭建

创建目录结构：com/rental/crawler/model 和 com/rental/crawler/util
配置pom.xml文件：添加Jsoup依赖

3. 核心文件创建

HTTP工具类 (`HttpUtil.java`)

功能：发送HTTP请求获取网页内容
特性：模拟浏览器User-Agent，设置超时时间

书籍数据模型 (`Book.java`)

定义书籍属性：书名、作者、出版社、出版日期、价格、评分、简介、链接

豆瓣爬虫实现 (`DoubanCrawler.java`)

核心功能：爬取豆瓣读书论文标签的书籍信息
支持多页爬取，每页20本书
解析HTML提取书籍信息
实现延迟控制，避免被反爬

主类 (`Main.java`)

启动爬虫并显示结果
支持指定爬取页数

4. 编译与运行

编译代码：使用javac命令编译Java文件
运行爬虫：使用java命令运行主类
保存结果：将爬虫结果重定向到文件

5. 项目打包

创建w3文件夹：用于存放项目文件和结果
复制所有爬虫相关文件到w3文件夹
保存爬虫结果到w3文件夹
保存本协助记录到w3文件夹

运行结果

成功爬取40本书的信息
包含书名、作者、出版社、出版日期、价格、评分、简介、豆瓣链接
结果保存在 w3/crawler_result.txt

技术要点

Jsoup库的使用：解析HTML
HTTP请求模拟：设置User-Agent
反爬措施：添加延迟
数据解析：使用CSS选择器提取数据
命令行操作：编译和运行Java程序

后续扩展建议

增加数据存储到数据库
添加GUI界面
实现多线程爬取
增加更多标签的爬取
实现数据可视化