feat:SaveAerage

2 months ago · e60d1163f0
33 changed files with 836 additions and 6 deletions
--- a/BankAccount.java
+++ b/BankAccount.java
@ -18,6 +18,7 @@ public class BankAccount {
        }
        public double getBalance() {
            return balance;
+        }
        public void deposit(double amount) {
            if (amount > 0) {
                this.balance += amount;
@ -37,4 +38,4 @@ public class BankAccount {
            }
        }
    } 
-}   
+   
--- a/w2/DataCleaner.java
+++ b/w2/DataCleaner.java
@ -10,15 +10,15 @@ public class DataCleaner{
 					break;
 				}
 				if (data<=0 || data > 100) {
-					Syztem.out.println("警告：发现越界数据[" + data + "], 已跳过");
+					System.out.println("警告：发现越界数据[" + data + "], 已跳过");
 					continue;
 				}
 				vaildSum +=data;
 				validCount++;
 			}
-			if (vaildCount > 0) {
+			if (validCount > 0) {
 				double average = (double)
-validSum / vaildCount;
+vaildSum / validCount;
 				System.out.println("有效数据平均值：" + average);
 			} else {
 				System.out.println("无有效数据");
--- a/w4/ShapeCalculator.java
+++ b/w4/ShapeCalculator.java
@ -1,4 +1,4 @@
-package w5;
+package w4;

 public class ShapeCalculator {
    abstract class Shape {
--- a/w5/Shape.java
+++ b/w5/Shape.java
@ -1,3 +1,28 @@
+package w5;
+
 public abstract class Shape {
    public abstract void draw();
-}
+}
+    class Circle extends Shape {
+        @Override
+        public void draw() {
+            System.out.println("绘制一个圆形");
+        }
+    }
+    class Rectangle extends Shape {
+        @Override
+        public void draw() {
+            System.out.println("绘制一个矩形");
+        }
+    }
+class ShapeTest {
+        public static void drawShape(Shape s) {
+            s.draw();
+        }
+        public static void main(String[] args) {
+            Shape circle = new Circle();
+            Shape rectangle = new Rectangle();
+            drawShape(circle);
+            drawShape(rectangle);
+        }
+    }
--- a/w7/SaveAerage.java
+++ b/w7/SaveAerage.java
@ -0,0 +1,33 @@
+package w7;
+
+import java.io.BufferedReader;
+import java.io.FileReader;
+import java.io.IOException;
+
+public class SaveAerage {
+    public static void main([String[] args]){
+        String filePath = "scores.txt";
+        int sum = 0;
+        int count = 0;
+        try (BufferedReader br = new BufferedReader(new FileReader(filePath))) {
+            String line;
+            while ((line = br.readLine()) != null) {
+                int score = Integer.parseInt(line.trim());
+                sum += score;
+                count++;
+            } catch (NumberFormatException e) {
+                System.out.printlm("数字格式错误，跳过无效数据: "  + line);   
+            }
+        } 
+        if (count == 0) {
+            System.out.println("文件中没有有效成绩数据");
+        } else {
+            double average = (double) sum / count;
+            System.out.println("平均分: %.2f%n" ,average);
+        }
+    } catch (java.io.FileNotFoundException e) {
+        System.err.println("错误：文件不存在 —— " + filePath);
+    } catch (IOException e) {
+        System.err.println("错误：读取文件时发生异常 —— " + e.getMessage());
+    }
+}
--- a/大数据招聘爬虫/PaChong/README.md
+++ b/大数据招聘爬虫/PaChong/README.md
@ -0,0 +1,146 @@
+# 大数据招聘爬虫项目
+
+## 项目简介
+这是一个适合新手学习的大数据招聘信息爬虫项目，使用Java语言开发，实现了爬取、处理和存储招聘信息的完整流程。
+
+## 技术栈
+- **开发语言**: Java 11+
+- **爬虫框架**: Jsoup 1.17.2
+- **构建工具**: Maven 3.6+
+- **数据存储**: CSV文件
+
+## 项目结构
+```
+bigdata-job-crawler/
+├── src/
+│   ├── main/
+│   │   ├── java/
+│   │   │   └── com/
+│   │   │       └── example/
+│   │   │           ├── crawler/
+│   │   │           │   └── JobCrawler.java      # 爬虫核心类
+│   │   │           ├── processor/
+│   │   │           │   └── DataProcessor.java    # 数据处理类
+│   │   │           ├── storage/
+│   │   │           │   └── DataStorage.java      # 数据存储类
+│   │   │           └── Main.java                 # 主类
+│   │   └── resources/
+├── pom.xml                                       # Maven配置文件
+├── bigdata_jobs.csv                              # 爬取结果文件
+└── README.md                                     # 项目说明
+```
+
+## 环境要求
+- JDK 11或更高版本
+- Maven 3.6或更高版本
+
+## 安装步骤
+
+### 1. 安装JDK
+从Oracle官网下载并安装JDK 11+，配置JAVA_HOME环境变量。
+
+### 2. 安装Maven
+从Apache官网下载并安装Maven 3.6+，配置MAVEN_HOME环境变量。
+
+### 3. 验证环境
+```bash
+java -version
+mvn -version
+```
+
+## 使用方法
+
+### 1. 编译项目
+```bash
+mvn clean compile
+```
+
+### 2. 运行项目
+```bash
+# 方法1：使用java命令直接运行
+java -cp "target/classes;C:\Users\lenovo\.m2\repository\org\jsoup\jsoup\1.17.2\jsoup-1.17.2.jar" com.example.Main
+
+# 方法2：使用Maven exec插件（需要先在pom.xml中配置）
+mvn exec:java -Dexec.mainClass="com.example.Main"
+```
+
+### 3. 查看结果
+程序运行后，会在项目根目录生成 `bigdata_jobs.csv` 文件，包含爬取的职位信息。
+
+## 项目说明
+
+### 核心类介绍
+
+#### 1. JobCrawler.java
+负责爬取招聘信息，目前使用模拟数据进行演示。在实际项目中，可以替换为真实的爬取逻辑：
+- 使用Jsoup发送HTTP请求
+- 解析HTML页面，提取职位信息
+- 支持多种选择器，适应不同的网站结构
+
+#### 2. DataProcessor.java
+负责处理爬取的数据：
+- 清理空白字符
+- 标准化数据格式
+- 数据验证
+
+#### 3. DataStorage.java
+负责将处理后的数据保存为CSV文件：
+- 生成CSV格式文件
+- 支持自定义文件路径
+- 使用缓冲写入，提高性能
+
+#### 4. Main.java
+程序的主入口，协调整个爬虫流程：
+- 调用爬虫获取数据
+- 调用处理器清洗数据
+- 调用存储器保存数据
+
+## 当前功能
+- ✅ 爬取大数据相关职位信息
+- ✅ 数据清洗和处理
+- ✅ 数据存储为CSV文件
+- ✅ 支持多种职位信息字段（职位名称、薪资、公司、地点、经验、学历）
+
+## 注意事项
+1. **模拟数据**: 当前版本使用模拟数据进行演示，实际项目中需要替换为真实的爬取逻辑
+2. **反爬机制**: 实际爬取时需要注意网站的反爬机制，建议：
+   - 添加合理的请求延迟
+   - 使用代理IP池
+   - 设置合适的User-Agent
+3. **法律合规**: 爬取数据时请遵守相关法律法规和网站的使用条款
+
+## 扩展建议
+1. **支持更多网站**: 添加前程无忧、猎聘网等招聘平台的支持
+2. **数据可视化**: 使用JFreeChart等库生成图表
+3. **定时任务**: 使用Quartz实现定时爬取
+4. **数据库存储**: 使用MySQL等数据库替代CSV文件
+5. **数据分析**: 添加薪资分析、技能需求分析等功能
+
+## 常见问题
+
+### Q: 如何修改爬取的职位数量？
+A: 在JobCrawler.java中修改循环次数或条件。
+
+### Q: 如何添加新的招聘网站？
+A: 在JobCrawler.java中添加新的爬取方法，或修改现有方法以支持新的URL。
+
+### Q: CSV文件在哪里？
+A: 默认在项目根目录下，文件名为 `bigdata_jobs.csv`。
+
+### Q: 如何修改保存路径？
+A: 在Main.java中修改 `filePath` 变量的值。
+
+## 学习资源
+- [Jsoup官方文档](https://jsoup.org/)
+- [Maven官方文档](https://maven.apache.org/)
+- [Java官方文档](https://docs.oracle.com/en/java/)
+
+## 许可证
+本项目仅供学习交流使用。
+
+## 联系方式
+如有问题或建议，欢迎交流讨论。
+
+---
+
+**祝您学习愉快！**
--- a/大数据招聘爬虫/PaChong/bigdata_jobs.csv
+++ b/大数据招聘爬虫/PaChong/bigdata_jobs.csv
@ -0,0 +1,11 @@
+职位名称,薪资,公司名称,地点,经验要求,学历要求
+大数据开发工程师,20-35K,阿里巴巴,北京,3-5年,本科
+数据分析师,15-25K,腾讯,上海,1-3年,本科
+数据挖掘工程师,25-40K,百度,深圳,5-10年,硕士
+大数据架构师,30-50K,字节跳动,杭州,10年以上,硕士
+机器学习工程师,18-30K,京东,广州,3-5年,本科
+数据仓库工程师,20-35K,美团,北京,5-10年,硕士
+实时计算工程师,35-55K,华为,深圳,10年以上,博士
+大数据运维工程师,22-38K,小米,上海,3-5年,本科
+数据产品经理,25-45K,滴滴,杭州,5-10年,硕士
+算法工程师,28-50K,网易,北京,3-5年,硕士
--- a/大数据招聘爬虫/PaChong/jsoup-1.17.2.jar
+++ b/大数据招聘爬虫/PaChong/jsoup-1.17.2.jar
--- a/大数据招聘爬虫/PaChong/pom.xml
+++ b/大数据招聘爬虫/PaChong/pom.xml
@ -0,0 +1,38 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+    <modelVersion>4.0.0</modelVersion>
+
+    <groupId>com.example</groupId>
+    <artifactId>bigdata-job-crawler</artifactId>
+    <version>1.0-SNAPSHOT</version>
+
+    <properties>
+        <maven.compiler.source>11</maven.compiler.source>
+        <maven.compiler.target>11</maven.compiler.target>
+        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
+    </properties>
+
+    <dependencies>
+        <dependency>
+            <groupId>org.jsoup</groupId>
+            <artifactId>jsoup</artifactId>
+            <version>1.17.2</version>
+        </dependency>
+    </dependencies>
+
+    <build>
+        <plugins>
+            <plugin>
+                <groupId>org.apache.maven.plugins</groupId>
+                <artifactId>maven-compiler-plugin</artifactId>
+                <version>3.8.1</version>
+                <configuration>
+                    <source>11</source>
+                    <target>11</target>
+                </configuration>
+            </plugin>
+        </plugins>
+    </build>
+</project>
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/Main.java
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/Main.java
@ -0,0 +1,53 @@
+package com.example;
+
+import com.example.crawler.BaseCrawler;
+import com.example.crawler.MockCrawler;
+import com.example.crawler.ZhaopinCrawler;
+import com.example.crawler.Job51Crawler;
+import com.example.processor.DataProcessor;
+import com.example.storage.DataStorage;
+import java.util.List;
+import java.util.Map;
+
+public class Main {
+    public static void main(String[] args) {
+        try {
+            // 创建不同的爬虫实例（多态：使用父类引用指向子类对象）
+            BaseCrawler[] crawlers = {
+                new MockCrawler(5),    // 模拟数据爬虫，爬取5个职位
+                new ZhaopinCrawler(3),  // 智联招聘爬虫，爬取3个职位
+                new Job51Crawler(4)     // 前程无忧爬虫，爬取4个职位
+            };
+            
+            // 数据处理器和存储
+            DataProcessor processor = new DataProcessor();
+            DataStorage storage = new DataStorage();
+            
+            System.out.println("====== 大数据招聘爬虫系统 ======");
+            System.out.println();
+            
+            // 遍历所有爬虫，执行爬取（多态：调用子类的crawlJobs方法）
+            for (BaseCrawler crawler : crawlers) {
+                System.out.println("正在使用 " + crawler.getName() + " 爬取数据...");
+                
+                // 1. 爬取数据
+                List<Map<String, String>> jobs = crawler.crawlJobs();
+                System.out.println(crawler.getName() + " 爬取到 " + jobs.size() + " 个职位");
+                
+                // 2. 处理数据
+                List<Map<String, String>> processedJobs = processor.processData(jobs);
+                
+                // 3. 存储数据
+                String filePath = crawler.getName() + "_jobs.csv";
+                storage.saveToCsv(processedJobs, filePath);
+                System.out.println("数据已保存到: " + filePath);
+                System.out.println();
+            }
+            
+            System.out.println("====== 所有爬虫任务完成 ======");
+            
+        } catch (Exception e) {
+            e.printStackTrace();
+        }
+    }
+}
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/BaseCrawler.class
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/BaseCrawler.class
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/BaseCrawler.java
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/BaseCrawler.java
@ -0,0 +1,64 @@
+package com.example.crawler;
+
+import java.io.IOException;
+import java.util.List;
+import java.util.Map;
+
+/**
+ * 爬虫基类，定义通用的爬虫接口和方法
+ */
+public abstract class BaseCrawler {
+    protected String name; // 爬虫名称
+    protected int maxJobs; // 最大爬取职位数
+    
+    /**
+     * 构造方法
+     * @param name 爬虫名称
+     * @param maxJobs 最大爬取职位数
+     */
+    public BaseCrawler(String name, int maxJobs) {
+        this.name = name;
+        this.maxJobs = maxJobs;
+    }
+    
+    /**
+     * 爬取职位信息的抽象方法，子类必须实现
+     * @return 职位信息列表
+     * @throws IOException 网络请求异常
+     */
+    public abstract List<Map<String, String>> crawlJobs() throws IOException;
+    
+    /**
+     * 获取爬虫名称
+     * @return 爬虫名称
+     */
+    public String getName() {
+        return name;
+    }
+    
+    /**
+     * 获取最大爬取职位数
+     * @return 最大爬取职位数
+     */
+    public int getMaxJobs() {
+        return maxJobs;
+    }
+    
+    /**
+     * 打印爬取开始信息
+     */
+    protected void printStartInfo() {
+        System.out.println("====== " + name + " 开始爬取 ======");
+        System.out.println("最大爬取职位数: " + maxJobs);
+    }
+    
+    /**
+     * 打印爬取结束信息
+     * @param jobCount 实际爬取的职位数
+     */
+    protected void printEndInfo(int jobCount) {
+        System.out.println("====== " + name + " 爬取完成 ======");
+        System.out.println("总共成功爬取 " + jobCount + " 个职位");
+        System.out.println();
+    }
+}
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/Job51Crawler.java
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/Job51Crawler.java
@ -0,0 +1,94 @@
+package com.example.crawler;
+
+import java.io.IOException;
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+
+/**
+ * 前程无忧爬虫（模拟实现）
+ */
+public class Job51Crawler extends BaseCrawler {
+    
+    /**
+     * 构造方法
+     * @param maxJobs 最大爬取职位数
+     */
+    public Job51Crawler(int maxJobs) {
+        super("前程无忧爬虫", maxJobs);
+    }
+    
+    @Override
+    public List<Map<String, String>> crawlJobs() throws IOException {
+        List<Map<String, String>> jobs = new ArrayList<>();
+        
+        printStartInfo();
+        
+        try {
+            // 模拟前程无忧爬取过程
+            System.out.println("正在连接前程无忧网站...");
+            
+            // 模拟网络延迟
+            Thread.sleep(1200);
+            
+            // 模拟解析页面
+            System.out.println("正在解析职位信息...");
+            
+            // 模拟数据
+            String[] titles = {
+                "大数据开发", "数据分析师", "数据挖掘工程师",
+                "大数据架构师", "AI算法工程师", "数据仓库开发"
+            };
+            
+            String[] companies = {
+                "华为", "小米", "OPPO",
+                "vivo", "荣耀", "realme"
+            };
+            
+            String[] salaries = {
+                "20-35K", "15-25K", "25-45K",
+                "30-55K", "28-50K", "18-30K"
+            };
+            
+            String[] locations = {
+                "深圳", "北京", "上海",
+                "深圳", "北京", "深圳"
+            };
+            
+            String[] experiences = {
+                "3-5年", "1-3年", "3-5年",
+                "5-10年", "3-5年", "2-4年"
+            };
+            
+            String[] educations = {
+                "本科", "本科", "硕士",
+                "硕士", "硕士", "本科"
+            };
+            
+            // 创建模拟的职位数据
+            int count = 0;
+            for (int i = 0; i < titles.length && count < maxJobs; i++) {
+                Map<String, String> job = new HashMap<>();
+                job.put("title", titles[i]);
+                job.put("salary", salaries[i]);
+                job.put("company", companies[i]);
+                job.put("location", locations[i]);
+                job.put("experience", experiences[i]);
+                job.put("education", educations[i]);
+                
+                jobs.add(job);
+                count++;
+                System.out.println("成功解析第 " + count + " 个职位: " + titles[i]);
+            }
+            
+        } catch (InterruptedException e) {
+            Thread.currentThread().interrupt();
+            System.out.println("爬取过程被中断");
+        }
+        
+        printEndInfo(jobs.size());
+        
+        return jobs;
+    }
+}
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/MockCrawler.java
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/MockCrawler.java
@ -0,0 +1,88 @@
+package com.example.crawler;
+
+import java.io.IOException;
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+
+/**
+ * 模拟数据爬虫，用于演示
+ */
+public class MockCrawler extends BaseCrawler {
+    
+    /**
+     * 构造方法
+     * @param maxJobs 最大爬取职位数
+     */
+    public MockCrawler(int maxJobs) {
+        super("模拟数据爬虫", maxJobs);
+    }
+    
+    @Override
+    public List<Map<String, String>> crawlJobs() throws IOException {
+        List<Map<String, String>> jobs = new ArrayList<>();
+        
+        printStartInfo();
+        
+        // 模拟爬取过程，实际项目中可以替换为真实的爬取逻辑
+        String[] mockTitles = {
+            "大数据开发工程师", "数据分析师", "数据挖掘工程师", 
+            "大数据架构师", "机器学习工程师", "数据仓库工程师",
+            "实时计算工程师", "大数据运维工程师", "数据产品经理", "算法工程师"
+        };
+        
+        String[] mockCompanies = {
+            "阿里巴巴", "腾讯", "百度", "字节跳动", "京东",
+            "美团", "华为", "小米", "滴滴", "网易"
+        };
+        
+        String[] mockSalaries = {
+            "20-35K", "15-25K", "25-40K", "30-50K", "18-30K",
+            "20-35K", "35-55K", "22-38K", "25-45K", "28-50K"
+        };
+        
+        String[] mockLocations = {
+            "北京", "上海", "深圳", "杭州", "广州",
+            "北京", "深圳", "上海", "杭州", "北京"
+        };
+        
+        String[] mockExperiences = {
+            "3-5年", "1-3年", "5-10年", "10年以上", "3-5年",
+            "5-10年", "10年以上", "3-5年", "5-10年", "3-5年"
+        };
+        
+        String[] mockEducations = {
+            "本科", "本科", "硕士", "硕士", "本科",
+            "硕士", "博士", "本科", "硕士", "硕士"
+        };
+        
+        // 模拟网络延迟
+        try {
+            Thread.sleep(1000);
+        } catch (InterruptedException e) {
+            Thread.currentThread().interrupt();
+        }
+        
+        // 创建模拟的职位数据
+        int count = 0;
+        for (int i = 0; i < mockTitles.length && count < maxJobs; i++) {
+            Map<String, String> job = new HashMap<>();
+            job.put("title", mockTitles[i]);
+            job.put("salary", mockSalaries[i]);
+            job.put("company", mockCompanies[i]);
+            job.put("location", mockLocations[i]);
+            job.put("experience", mockExperiences[i]);
+            job.put("education", mockEducations[i]);
+            
+            jobs.add(job);
+            count++;
+            System.out.println("成功解析第 " + count + " 个职位: " + mockTitles[i]);
+        }
+        
+        printEndInfo(jobs.size());
+        System.out.println("注意：这是模拟数据，实际项目中需要替换为真实的爬取逻辑");
+        
+        return jobs;
+    }
+}
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/ZhaopinCrawler.class
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/ZhaopinCrawler.class
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/ZhaopinCrawler.java
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/crawler/ZhaopinCrawler.java
@ -0,0 +1,181 @@
+package com.example.crawler;
+
+
+import org.jsoup.Jsoup;
+import org.jsoup.nodes.Document;
+import org.jsoup.nodes.Element;
+import org.jsoup.select.Elements;
+
+import java.io.IOException;
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+
+/**
+ * 智联招聘爬虫（真实实现）
+ */
+public class ZhaopinCrawler extends BaseCrawler {
+    
+    /**
+     * 构造方法
+     * @param maxJobs 最大爬取职位数
+     */
+    public ZhaopinCrawler(int maxJobs) {
+        super("智联招聘爬虫", maxJobs);
+    }
+    
+    @Override
+    public List<Map<String, String>> crawlJobs() throws IOException {
+        List<Map<String, String>> jobs = new ArrayList<>();
+        
+        printStartInfo();
+        
+        try {
+            // 智联招聘搜索URL（搜索大数据相关职位）
+            String url = "https://sou.zhaopin.com/?jl=530&kw=大数据&kt=3";
+            
+            System.out.println("正在连接智联招聘网站...");
+            
+            // 设置请求头，模拟浏览器访问
+            Document doc = Jsoup.connect(url)
+                    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")
+                    .timeout(10000)
+                    .get();
+            
+            System.out.println("正在解析职位信息...");
+            
+            // 打印页面标题，确认是否成功获取页面
+            System.out.println("页面标题: " + doc.title());
+            
+            // 查找职位列表 - 尝试不同的选择器
+            Elements jobElements = doc.select(".joblist__list");
+            if (jobElements.isEmpty()) {
+                jobElements = doc.select(".list__module");
+            }
+            if (jobElements.isEmpty()) {
+                jobElements = doc.select("div[class*=job]");
+            }
+            
+            System.out.println("找到职位元素数量: " + jobElements.size());
+            
+            // 如果找到的是容器，再查找内部的职位项
+            if (!jobElements.isEmpty() && jobElements.size() == 1) {
+                Elements innerJobs = jobElements.first().select("div[class*=job]");
+                if (!innerJobs.isEmpty()) {
+                    jobElements = innerJobs;
+                    System.out.println("找到内部职位项数量: " + jobElements.size());
+                }
+            }
+            
+            int count = 0;
+            for (Element jobElement : jobElements) {
+                if (count >= maxJobs) break;
+                
+                Map<String, String> job = new HashMap<>();
+                
+                // 提取职位名称 - 尝试多种选择器
+                Element titleElement = jobElement.selectFirst("a[class*=job-name]");
+                if (titleElement == null) {
+                    titleElement = jobElement.selectFirst("a[class*=jobName]");
+                }
+                if (titleElement == null) {
+                    titleElement = jobElement.selectFirst("h3");
+                }
+                if (titleElement != null) {
+                    job.put("title", titleElement.text().trim());
+                }
+                
+                // 提取薪资
+                Element salaryElement = jobElement.selectFirst("span[class*=salary]");
+                if (salaryElement == null) {
+                    salaryElement = jobElement.selectFirst(".salary");
+                }
+                if (salaryElement != null) {
+                    job.put("salary", salaryElement.text().trim());
+                }
+                
+                // 提取公司名称
+                Element companyElement = jobElement.selectFirst("a[class*=company]");
+                if (companyElement == null) {
+                    companyElement = jobElement.selectFirst(".company");
+                }
+                if (companyElement != null) {
+                    job.put("company", companyElement.text().trim());
+                }
+                
+                // 提取地点、经验、学历
+                Elements infoElements = jobElement.select(".job-info");
+                if (infoElements.isEmpty()) {
+                    infoElements = jobElement.select("div[class*=info]");
+                }
+                if (!infoElements.isEmpty()) {
+                    Elements spans = infoElements.first().select("span");
+                    if (spans.size() >= 3) {
+                        job.put("location", spans.get(0).text().trim());
+                        job.put("experience", spans.get(1).text().trim());
+                        job.put("education", spans.get(2).text().trim());
+                    }
+                }
+                
+                // 确保所有字段都有值
+                job.putIfAbsent("title", "");
+                job.putIfAbsent("salary", "");
+                job.putIfAbsent("company", "");
+                job.putIfAbsent("location", "");
+                job.putIfAbsent("experience", "");
+                job.putIfAbsent("education", "");
+                
+                // 只添加有效的职位
+                if (!job.get("title").isEmpty()) {
+                    jobs.add(job);
+                    count++;
+                    System.out.println("成功解析第 " + count + " 个职位: " + job.get("title"));
+                    System.out.println("薪资: " + job.get("salary") + ", 公司: " + job.get("company"));
+                    System.out.println("地点: " + job.get("location") + ", 经验: " + job.get("experience") + ", 学历: " + job.get("education"));
+                    
+                    // 模拟网络延迟，避免被反爬
+                    Thread.sleep(1000);
+                }
+            }
+            
+            // 如果没有找到职位，尝试直接解析页面内容
+            if (jobs.isEmpty()) {
+                System.out.println("尝试直接解析页面内容...");
+                // 查找所有包含职位信息的元素
+                Elements allElements = doc.select("div[class*=item]");
+                System.out.println("找到项目元素数量: " + allElements.size());
+                
+                for (Element element : allElements) {
+                    if (count >= maxJobs) break;
+                    
+                    String text = element.text();
+                    if (text.contains("大数据") && (text.contains("K") || text.contains("元"))) {
+                        Map<String, String> job = new HashMap<>();
+                        job.put("title", text.substring(0, Math.min(50, text.length())));
+                        job.put("salary", "");
+                        job.put("company", "");
+                        job.put("location", "");
+                        job.put("experience", "");
+                        job.put("education", "");
+                        
+                        jobs.add(job);
+                        count++;
+                        System.out.println("成功解析第 " + count + " 个职位: " + job.get("title"));
+                    }
+                }
+            }
+            
+        } catch (InterruptedException e) {
+            Thread.currentThread().interrupt();
+            System.out.println("爬取过程被中断");
+        } catch (IOException e) {
+            System.out.println("网络请求失败: " + e.getMessage());
+            // 如果网络请求失败，返回空列表
+        }
+        
+        printEndInfo(jobs.size());
+        
+        return jobs;
+    }
+}
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/processor/DataProcessor.java
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/processor/DataProcessor.java
@ -0,0 +1,21 @@
+package com.example.processor;
+
+import java.util.List;
+import java.util.Map;
+
+public class DataProcessor {
+    // 处理爬取的数据
+    public List<Map<String, String>> processData(List<Map<String, String>> jobs) {
+        for (Map<String, String> job : jobs) {
+            // 清理空白字符
+            job.replaceAll((k, v) -> v != null ? v.trim() : "");
+            // 处理薪资格式（简化处理）
+            String salary = job.get("salary");
+            if (salary != null && !salary.isEmpty()) {
+                // 保留原始薪资信息
+                job.put("salary", salary);
+            }
+        }
+        return jobs;
+    }
+}
--- a/大数据招聘爬虫/PaChong/src/main/java/com/example/storage/DataStorage.java
+++ b/大数据招聘爬虫/PaChong/src/main/java/com/example/storage/DataStorage.java
@ -0,0 +1,31 @@
+package com.example.storage;
+
+import java.io.BufferedWriter;
+import java.io.FileWriter;
+import java.io.IOException;
+import java.util.List;
+import java.util.Map;
+
+public class DataStorage {
+    // 将数据保存为CSV文件
+    public void saveToCsv(List<Map<String, String>> jobs, String filePath) throws IOException {
+        try (BufferedWriter writer = new BufferedWriter(new FileWriter(filePath))) {
+            // 写入表头
+            writer.write("职位名称,薪资,公司名称,地点,经验要求,学历要求");
+            writer.newLine();
+            
+            // 写入数据
+            for (Map<String, String> job : jobs) {
+                writer.write(String.join(",", 
+                    job.getOrDefault("title", ""),
+                    job.getOrDefault("salary", ""),
+                    job.getOrDefault("company", ""),
+                    job.getOrDefault("location", ""),
+                    job.getOrDefault("experience", ""),
+                    job.getOrDefault("education", "")
+                ));
+                writer.newLine();
+            }
+        }
+    }
+}
--- a/大数据招聘爬虫/PaChong/target/classes/com/example/Main.class
+++ b/大数据招聘爬虫/PaChong/target/classes/com/example/Main.class
--- a/大数据招聘爬虫/PaChong/target/classes/com/example/crawler/BaseCrawler.class
+++ b/大数据招聘爬虫/PaChong/target/classes/com/example/crawler/BaseCrawler.class
--- a/大数据招聘爬虫/PaChong/target/classes/com/example/crawler/Job51Crawler.class
+++ b/大数据招聘爬虫/PaChong/target/classes/com/example/crawler/Job51Crawler.class
--- a/大数据招聘爬虫/PaChong/target/classes/com/example/crawler/MockCrawler.class
+++ b/大数据招聘爬虫/PaChong/target/classes/com/example/crawler/MockCrawler.class
--- a/大数据招聘爬虫/PaChong/target/classes/com/example/crawler/ZhaopinCrawler.class
+++ b/大数据招聘爬虫/PaChong/target/classes/com/example/crawler/ZhaopinCrawler.class
--- a/大数据招聘爬虫/PaChong/target/classes/com/example/processor/DataProcessor.class
+++ b/大数据招聘爬虫/PaChong/target/classes/com/example/processor/DataProcessor.class
--- a/大数据招聘爬虫/PaChong/target/classes/com/example/storage/DataStorage.class
+++ b/大数据招聘爬虫/PaChong/target/classes/com/example/storage/DataStorage.class
--- a/大数据招聘爬虫/PaChong/target/classes/前程无忧爬虫_jobs.csv
+++ b/大数据招聘爬虫/PaChong/target/classes/前程无忧爬虫_jobs.csv
@ -0,0 +1,5 @@
+职位名称,薪资,公司名称,地点,经验要求,学历要求
+大数据开发,20-35K,华为,深圳,3-5年,本科
+数据分析师,15-25K,小米,北京,1-3年,本科
+数据挖掘工程师,25-45K,OPPO,上海,3-5年,硕士
+大数据架构师,30-55K,vivo,深圳,5-10年,硕士
--- a/大数据招聘爬虫/PaChong/target/classes/智联招聘爬虫_jobs.csv
+++ b/大数据招聘爬虫/PaChong/target/classes/智联招聘爬虫_jobs.csv
@ -0,0 +1,4 @@
+职位名称,薪资,公司名称,地点,经验要求,学历要求
+大数据开发 9000-14000元 数据采集 数仓开发 前后端开发 数据开发 主流 BI工具 数据中,,,,,
+大数据开发 9000-14000元 数据采集 数仓开发 前后端开发 数据开发 主流 BI工具 数据中,,,,,
+大数据开发工程师（公立本） 9000-15000元 数据治理 数据建模 ETL Sql Shell,,,,,
--- a/大数据招聘爬虫/PaChong/target/classes/模拟数据爬虫_jobs.csv
+++ b/大数据招聘爬虫/PaChong/target/classes/模拟数据爬虫_jobs.csv
@ -0,0 +1,6 @@
+职位名称,薪资,公司名称,地点,经验要求,学历要求
+大数据开发工程师,20-35K,阿里巴巴,北京,3-5年,本科
+数据分析师,15-25K,腾讯,上海,1-3年,本科
+数据挖掘工程师,25-40K,百度,深圳,5-10年,硕士
+大数据架构师,30-50K,字节跳动,杭州,10年以上,硕士
+机器学习工程师,18-30K,京东,广州,3-5年,本科
--- a/大数据招聘爬虫/PaChong/target/maven-status/maven-compiler-plugin/compile/default-compile/createdFiles.lst
+++ b/大数据招聘爬虫/PaChong/target/maven-status/maven-compiler-plugin/compile/default-compile/createdFiles.lst
@ -0,0 +1,7 @@
+com\example\Main.class
+com\example\processor\DataProcessor.class
+com\example\crawler\MockCrawler.class
+com\example\crawler\Job51Crawler.class
+com\example\storage\DataStorage.class
+com\example\crawler\BaseCrawler.class
+com\example\crawler\ZhaopinCrawler.class
--- a/大数据招聘爬虫/PaChong/target/maven-status/maven-compiler-plugin/compile/default-compile/inputFiles.lst
+++ b/大数据招聘爬虫/PaChong/target/maven-status/maven-compiler-plugin/compile/default-compile/inputFiles.lst
@ -0,0 +1,7 @@
+C:\Users\lenovo\Desktop\Code\java\大数据招聘爬虫\PaChong\src\main\java\com\example\Main.java
+C:\Users\lenovo\Desktop\Code\java\大数据招聘爬虫\PaChong\src\main\java\com\example\crawler\BaseCrawler.java
+C:\Users\lenovo\Desktop\Code\java\大数据招聘爬虫\PaChong\src\main\java\com\example\crawler\Job51Crawler.java
+C:\Users\lenovo\Desktop\Code\java\大数据招聘爬虫\PaChong\src\main\java\com\example\crawler\MockCrawler.java
+C:\Users\lenovo\Desktop\Code\java\大数据招聘爬虫\PaChong\src\main\java\com\example\storage\DataStorage.java
+C:\Users\lenovo\Desktop\Code\java\大数据招聘爬虫\PaChong\src\main\java\com\example\crawler\ZhaopinCrawler.java
+C:\Users\lenovo\Desktop\Code\java\大数据招聘爬虫\PaChong\src\main\java\com\example\processor\DataProcessor.java
--- a/大数据招聘爬虫/PaChong/前程无忧爬虫_jobs.csv
+++ b/大数据招聘爬虫/PaChong/前程无忧爬虫_jobs.csv
@ -0,0 +1,5 @@
+职位名称,薪资,公司名称,地点,经验要求,学历要求
+大数据开发,20-35K,华为,深圳,3-5年,本科
+数据分析师,15-25K,小米,北京,1-3年,本科
+数据挖掘工程师,25-45K,OPPO,上海,3-5年,硕士
+大数据架构师,30-55K,vivo,深圳,5-10年,硕士
--- a/大数据招聘爬虫/PaChong/智联招聘爬虫_jobs.csv
+++ b/大数据招聘爬虫/PaChong/智联招聘爬虫_jobs.csv
@ -0,0 +1,4 @@
+职位名称,薪资,公司名称,地点,经验要求,学历要求
+大数据开发工程师,25-40K,百度,北京,3-5年,本科
+数据分析师,20-30K,腾讯,上海,1-3年,本科
+数据挖掘专家,30-50K,阿里巴巴,杭州,5-10年,硕士
--- a/大数据招聘爬虫/PaChong/模拟数据爬虫_jobs.csv
+++ b/大数据招聘爬虫/PaChong/模拟数据爬虫_jobs.csv
@ -0,0 +1,6 @@
+职位名称,薪资,公司名称,地点,经验要求,学历要求
+大数据开发工程师,20-35K,阿里巴巴,北京,3-5年,本科
+数据分析师,15-25K,腾讯,上海,1-3年,本科
+数据挖掘工程师,25-40K,百度,深圳,5-10年,硕士
+大数据架构师,30-50K,字节跳动,杭州,10年以上,硕士
+机器学习工程师,18-30K,京东,广州,3-5年,本科