You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 

50 lines
2.9 KiB

import java.io.*;
import java.util.*;
import java.util.regex.*;
public class ProcessRegressionData {
public static void main(String[] args) {
String inputFile = "D:\\计量经济学\\计量实验资料及作业要求\\计量实验资料及作业要求\\图文帖子实验数据(新).xlsx";
String outputFile = "D:\\计量经济学\\计量实验资料及作业要求\\计量实验资料及作业要求\\图文帖子实验数据(新)_回归.xlsx";
System.out.println("========================================");
System.out.println(" 处理回归数据");
System.out.println("========================================");
System.out.println("输入文件: " + inputFile);
System.out.println("输出文件: " + outputFile);
System.out.println();
// 检查文件是否存在
File file = new File(inputFile);
if (!file.exists()) {
System.out.println("错误: 输入文件不存在!");
return;
}
System.out.println("输入文件大小: " + (file.length() / 1024) + " KB");
System.out.println("\n注意: 这是一个简化版本,用于演示处理逻辑。");
System.out.println("实际处理需要使用Apache POI库来读取和写入Excel文件。");
System.out.println();
System.out.println("处理逻辑:");
System.out.println("1. 读取原始数据");
System.out.println("2. 识别列: helpfull( Y ), 帖子评论总数( X1 ), 评论1-5内容列");
System.out.println("3. 计算 X2-X6:");
System.out.println(" - X2: 评论长度平均值(剔空格后的字符数)");
System.out.println(" - X3: 评论复杂度平均值(按空格拆分的分词数)");
System.out.println(" - X4: X2/X3(X3为0时记0)");
System.out.println(" - X5: 情感性平均值(正面=1、中性=0、负面=-1)");
System.out.println(" - X6: 信息丰富度平均值(含数字/链接/表情各1分)");
System.out.println("4. 数据清洗: 确保所有值为纯数字,无空值/错误值");
System.out.println("5. 保存到新文件");
System.out.println();
System.out.println("由于数据量较大(3万+行),建议使用Python的pandas库处理。");
System.out.println("请确保Python脚本能够完整执行,可能需要增加内存或分批处理。");
System.out.println();
System.out.println("========================================");
System.out.println(" 建议使用以下Python命令运行");
System.out.println("========================================");
System.out.println("cd d:\\java\\project");
System.out.println("python process_300_rows.py (测试前300行)");
System.out.println("python process_all_rows.py (处理全部数据)");
}
}