Awesome
PDF 元信息提取
该项目是 MNBVC 计划的一部分,旨在提供一个提取 PDF 元信息工具。该工具分为元信息提取与元信息分析两个部分。
项目日志
- 初始化
- 支持各类 pdf 后缀;打印读取错误日志,打印文件处理数量日志
- 增加获取 pdf 大小;打印可读,但无元信息文件日志
- 重新处理元信息,合并出现频率小于 0.2 (由数据分析获得)使得元信息 jsonl 方便处理
项目目标
对当前全量 pdf 进行统计分析,指定合适的分类策略,支持后续 pdf 解析
使用方法
元信息提取
建议将多个文件夹软链接到该目录下,然后使用脚本分别运行,提取结果
ln -s /path/to/real_pdf_path ./pdf_bucket_name
python extract_pdf_metadata.py --pdf_dir /path/to/pdf_dir --jsonl_path /path/to/meta_info.jsonl
元信息分析
目前仅完成统计部分