教程:提取 PDF
学习如何从 PDF 中提取技术文档并创建可搜索的 AI 技能。
时间: 10 分钟 | 级别: 初学者 | 结果: 基于 PDF 的技能
基本 PDF 提取
skill-seekers pdf \
--input /path/to/manual.pdf \
--output output/manual/
扫描 PDF 的 OCR
# 先安装 Tesseract
# Ubuntu: sudo apt-get install tesseract-ocr
# macOS: brew install tesseract
skill-seekers pdf \
--input /path/to/scanned.pdf \
--output output/scanned/ \
--ocr
受密码保护的 PDF
skill-seekers pdf \
--input /path/to/encrypted.pdf \
--output output/encrypted/ \
--password "your-password"
提取表格
skill-seekers pdf \
--input /path/to/spec.pdf \
--output output/spec/ \
--extract-tables
并行处理(快 3 倍)
skill-seekers pdf \
--input /path/to/large.pdf \
--output output/large/ \
--parallel \
--workers 8
参见: PDF 抓取手册获取完整指南。