AI驱动的免费文档解析工具Docling
简介
什么是 Docling ?
Docling是一个开源的python文档处理库,由IBM开发,用于将DOCX、PPTX、XLSX、图像、HTML等文档转换为结构化的Markdown或JSON格式,为构建AI驱动的RAG/QA应用提供了高效、便捷的解决方案。
什么是 Docling Serve ?
Docling Serve是一个将Docling作为API服务运行的项目。
主要特点
- 多格式支持:支持读取和转换多种文档格式,让你无需担心不同格式的兼容性问题。
 - PDF 文档理解:不仅能够提取 
PDF文档的文字内容,还能解析页面布局、阅读顺序和表格结构,提供深入的信息,完美还原数据。 - 统一格式:使用统一的 
DoclingDocument格式来表示文档内容,方便后续处理和分析。 - 本地执行能力:在处理敏感数据或在隔离环境中执行时,支持本地运行。
 - 即插即用的集成:可以轻松集成 
LlamaIndex和LangChain等工具,实现强大的RAG / QA应用。 - OCR支持:支持 
OCR技术,可以处理扫描的PDF文件。 - 简单易用:提供简单的 
CLI命令行界面,用户快速使用。 - 音频支持:支持与自动语音识别(
ASR)模型的集成,处理音频内容。 
应用场景
- 文档处理:企业和组织可以使用 
Docling来自动化文档处理流程,提高效率。 - 学术研究:研究人员可以解析和提取研究文献中的重要信息,便于分析和引用。
 - 内容创建:内容创作者可以快速转换和格式化文档,以便于发布和分享。
 - 数据提取:数据科学家和分析师可以使用 
Docling从各种文档中提取结构化数据,支持数据分析工作。 

Docling 是一个功能强大且灵活的工具,适合需要高效文档处理和生成式 AI 集成的用户。
安装
在群晖上以 Docker 方式安装。
Docling Serve 有多个镜像,可用于在不同硬件配置下运行,老苏选择了基础镜像
| 镜像 | 描述 | 架构 | 大小 | 
|---|---|---|---|
ghcr.io/docling-project/docling-serve quay.io/docling-project/docling-serve | 
从官方 PyPI 索引安装的所有包的基础映像 | 
linux/amd64 linux/arm64 | 
4.4 GB (arm64) 8.7 GB (amd64)  | 
ghcr.io/docling-project/docling-serve-cpu quay.io/docling-project/docling-serve-cpu | 
仅限 CPU 变体,使用 PyTorch CPU 索引中的 torch | 
linux/amd64 linux/arm64 | 
4.4 GB | 
ghcr.io/docling-project/docling-serve-cu126 quay.io/docling-project/docling-serve-cu126 | 
CUDA 12.6 使用torch cu126 索引构建 | 
linux/amd64 | 
10.0 GB | 
ghcr.io/docling-project/docling-serve-cu128 quay.io/docling-project/docling-serve-cu128 | 
CUDA 12.8 使用torch cu128 索引构建 | 
linux/amd64 | 
11.4 GB | 
docker cli 安装
如果你熟悉命令行,可能用 docker cli 更快捷
1  | # 运行容器  | 
DOCLING_SERVE_ENABLE_UI=1:表示启用Web UIGRADIO_MCP_SERVER=True:表示启用MCP Server
docker-compose 安装
也可以用 docker-compose 安装,将下面的内容保存为 docker-compose.yml 文件
1  | version: '3'  | 
然后通过 SSH 登录到您的群晖,执行下面的命令:
1  | # 新建文件夹 docling-serve 和 子目录  | 

运行
在浏览器中输入 http://群晖IP:5015 就能看到主界面

找了篇旧文的 pdf

上传文件,选项保存默认即可

开始处理

处理完成后

有点小的排版问题,整体看起来还是相当不错的

参考文档
docling-project/docling: Get your documents ready for gen AI
地址:https://github.com/docling-project/doclingdocling-project/docling-serve: Running Docling as an API service
地址:https://github.com/docling-project/docling-serveDocling - Docling
地址:https://docling-project.github.io/docling/