PDF转markdown工具汇总

本帖罗列市面上的pdf转markdown工具,毕竟markdown文本更适合在RAG流程中传递给llm。

1、gemini 2.0模型

本质上也是用了ocr。效果还行。必须借助prompt让gemini分批次回复转换的结果。

我目前使用的prompt:

https://memos.gujiakai.top/m/A6Vix8xhMrupJwf9TM9UKt

目前阶段【截至2025.2.14】,gemini 2.0 exp模型对于图表、数学公式转换还是存在缺陷的,毕竟这些点目前最先进的ocr可能也难以应对。

考虑时间等成本,我的解决方案图表保留标题,去除掉图表【尽可能减小在RAG流程中的噪音,少掉的部分,如果真需要在RAG中输出,则通过citation的方式,让用户自寻查找解决方案】,数学公式摆乱,毕竟LLM对于数学也不是精通的那种。


补充一些gemini 2.0多模态能力,处理PDF数据的博文:

2、docling:Docling - Docling

对于图表、数学公式存在瑕疵,但是转换结果相较于PyMuPDF而言更棒,PyMuPDF的转换结果更零散。

近期PyMuPDF没试过,不清楚体验有无改进,但去年年底体验给我的感受就是docling更胜一筹。

而且最近在reddit上也看到有老哥称赞docling,综合成本和效果考虑,确实docling在这方面是很有竞争力。


docling api项目:GitHub - drmingler/docling-api: Easily deployable and scalable backend server that efficiently converts various document formats (pdf, docx, pptx, html, images, etc) into Markdown. With support for both CPU and GPU processing, it is Ideal for large-scale workflows, it offers text/table extraction, OCR, and batch processing with sync/async endpoints.

用了多天mineru处理数据,发现docling处理相较mineru更有利于RAG流程中的chunk根据文档结构分块。

3、llamaparse:https://cloud.llamaindex.ai/

premium模式转换结果确实非常好,但可惜是闭源服务,有免费额度,但是对于一定数量的文件而言就需要破费了。

近期随着gemini 2.0 flash的正式上线,也第一时间集成了,但总体而言,还是受限于成本。

4、Doc2X:https://doc2x.noedgeai.com/

据说转换效果不错。但也属于是付费项目。

via: 千页pdf公式表格精准解析,轻松构建知识库 - 开发调优 - LINUX DO

5、megaparse:GitHub - QuivrHQ/MegaParse: File Parser optimised for LLM Ingestion with no loss 🧠 Parse PDFs, Docx, PPTx in a format that is ideal for LLMs.

看演示视频很惊艳。没体验过,一般我都是直接用docling,以后可以尝试尝试。


需要高级LLM API,归根结底还是付费服务,为了转换质量,可以一试,如果一般转换就行,直接用docling更佳,开源项目,除了算力,不需要额外付费。

持续更新,还有很多选项。

MinerU:GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。

不愧是大模型时代的文档提取/转换神器,转换效果比docling都要来得好

而且是开源项目,如果懒得自部署,用官方的saas服务,可以申请api。


不好说孰优孰劣,只能说各有特色。完美转换是不存在的。


补充:

MinerU的最大优势:本地部署后可以接入LLM,为OCR加持,LLM越强,OCR效果越好。

听网友说的,有机会本地部署试试,接入Qwen VL/Gemini系列模型,成本和效果可以平衡。虽然很想尝试GPT/Claude,但价格劝退。

marker项目:GitHub - VikParuchuri/marker: Convert PDF to markdown + JSON quickly with high accuracy

粗看了一下页面,也有对应的saas api服务。效果不清楚如何,目前docling、mineru感觉够用了。

olmOCR:https://olmocr.allenai.org/

olmOCR 是一种开源工具,旨在将 PDF 和其他文档高吞吐量转换为纯文本,同时保持自然阅读顺序。它支持表格、方程式、手写等。

datawhale的总结:

网友补充:paddleocr、ragflow deepdoc、unstructured

huggingface space:PDFParsersPlayground - a Hugging Face Space by chunking-ai

pdf 2 markdown游乐场。

mistral ocr:Mistral OCR | Mistral AI

看了simonwillison大神的测评,pdf转markdown还是差点意思。

mistral压根就没崛起过,一直在炒作。


没有完美的解决方案,docling、mineru也不是完美的解决方案,能做到90%+其实也已经够了,希望未来能有100%完美转换的解决方案。

markdrop:GitHub - shoryasethia/markdrop: A Python package for converting PDFs to markdown while extracting images and tables, generate descriptive text descriptions for extracted tables/images using several LLM clients. And many more functionalities. Markdrop is available on PyPI.

结合docling和gemini的PDF转markdown工具。

还能生成表格、图片描述。

看起来不错,具体没试过。

markpdfdown:GitHub - jorben/markpdfdown: This is a tool that uses a multimodal LLM to transcribe PDF files into Markdown format. 借助多模态大模型将PDF文件转为Markdown

又一个借助LLM的PDF转Markdown项目。

SmolDocling-256M-preview vs Docling:

cloudflare的markdown转换功能:Markdown Conversion · Cloudflare Workers AI docs

网友做了一个demo站点:Office File to Markdown | HTML.ZONE

相关项目地址:GitHub - xxnuo/serverless-markdown-convertor: Markdown Conversion

我上传了一份pdf,看了一下转换效果,只能说还行,但比不上docling和mineru。

扫描件PDF转Markdown项目:[开源] 扫描件 PDF 转 Markdown / EPUB,自动修复 OCR 错误 - V2EX

Textin付费服务:

文档解析测评:GitHub - opendatalab/OmniDocBench: [CVPR 2025] A Comprehensive Benchmark for Document Parsing and Evaluation

Gemini 2.5 Pro YYDS!!!!!