有没有C库从PDF文件中提取文本,如PDFBox for Java?

去年,我使用PDFBox在Java中应用了一些PDF文件中的原始文本,现在我需要将该应用程序移植到C中.

我想知道什么是最好的C替代完成我需要的.

我会举个例子来帮助你:

大多数文件将如下所示:http://www.jumbala.net/backup/league.pdf

使用PDFBox,使用该文件,第2页上读取的每一行和第3页的大部分将输出一行的所有数据,以空格分隔,而不是像现在这样保留在一个网格中.

所以第2页的第一个相关行将如下所示:

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

或类似的东西,因为它们出现的顺序有微小的变化,但我不在乎只要类似的行输出相同,因为我只是解析它们,并将我需要的值放在不同的变量中.

所以,知道所有这一切,有没有一个可以在C程序中使用的图书馆来获得类似的结果?

编辑:在看到sacredFaith的链接在http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file并尝试,我得到一个奇怪的输出像我之前提到的示例文件:

http://www.jumbala.net/backup/league.pdf.txt

我实际需要的部分是开头的奇怪角色.使用Adobe Acrobat Reader X并使用另存为…文本(可访问),我得到以下结果:

http://www.jumbala.net/backup/league_good.pdf.txt

这大概是我在Java中使用PDFBox的东西,而我想要得到的是C中的输出.

最佳答案
Xpdf是一个C应用程序/库,其中包含从PDF文件中提取纯文本的工具.

转载注明原文:有没有C库从PDF文件中提取文本,如PDFBox for Java? - 代码日志