java – 如何确定文件是否是PDF文件?

我在Java中使用PdfBox从PDF文件中提取文本。提供的一些输入文件无效,PDFTextStripper停止在这些文件上。是否有一个干净的方法来检查提供的文件确实是一个有效的PDF?
你可以找出一个文件(或字节数组)的mime类型,所以你不要愚蠢地依赖扩展名。我使用光圈的MimeExtractor(http://aperture.sourceforge.net/)或几天前看到一个图书馆(http://sourceforge.net/projects/mime-util)

我使用光圈从各种文件中提取文本,不仅仅是pdf,而是需要调整PDF的例子(光圈使用pdfbox,但是当我们添加另一个库时,当pdfbox失败时)

http://stackoverflow.com/questions/941813/how-can-i-determine-if-a-file-is-a-pdf-file

本站文章除注明转载外,均为本站原创或编译
转载请明显位置注明出处:java – 如何确定文件是否是PDF文件?