我试图从* .doc文档生成PDF文档.
直到现在,由于stackoverflow,我已成功生成它但有一些问题.
直到现在,由于stackoverflow,我已成功生成它但有一些问题.
我的下面的示例代码生成的pdf没有格式和图像,只有文本.
该文档包括未包含在PDF中的空格和图像.
这是代码:
in = new FileInputStream(sourceFile.getAbsolutePath());
out = new FileOutputStream(outputFile);
WordExtractor wd = new WordExtractor(in);
String text = wd.getText();
Document pdf= new Document(PageSize.A4);
PdfWriter.getInstance(pdf, out);
pdf.open();
pdf.add(new Paragraph(text));
最佳答案
docx4j包含code,用于使用iText从docx创建PDF.它还可以使用POI将doc转换为docx.
曾经有一段时间我们平等地支持这两种方法(以及通过XHTML的PDF),但我们决定专注于XSL-FO.
如果它是一个选项,你最好使用docx4j通过XSL-FO和FOP将docx转换为PDF.
像这样使用它:
wordMLPackage = WordprocessingMLPackage.load(new java.io.File(inputfilepath));
// Set up font mapper
Mapper fontMapper = new IdentityPlusMapper();
wordMLPackage.setFontMapper(fontMapper);
// Example of mapping missing font Algerian to installed font Comic Sans MS
PhysicalFont font
= PhysicalFonts.getPhysicalFonts().get("Comic Sans MS");
fontMapper.getFontMappings().put("Algerian", font);
org.docx4j.convert.out.pdf.PdfConversion c
= new org.docx4j.convert.out.pdf.viaXSLFO.Conversion(wordMLPackage);
// = new org.docx4j.convert.out.pdf.viaIText.Conversion(wordMLPackage);
OutputStream os = new java.io.FileOutputStream(inputfilepath + ".pdf");
c.output(os);
2016年7月更新
从docx4j 3.3.0开始,Plutext的商业PDF渲染器是docx4j的docx到PDF转换的默认选项.您可以在converter-eval.plutext.com尝试在线演示
如果要使用现有的docx到XSL-FO到PDF(或Apache FOP支持的其他目标)方法,那么只需将docx4j-export-FO jar添加到类路径中.
无论哪种方式,要将docx转换为PDF,您都可以使用Docx4J facade的toPDF方法.
通过iText代码的旧docx到PDF可以在https://github.com/plutext/docx4j-export-FO/…/docx4j-extras/PdfViaIText/找到
相关文章
- java - 使用Apache POI将doc转换为pdf
- 哪个是将docx转换为pdf的最佳Java API
- java - JasperReports取代了Apache POI(M $)和iText(PDF)吗?
- 使用带有Apache POI API的Java在word文档上创建Bullet列表
- java - Apache POI HWPF - 将doc文件转换为pdf时出现问题
- apache-poi - 如何使用POI以粗体和斜体格式阅读word文档
- 如何使用apache poi获取doc,docx文件中特定单词的行号,页码?
- 如何使用Apache POI读取Java中的.DOC文件以将图像与文本分开?