Apache POI自动生成Word文档(带目录)

您所在的位置:网站首页 目录生成步骤包括 Apache POI自动生成Word文档(带目录)

Apache POI自动生成Word文档(带目录)

2024-07-11 07:27| 来源: 网络整理| 查看: 265

1 什么是Apache POI 2 Apache POI的组件 3 安装Apache POI 4 使用POI操作Word文档

1 什么是Apache POI

全称Apache POI,使用Java编写的免费开源的跨平台的Java API。 是创建和维护操作各种符合 Office Open XML(OOXML)标准和微软的 OLE 2 复合文档格式(OLE2)的 Java API。用它可以使用 Java 读取和创建, 修改 MS Excel 文件. 而且, 还可以使用 Java 读取和创建 MS Word 和 MSPowerPoint 文件。Apache POI 提供 Java 操作 Excel 解决方案(适用于 Excel97-2008)。

2 Apache POI的组件

Apache POI包含用于MS-Office的所有OLE2复合文档的类和方法。 此API的组件列表如下:

POIFS:此组件是所有其他POI元素的基本因素。 它用于显式读取不同的文件。HSSF:用于读取和写入.xls格式的MS-Excel文件。XSSF(XML SpreadSheet格式):用于MS-Excel的.xlsx文件格式。HPSF:用于提取MS-Office文件的属性集。HWPF:用于读取和写入MS-Word的.doc扩展文件。XWPF(XML字处理器格式):用于读取和写入MS-Word的扩展文件 .docx 。HSLF:用于阅读,创建和编辑PowerPoint演示文稿。HDGF(Horrible DiaGram格式):它包含MS-Visio二进制文件的类和方法。HPBF(Horrible PuBlisher格式):用于读取和写入MS-Publisher文件。 3 安装Apache POI

使用Maven依赖的方式,主要是下面三个依赖。

操作docx文档需要的jar包有6个:dom4j.jar,poi-ooxml-3.10-FINA.jar,poi-ooxml-schemas-3.10-FINA.jar,xmlbean-2.3.0.jar,commons-lang.jar以及ooxml-schemas-1.1.jar

操作doc文档需要的jar包有poi-3.10-FINAL.jar,poi-scratchpad-3.10-FINA.jar其中操作doc文档对模板的依赖很大,功能相对操作docx的接口很弱。

org.apache.poi poi 3.17 org.apache.poi poi-ooxml 3.17 org.apache.poi ooxml-schemas 1.1 4 使用POI操作Word文档

主要是使用POI操作Word文档,主要是写入文档操作的讲解:将网页中的数据导出,自动生成指定格式的Word文档。

4.1 效果展示

(1)在网站中选择需要导出的新闻,生成Word

(2)生成的Word展示

目录页

内容详情页

从上面可以看出,导出的文档含有:

有指定格式的标题、时间、编著者等信息;会自动生成目录;有内容详情页; 4.2 功能实现介绍 4.2.1 前提知识:

(1)官方API文档地址

官方文档中主要包括Java操作Office文档的常用类,里面封装了常用的:读、写、设置格式等方法。 例如:操作Word07之后的版本主要是使用XWPFDocument这个对象。

(2)另外,当现有的功能不能满足要求,你需要对现有功能进行重写时。有一个很重要的东西就是ooxml。简单的说,这个就是微软公布的一套使用XML操作Word的开放的标准。详情见下面网址:http://www.datypic.com/sc/ooxml/s-wml.xsd.html

4.2.2 功能实现说明 (1)功能的整体UML图如下:

image.png

(2)生成单文档

基本的格式设置、写入数据等生成单文档的功能都不难,耐心的对照这官方API去看,基本就可以实现。 下面贴一个生成单文档的例子: 效果:

image.png

代码如下:基本的注释都有,自己跑一下就懂了

public void write2Docx()throws Exception{ XWPFDocument document= new XWPFDocument(); //Write the Document in file system FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_table.docx")); //添加标题 XWPFParagraph titleParagraph = document.createParagraph(); //设置段落居中 titleParagraph.setAlignment(ParagraphAlignment.CENTER); XWPFRun titleParagraphRun = titleParagraph.createRun(); titleParagraphRun.setText("Java PoI"); titleParagraphRun.setColor("000000"); titleParagraphRun.setFontSize(20); //段落 XWPFParagraph firstParagraph = document.createParagraph(); XWPFRun run = firstParagraph.createRun(); run.setText("Java POI 生成word文件。"); run.setColor("696969"); run.setFontSize(16); //设置段落背景颜色 CTShd cTShd = run.getCTR().addNewRPr().addNewShd(); cTShd.setVal(STShd.CLEAR); cTShd.setFill("97FFFF"); //换行 XWPFParagraph paragraph1 = document.createParagraph(); XWPFRun paragraphRun1 = paragraph1.createRun(); paragraphRun1.setText("\r"); //基本信息表格 XWPFTable infoTable = document.createTable(); //去表格边框 infoTable.getCTTbl().getTblPr().unsetTblBorders(); //列宽自动分割 CTTblWidth infoTableWidth = infoTable.getCTTbl().addNewTblPr().addNewTblW(); infoTableWidth.setType(STTblWidth.DXA); infoTableWidth.setW(BigInteger.valueOf(9072)); //表格第一行 XWPFTableRow infoTableRowOne = infoTable.getRow(0); infoTableRowOne.getCell(0).setText("职位"); infoTableRowOne.addNewTableCell().setText(": Java 开发工程师"); //表格第二行 XWPFTableRow infoTableRowTwo = infoTable.createRow(); infoTableRowTwo.getCell(0).setText("姓名"); infoTableRowTwo.getCell(1).setText(": seawater"); //表格第三行 XWPFTableRow infoTableRowThree = infoTable.createRow(); infoTableRowThree.getCell(0).setText("生日"); infoTableRowThree.getCell(1).setText(": xxx-xx-xx"); //表格第四行 XWPFTableRow infoTableRowFour = infoTable.createRow(); infoTableRowFour.getCell(0).setText("性别"); infoTableRowFour.getCell(1).setText(": 男"); //表格第五行 XWPFTableRow infoTableRowFive = infoTable.createRow(); infoTableRowFive.getCell(0).setText("现居地"); infoTableRowFive.getCell(1).setText(": xx"); CTSectPr sectPr = document.getDocument().getBody().addNewSectPr(); XWPFHeaderFooterPolicy policy = new XWPFHeaderFooterPolicy(document, sectPr); //添加页眉 CTP ctpHeader = CTP.Factory.newInstance(); CTR ctrHeader = ctpHeader.addNewR(); CTText ctHeader = ctrHeader.addNewT(); String headerText = "ctpHeader"; ctHeader.setStringValue(headerText); XWPFParagraph headerParagraph = new XWPFParagraph(ctpHeader, document); //设置为右对齐 headerParagraph.setAlignment(ParagraphAlignment.RIGHT); XWPFParagraph[] parsHeader = new XWPFParagraph[1]; parsHeader[0] = headerParagraph; policy.createHeader(XWPFHeaderFooterPolicy.DEFAULT, parsHeader); //添加页脚 CTP ctpFooter = CTP.Factory.newInstance(); CTR ctrFooter = ctpFooter.addNewR(); CTText ctFooter = ctrFooter.addNewT(); String footerText = "ctpFooter"; ctFooter.setStringValue(footerText); XWPFParagraph footerParagraph = new XWPFParagraph(ctpFooter, document); headerParagraph.setAlignment(ParagraphAlignment.CENTER); XWPFParagraph[] parsFooter = new XWPFParagraph[1]; parsFooter[0] = footerParagraph; policy.createFooter(XWPFHeaderFooterPolicy.DEFAULT, parsFooter); document.write(out); out.close(); } (3) 重点说一说,目录的生成

在API中是提供自动生成目录方法的。

image.png

但这个方法很难在实际应用,举例说明:

image.png

生成代码如下:

public void writeTOC() throws IOException { XWPFDocument document= new XWPFDocument(); //Write the Document in file system FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_toc.docx")); //添加标题 XWPFParagraph titleParagraph = document.createParagraph(); //设置段落居中 titleParagraph.setAlignment(ParagraphAlignment.CENTER); XWPFRun titleParagraphRun = titleParagraph.createRun(); titleParagraphRun.setText("Java PoI"); titleParagraphRun.setColor("000000"); titleParagraphRun.setFontSize(20); //段落 XWPFParagraph firstParagraph = document.createParagraph(); firstParagraph.setStyle("Heading1"); XWPFRun run = firstParagraph.createRun(); run.setText("段落1。"); run.setColor("696969"); run.setFontSize(18); //段落 XWPFParagraph firstParagraph1 = document.createParagraph(); firstParagraph.setStyle("Heading1"); XWPFRun run1 = firstParagraph1.createRun(); run1.setText("段落2"); run1.setColor("696969"); run1.setFontSize(16); document.createTOC(); document.write(out); out.close(); }

可以看出,目录存在如下问题:

没有中文的目录两个字,是英文的Table of Contents。目录生成的位置不合适,因为createTOC源码方法实际上是读取文档中被Heading1修饰的部分,所以若该语句放在前面,则无法生成目录。

导致问题的源码如下:

没有中文目录二字。

image.png

读取文档中被Heading1修饰的部分,作为目录。

image.png

所以,需要自定义目录类。下面是我自定义的生成目录的类,下面代码的效果仅仅是生成了目录两个字:

public CustomTOC(CTSdtBlock block) { this.block = block; CTSdtPr sdtPr = block.addNewSdtPr(); CTDecimalNumber id = sdtPr.addNewId(); id.setVal(new BigInteger("4844945")); sdtPr.addNewDocPartObj().addNewDocPartGallery().setVal("Table of contents"); CTSdtEndPr sdtEndPr = block.addNewSdtEndPr(); CTRPr rPr = sdtEndPr.addNewRPr(); CTFonts fonts = rPr.addNewRFonts(); fonts.setAsciiTheme(STTheme.MINOR_H_ANSI); fonts.setEastAsiaTheme(STTheme.MINOR_H_ANSI); fonts.setHAnsiTheme(STTheme.MINOR_H_ANSI); fonts.setCstheme(STTheme.MINOR_BIDI); rPr.addNewB().setVal(STOnOff.OFF); rPr.addNewBCs().setVal(STOnOff.OFF); rPr.addNewColor().setVal("auto"); rPr.addNewSz().setVal(new BigInteger("24")); rPr.addNewSzCs().setVal(new BigInteger("24")); CTSdtContentBlock content = block.addNewSdtContent(); CTP p = content.addNewP(); p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252)); p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252)); p.addNewPPr().addNewPStyle().setVal("TOCHeading"); p.addNewR().addNewT().setStringValue("目 录");//源码中为"Table of contents" //设置段落对齐方式,即将“目录”二字居中 CTPPr pr = p.getPPr(); CTJc jc = pr.isSetJc() ? pr.getJc() : pr.addNewJc(); STJc.Enum en = STJc.Enum.forInt(ParagraphAlignment.CENTER.getValue()); jc.setVal(en); //"目录"二字的字体 CTRPr pRpr = p.getRArray(0).addNewRPr(); fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts(); fonts.setAscii("Times New Roman"); fonts.setEastAsia("华文中宋"); fonts.setHAnsi("华文中宋"); //"目录"二字加粗 CTOnOff bold = pRpr.isSetB() ? pRpr.getB() : pRpr.addNewB(); bold.setVal(STOnOff.TRUE); // 设置“目录”二字字体大小为24号 CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz(); sz.setVal(new BigInteger("36")); }

image.png

如此,第一个问题解决,中文的目录二字已经有了。而这段代码就已经涉及到我上面说的第二个重点:ooxml,即使用xml语言来操作文档。如果不去了解这个,上面的代码有很多是看不懂的。这个就需要自己去阅读那个网站上xml的说明了。 上面语句对应的xml如下:

image.png

第二个问题(目录的位置和样式都不合适)的解决就需要更需要涉及ooxml了

首先直接上效果和代码

image.png

添加不带页数的大字栏目

public void addRowOnlyTitle(int level, String title) { CTSdtContentBlock contentBlock = this.block.getSdtContent(); CTP p = contentBlock.addNewP(); p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252)); p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252)); CTPPr pPr = p.addNewPPr(); pPr.addNewPStyle().setVal("TOC" + level); CTTabs tabs = pPr.addNewTabs();//Set of Custom Tab Stops自定义制表符集合 CTTabStop tab = tabs.addNewTab();//Custom Tab Stop自定义制表符 tab.setVal(STTabJc.RIGHT); tab.setLeader(STTabTlc.DOT); tab.setPos(new BigInteger("9190"));//默认为8290,因为调整过页边距,所有需要调整,手动设置找出最佳值 pPr.addNewRPr().addNewNoProof();//不检查语法 CTR run = p.addNewR(); run.addNewRPr().addNewNoProof(); run.addNewT().setStringValue(title); //设置行间距 CTSpacing pSpacing = pPr.getSpacing() != null ? pPr.getSpacing(): pPr.addNewSpacing(); pSpacing.setLineRule(STLineSpacingRule.AUTO);//行间距类型:多倍 pSpacing.setLine(new BigInteger("360"));//此处1.5倍行间距 pSpacing.setBeforeLines(new BigInteger("20"));//段前0.2 pSpacing.setAfterLines(new BigInteger("10"));//段后0.1 //设置字体 CTRPr pRpr = run.getRPr(); CTFonts fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts(); fonts.setAscii("Times New Roman"); fonts.setEastAsia("黑体"); fonts.setHAnsi("黑体"); // 设置字体大小 CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz(); sz.setVal(new BigInteger("24")); CTHpsMeasure szCs = pRpr.isSetSzCs() ? pRpr.getSzCs() : pRpr.addNewSzCs(); szCs.setVal(new BigInteger("24")); }

带页数的详细小字栏目

public void addRow(int level, String title, int page, String bookmarkRef) { CTSdtContentBlock contentBlock = this.block.getSdtContent(); CTP p = contentBlock.addNewP(); p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252)); p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252)); CTPPr pPr = p.addNewPPr(); pPr.addNewPStyle().setVal("TOC" + level); CTTabs tabs = pPr.addNewTabs();//Set of Custom Tab Stops自定义制表符集合 CTTabStop tab = tabs.addNewTab();//Custom Tab Stop自定义制表符 tab.setVal(STTabJc.RIGHT); tab.setLeader(STTabTlc.DOT); tab.setPos(new BigInteger("9100"));//默认为8290,因为调整过页边距,所有需要调整,手动设置找出最佳值 pPr.addNewRPr().addNewNoProof();//不检查语法 CTR run = p.addNewR(); run.addNewRPr().addNewNoProof(); run.addNewT().setStringValue(title);//添加标题文字 //设置标题字体 CTRPr pRpr = run.getRPr(); CTFonts fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts(); fonts.setAscii("Times New Roman"); fonts.setEastAsia("楷体"); fonts.setHAnsi("楷体"); // 设置标题字体大小 CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz(); sz.setVal(new BigInteger("21")); CTHpsMeasure szCs = pRpr.isSetSzCs() ? pRpr.getSzCs() : pRpr.addNewSzCs(); szCs.setVal(new BigInteger("21")); //添加制表符 run = p.addNewR(); run.addNewRPr().addNewNoProof(); run.addNewTab(); //添加页码左括号 p.addNewR().addNewT().setStringValue("("); //STFldCharType.BEGIN标识与结尾处STFldCharType.END相对应 run = p.addNewR(); run.addNewRPr().addNewNoProof(); run.addNewFldChar().setFldCharType(STFldCharType.BEGIN);//Field Character Type // pageref run run = p.addNewR(); run.addNewRPr().addNewNoProof(); CTText text = run.addNewInstrText();//Field Code 添加域代码文本控件 text.setSpace(SpaceAttribute.Space.PRESERVE); // bookmark reference //源码的域名为" PAGEREF _Toc","\h"含义为在目录内建立目录项与页码的超链接 text.setStringValue(" PAGEREF "+bookmarkRef + " \\h "); p.addNewR().addNewRPr().addNewNoProof(); run = p.addNewR(); run.addNewRPr().addNewNoProof(); run.addNewFldChar().setFldCharType(STFldCharType.SEPARATE); // page number run run = p.addNewR(); run.addNewRPr().addNewNoProof(); run.addNewT().setStringValue(Integer.toString(page)); run = p.addNewR(); run.addNewRPr().addNewNoProof(); //STFldCharType.END标识与上面STFldCharType.BEGIN相对应 run.addNewFldChar().setFldCharType(STFldCharType.END); //添加页码右括号 p.addNewR().addNewT().setStringValue(")"); //设置行间距 CTSpacing pSpacing = pPr.getSpacing() != null ? pPr.getSpacing(): pPr.addNewSpacing(); pSpacing.setLineRule(STLineSpacingRule.AUTO);//行间距类型:多倍 pSpacing.setLine(new BigInteger("360"));//此处1.5倍行间距 }

下面代码就能解决目录位置的问题

/** * 写多个文档 */ public void writeWordBanch() throws Exception { XWPFDocument doc = new XWPFDocument(); FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_OilWord_TOC.docx")); FileRedWordDynamic wordFile = new FileRedWordDynamic(doc); wordFile.writeFileHead(); wordFile.createCustomTOC(); List newsData = DataSource.getInstance().getDataByJDBC(); wordFile.writeAllNews(newsData); wordFile.addItem2TOC(); doc.write(out); out.close(); }

可以看出源码在创建完目录索引后,立即判断根据Heading1插入目录

image.png

在我重写的方法中将其分为createCustomTOC()和addItem2TOC()分开,先在顶部占位,然后等文档的标题和内容等信息全部写完之后,在写目录剩下的部分,如下:

public void createCustomTOC() { CTSdtBlock block = doc.getDocument().getBody().addNewSdt(); doc.createTOC(); this.toc = new CustomTOC(block); wordSetting.setCustomHeadingStyle(doc, "Heading1", 1); wordSetting.setCustomHeadingStyle(doc, "Heading2", 2); }

public void addItem2TOC() { List paragraphs = doc.getParagraphs(); for (XWPFParagraph par : paragraphs) { String parStyle = par.getStyle(); if (parStyle != null && parStyle.startsWith("Heading")) { List bookmarkList=par.getCTP().getBookmarkStartList(); try { int level = Integer.parseInt(parStyle.substring("Heading".length())); if(level==1){ //添加栏目 toc.addRowOnlyTitle(level, par.getText()); }else{ //添加标题 toc.addRow(level, par.getText(), 1, bookmarkList.get(0).getName()); } } catch (NumberFormatException e) { e.printStackTrace(); } } } }

如此,第二个问题也就解决了。

(4)这里面也有个难点

就是如何将内容部分和目录部分建立联系呢?

就是通过下面代码

text.setStringValue(" PAGEREF "+bookmarkRef + " \\h ");

为什么是这样的格式,这个在Word中有说明的

image.png

OK,这一步如果走通了,就好多了。最后就是将需要添加为目录的部分传入对应的设置即可

public void addItem2TOC() { List paragraphs = doc.getParagraphs(); for (XWPFParagraph par : paragraphs) { String parStyle = par.getStyle(); if (parStyle != null && parStyle.startsWith("Heading")) { List bookmarkList=par.getCTP().getBookmarkStartList(); try { int level = Integer.parseInt(parStyle.substring("Heading".length())); if(level==1){ //添加栏目 toc.addRowOnlyTitle(level, par.getText()); }else{ //添加标题 toc.addRow(level, par.getText(), 1, bookmarkList.get(0).getName()); } } catch (NumberFormatException e) { e.printStackTrace(); } } } }

通过上面的代码,就可以生成目录了。

(5)最后还有个问题

但是现在,还是存在一个问题。如下图:现在生成的文档,页数全部是1,必须要手动更新域才可以生成新的正确的页码,所以算不得是完全自动更新。

image.png

需要在上面的addRow方法的第二个参数中传入当前页码,但是现在就是不知道应该如何准确的获取Word的当前页数,这个问题可卡了我很久都没解决,我也找一一些方法,但存在以下问题:

插入的页码不准,有误;通过Word转PDF生成页码较准,但这样Word目录不好操作,代码的完整性会被破坏;

作者:艾剪疏 链接:https://www.jianshu.com/p/0a32d8bd6878 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3