提取网页内容存储为word的方法 |
您所在的位置:网站首页 › 如何把网页内容保存成wps文档里的 › 提取网页内容存储为word的方法 |
应用需求
word是我们平常办公最常用的文字处理软件之一了,但是我们第一手阅读的材料却并不通常是用word来写就的(非doc格式),可能是txt文本,pdf文件,更多的可能就是网页内容了。我们希望有一种轻快便捷的方案可以很容易地将网页内容导出成doc格式的文件,这样我们就可以用word来处理它们了。 今天老师让我办件事,是登录进一个问卷调查网页,将所有问卷内容提取出来,整理成word文件发给她。我在登进问卷(.aspx格式)后发现,网页内容是受保护的,不可以直接复制内容(点击右键没有任何响应)。 于是乎,我就面临了第一个考验,如何获取网页内容? pdf2word我的第一种方法是利用浏览器的打印功能,将网页保存为pdf。保存了4个pdf文件(因为问卷有4页)之后,我首先利用在线文档转换工具Smallpdf将4个pdf文件合二为一,然后在线转为word。 然而令我大失所望的是,转化成的word文件有太多太多的格式、字体问题,别说是编辑重用了,连阅读都不堪其用。我试了许多其他的pdf转word在线平台,效果都是半斤八两,不堪入目。 html2word既然pdf不是一个明智的选择,我开始思考其他方案。我发现在浏览器中还有这样一个功能:将页面存储为html格式。以谷歌为例,在功能->更多工具中选中另存为html,就可以将当前网页的html格式连同一个链接文件(如果存在)一起下载到本地。 接下来的操作异常简单: 选择下载好的html文件,右键点击“打开方式”选项,用Word打开;打开后可以看到文件格式与网页中显示基本一致,选择“文件另存为”,存成以“docx”为后缀的文件;如果html中有引用文件包中的链接,需要对其进行编辑(我遇到的网页无此情形);可尝试删除与html文件一起被下载的文件包,以免每次打开html转成的word文件都需要授权。这样一来,一个可以分享给他人的word文件就完成了。 为了方便以后的工作,以及分享给有需要的人,暂且把这些操作记录下来。 【其实我是个科研工作者~~~】 参考内容: http://code.makery.ch/library/convert-web-page-to-word/ |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |