📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero

您所在的位置:网站首页 从网页上抓取数据 📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero

📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero

#📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero| 来源: 网络整理| 查看: 265

》写在最前:达到什么程度算是抓取基本成功了?

Zotero 在网页上能抓取两类东西: 文献信息(文献条目的元数据) , PDF 附件 。

一般来说,只要你在网页上或 Zotero 里 能够正确地识别出文献类型 (条目图标是正常的文献类型图标,而不是“其他”类型),就已经意味着你的文献信息/元数据 抓取是成功的 了。 成功与失败 至于 PDF 附件能否成功抓取,这个事情比较玄学,可能会因为各种各样的限制无法自动抓到附件。 如果条目抓取正常,只是抓不到附件,通常是无解的。

正因如此, 只要你能够正确抓取到文献信息,就不建议继续折腾下去了。PDF 附件能正常抓到就抓,抓不到就手动添加。 继续折腾下去很可能是浪费了大把的时间,且很难有任何的积极效果。

如果你不能正确地抓取文献信息,或者抓取后的条目里文献信息缺失,那下面这一篇文档对你很重要,请 务必仔细阅读每一点提醒 。这些提醒会对你帮助很大。

【为什么会出现网页抓取条目/附件失败的问题】

条目信息抓取出现问题 通常是因为你电脑中相应网站的 translator 太久没更新了 ,而网站页面出现了变更,Zotero Connector 读不懂网站了。只要更新下 translator 就可以解决。

当然,也有一些其他的【常见问题及注意事项】需要你多多关注。这些关键问题都可能会导致你无法正常抓取。

而附件抓取失败还会有很多复杂的因素,通常是无法解决的。

【如何解决网页抓取失败的问题】

以下的操作需要用到 茉莉花(Jasminum)插件。如果你还没有安装,请先参照下面这个教程安装茉莉花插件: #I5004K:📃【常见问题】Zotero 插件安装和更新的问题(包括 Zotero Connecter 浏览器插件的问题) 茉莉花插件可以在这里下载到: -> [Github] 茉莉花 Jasminum 插件官方主页下载页面 -> [国内镜像仓库] 我们维护的国内镜像仓库

在 Zotero 首选项中,进入 [高级/Advanced] 设置。 更新官方的 translator: 点击下方“自动检查更新的转换器和样式” 后面的 [立即更新/Update now] 按钮(这里的 translator 可能会被翻译成 [转换器/翻译器/翻译人员]。如果你遇到了这几个描述,他们说的是同一个东西)。 更新官方的转换器 更新第三方维护的中文网站 translator: 进入茉莉花插件的设置,打开 [Unofficial Translator Repository] 选项卡,先点击 [刷新/Refresh] 按钮,然后点击 [Update All] 按钮。 用茉莉花插件更新中文网站的非官方 translator ‼️ 重要步骤 ‼️按照这个视频中的教程,更新 每一个浏览器中 Zotero Connector 插件里的 translator: -> [Bilibili] 如何在浏览器中更新转换器/翻译器/translator 注1: 如果你是按照本文的方法操作的, 只需要观看视频 04:00 之后的部分 并完成里面的操作。视频前半段的工作已经借助茉莉花插件完成了。 注2: Safari 用户可以在网页空白处点一下鼠标右键,然后点 [Zotero Preferences] 即可进入设置。其他浏览器的设置位置略有差异但都和视频里的位置大同小异,可以自己找找。 至此,你应该能解决绝大多数数据抓取/附件下载的问题了。 注:translator 的更新可能会十分频繁。如果这次更新 translator 未能解决你的问题,你也可以过一阵再重做以上所有步骤,再次检查是否有更新。 【常见问题及注意事项】 》插件相关的问题 如果没安装 茉莉花插件 ,可以来这里下载: -> [Github] 茉莉花 Jasminum 插件官方主页下载页面 -> [国内镜像仓库] 我们维护的国内镜像仓库 每一个浏览器中 都需要分别打开 Zotero Connector 插件里的设置,更新里面的 translator。 浏览器里 Zotero Connector 设置中的那个 Update 按钮可以 多点几(十)下 ,不要吝惜你的鼠标(也就是前文 Bilibili 视频教程里说的经验)。 》有哪些页面可用来抓取

不是所有页面都可以用 Zotero Connector进行抓取。即便是在同一个网站,也有部分页面是无法抓取的。这里作如下提醒:

尽量不要在搜索结果页(批量)抓取,尤其是在谷歌学术和知网的时候更要避免。 批量抓取时 Zotero 会以极快的速度连续访问该网站,很可能触发该网站的风险控制,给未来带来无尽的麻烦。轻则弹一个验证码验证一下你是否是机器人,重了的话也可能会直接封禁你的 IP(对于学校买了数据库正版版权的那些网站,被封了 IP 可能会被学校请去喝一杯茶)。此外,知网在搜索结果页抓取的时候基本上是完全无法自动下载附件的,所以也不建议这么干。 不要在在线阅读界面或者下载了 PDF 后的阅读界面抓取。 这些页面都是无法识别,无法抓取的。你应该 在论文详情页面抓取项目 ,也就是在搜索结果中点击 论文标题 进去的那个页面。 不要在 Sci-hub 中抓取文献信息。 Sci-hub 中的文献信息很可能不全,而且大概率会抓取失败。Sci-hub 只适合用来下载文件附件,其他任何事情都不适合。建议你复制页面上的 doi 号,然后打开下面这一网址,在右侧粘贴 doi 号并解析,即可访问文献官方详情页: -> [DOI 官网] 解析 doi 号 你也可以使用 DOI 号借助 Zotero 中的这一功能快速创建条目并获取文献信息: 快速创建条目 如果通过这一方法得到的条目信息不全,你可以手动补充,或者还是回前面提到的文献详情页抓。 不要在任何的镜像站以及学校的网页版校外访问中抓取。 具体原因和解决方案见下文的详细解释。 》镜像站及校外访问的问题 几乎所有的镜像站都是抓不了的 。Zotero Connector 需要依靠网址来确定调用哪个 translator 来解析网页上的数据。所有的镜像站、图书馆的镜像站会改变原有的网址(改为镜像站自己的网址,或者带上了学校的域名)。 只要网址不是原网站本来的样子,统统都抓不了。 【注意】 切勿在谷歌学术等网站的镜像站直接抓取文献信息,这样的抓取一定会失败。 你可以点击搜索结果进入论文详情页,确认网址是期刊官网后再在详情页抓取。如果详情页的网址也不正确,你也可以复制该文献的 doi 号,然后打开下面这一网址,在右侧粘贴 doi 号并解析,即可访问文献官方详情页: -> [DOI 官网] 解析 doi 号 当然,如果你能直接访问谷歌学术官网(而不是任何镜像站)也就不会有这个问题了。 如果你希望在校外抓取 知网 的文献,建议试试 知网官方的校外访问 : -> 中国知网校外访问系统 (这个校外访问系统可以直接抓文献信息,并几乎像是在学校一样可以正常抓取/下载 PDF 附件。但并不是所有学校都能用这个系统,如果你的学校不支持的话,请继续看下一种方法。 如果你在用 学校图书馆的镜像站 ,很可能会导致抓取失效。请尽量使用学校提供的 带有客户端的校外访问工具 ,带有客户端的一般不会改变网址,不影响条目抓取。目前,知网的第三方 translator 已经支持了部分学校的网页版校外访问(Web巍僻恩)。请先按照前面的步骤使用茉莉花更新所有的翻译器/translator,然后再尝试抓取。如果依然不行,请继续看下一种方法。 还有一种结合使用官网和镜像站的妥协方法,这理论上适合包括知网在内的各种网站。 你可以直接访问期刊官方网站(不走学校的校外访问)仅抓取条目信息 ,然后借助学校的校外访问另外手动下载附件,最终手动在 Zotero 条目中添加这一附件(右击条目,点击 [添加附件] -> [添加文件的副本],然后选择你手动下载的附件)。) 》抓取附件及信息处理 如果你还想进一步抓取硕博论文的 PDF 附件,你还可以试试 知网国际站 : -> 可下载硕博论文 PDF 附件的知网国际站 (如果你在校外,可以先在前面提到的 知网官方的校外访问 登录进去,然后再来这里下载/抓取) 如果你想在抓知网内容的时候 合并中文作者的姓名 ,又或者希望 指定在知网抓取时优先获取 CAJ 格式的附件还是 PDF 格式的附件 ,可以看这个仓库的说明: -> [Gitee] Zotero translators 中文维护小组 重点关注后面的 [ 如何在 Zotero Connector 中添加中文姓名处理以及保留知网CAJ格式文件的设置 ] 部分。 如果你已经抓取了一些中文文献,文献库里现存姓名分开的条目,可以多选需要合并姓名的条目,借助 [茉莉花/Jasminum] 插件中的功能进行(批量)合并: 合并姓名 》一些和特定站点相关的提醒 强烈不建议在知网搜索结果页面批量抓取文献 ,在这里抓也很可能不能顺带着自动下载附件。其他网站也不建议批量抓取,过高频率的访问(批量抓取的时候访问频率很高)可能会导致你被该网站封禁。 基于与上一点同样的原因, 不建议在谷歌学术的检索结果页面批量抓取文献 。过多的批量抓取可能导致你的 IP 被封。 知网如果抓取附件失败有很多种可能的原因。请先 确保网站上直接下载附件时不会要求你输入验证码 ,然后再尝试能否成功抓取附件。如果不要求输入验证码了还不能抓,建议按照前面说的更新 translator。如果还不能,建议放弃。 万方 最近似乎在抽风,可能也是网页有调整 translator 不好使了。万方的 translator 最近已经有更新了,你也可以更新之后再尝试。更新后目前已知万方的搜索结果页上的抓取还是会失败的,但是文献信息详情页的抓取应该已经基本正常了。 Pubmed 遇到问题的人也很多,如果你也遇到问题了多担待着点。 豆瓣 上抓取的信息目前会混入很多乱七八糟的代码,这恐怕是 translator 的问题。除非 translator 的作者更新新版本解决这一问题,或者你自己会开发 translator 帮忙解决这一问题,否则靠自己解决不了。对于图书类的信息抓取,可以改用: -> 国家图书馆文津搜索 维普 好像是彻底不行了,换别的网站看看。

除了上述问题之外,文献抓取和附件自动下载还有很多难以解决的玄学问题,你还可以 重启电脑 、换个浏览器再试试。如果以上所有方法(包括这条在内)都不好使,那恐怕只能建议你 换个网站 抓了(比如回到 期刊官方主页上的论文详情页 ),或者采用下面最后一招:由引用信息导入。

【曲线解围:通过直接导入 PDF 附件来自动生成条目】

虽然这里给出了这个方法,但 仍然建议你优先选择从网页上抓取附件。 期刊官网上论文详情页上的信息通常最全且最新,从论文详情页抓取条目信息最可靠。

这一方法适用于批量添加文献的需求,也适用于使用校外访问/镜像站的朋友。

》如果你想要添加的是英文文献:

很多英文文献的 PDF 附件中带有论文的元数据,而 Zotero 也支持通过 PDF 附件中的元数据自动抓取文献信息并自动创建副条目。具体操作如下

从网页上下载好文献的 PDF 附件; 将 PDF 附件 直接拖入 Zotero 文献列表中的空白区域 ; 拖入 注:如果页面上没有空白区域了,可以 将附件拖到任意两个条目中间的间隙处 ,此时相邻条目间隙处会出现一个横线,如上图所示。请不要将附件直接拖到条目上,因为拖到条目上是另一个功能:将这一文件作为附件添加到该条目中。 此时,界面右上角同步按钮旁会多显示一个图标,这意味着 Zotero 正在检索并匹配这一条目信息。 检索中 匹配完成后,Zotero 会自动使用元数据创建父条目,并将这一 PDF 文件作为附件添加到新生成的条目中。 英文成功 》如果你想要添加的是中文文献:

中文论文的 PDF/CAJ 附件中通常并没有完善的论文的元数据,Zotero 本身也并不支持为中文文献抓取元数据。

对于中文文献, 茉莉花(Jasminum)插件 可以 通过文件名 自动检索元数据并创建条目。 添加附件的方式与英文文献相同 ,文献添加后茉莉花会自动检索文献、创建条目并将附件移动到条目中。 中文成功

如果你 之前添加的中文附件未能自动创建父条目 ,你也可以使用这一功能来重新 手动触发一次检索匹配 :

右键点击 不附属于任何条目的 PDF/CAJ 附件 ; 点击 [知网助手/CNKI],然后点击 [抓取知网元数据……]。 手动触发 注意: 这一功能仅对不属于任何条目的附件文件有效 。如果这一附件已经有了条目了,也就不能重新触发抓取了。右键菜单里只会有 [更新知网引用数] 的功能。 有父条目 (茉莉花插件更新的引用量信息会放在 [其他/Extra] 字段,这一位置目前与 Zotero IF Pro Max 的标签集存放位置相同。如果你同时在使用 Zotero IF Pro Max,请关注下这个问题)

此外,由于这一功能元数据是根据文件名检索得到的, 这一功能对文件名的要求较高 ,基本上要求:

文件名的格式完全符合茉莉花插件设置中的格式; 标题/姓名内容中不含(以下划线为代表的)特殊标点符号(可以尝试将这些符号替换为空格再尝试检索匹配); 文件名没有被添加额外的内容(如重复文件自动添加的编号或xx看图王一类的无关信息)。

文件名的命名格式 (用于匹配导入附件的文件名中的文献信息)可以在 Zotero 首选项中茉莉花插件的设置中修改。这里 默认的设置内容和知网上直接下载下来的文件名是一致的。 命名规则

如果文献名称比较特别,或文件名里有标点,或者文件名被编辑过,都很有可能会匹配失败并报错。 如下图所示 中文失败

》如果失败了……

不管是中文文献还是英文文献,都 存在一定的概率无法成功匹配到信息并自动创建条目 。如果遇到问题了,还是 建议回到期刊官网的论文详情页抓取信息并创建条目 ,然后将 PDF 文件以附件的形式添加到该条目上(将附件拖到该条目上即可,但不要拖到条目之间的间隙里)。如果 Zotero 确实不支持抓取你正在使用的网站,你也可以使用下面的最后一招。

【最后一招:由通用格式的引用信息导入】

由于各种各样奇怪的问题、奇怪的限制,可能你确实没有办法从某个网站抓取条目,但你也确实找不到其他替代的检索网站。如果你遇到了这种头疼事,可以试试从网站上导出通用格式的引用信息,然后再在 Zotero 直接导入这一引文信息,最后再手动将附件附在导入的条目上。这里有 Zotero 支持导入的格式列表: -> [Zotero 官网] How do I import BibTeX or other standardized formats?

这里以一篇万方上的学位论文为例简要介绍一下这一方法:

打开论文的详情页,点击 [引用] 按钮; 选择一个 Zotero 支持的通用格式; 导出格式选择 下载包含引用信息的文件/复制包含引用信息的文本(具体操作因网站不同而略有区别); 在 Zotero 文献列表页面点击 [文件/File] -> [导入/Import] 或 [从剪贴板导入/Import from Clipboard] (根据你的实际情况选择使用哪个功能); 导入 根据界面提示完成导入(这里以通过文件导入为例演示); 选择格式 选择文件 导入选项 导入完成后,该条目会混入文库中。你可以在左边栏分类列表最下面的 [未分类条目/Unfiled Item] 中按照年份排序来方便地找到刚刚导入的条目,将其拖入你需要的分类中: 寻找刚插入的文献 注1:这样导入基本意味着无法自动抓取附件(毕竟,对于好抓取附件的网站,也不会这么难导入)。你需要手动下载附件,然后将附件添加到这一条目上; 添加附件 当然,你也可以直接把下载好的附件拖到这一条目上,效果是一样的。 注2:不同导出格式里的信息可能略有差异,而且可能都不完整甚至有错,你可以后续自己手动编辑右边栏中的 [信息/Info] 进行调整(以万方为例, RefWorks 格式导入的结果中 [分类/Type] 信息是分类号(TP311.52),而不是学位类型(硕士/博士); EndNote 格式的结果中将导师姓名也写入了作者列表,而且将两个导师的姓名直接写成了第二作者的姓和名; Bibtex 格式的结果中没有摘要,而且分类写为了硕士论文)。 注3:你也可以去百度学术这一类的受支持的通用检索网站抓取/导出引用信息。 注4:有条件的话尽量还是直接从网页上抓取,毕竟这么导入有可能出现各种填写不规范的情况,也可能缺少一些信息。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3