📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero

您所在的位置：网站首页 › 从网页上抓取数据 › 📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero

📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero

#📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero| 来源: 网络整理| 查看: 265

》写在最前：达到什么程度算是抓取基本成功了？

Zotero 在网页上能抓取两类东西：文献信息（文献条目的元数据）， PDF 附件。

一般来说，只要你在网页上或 Zotero 里能够正确地识别出文献类型（条目图标是正常的文献类型图标，而不是“其他”类型），就已经意味着你的文献信息/元数据抓取是成功的了。成功与失败

至于 PDF 附件能否成功抓取，这个事情比较玄学，可能会因为各种各样的限制无法自动抓到附件。如果条目抓取正常，只是抓不到附件，通常是无解的。

正因如此，只要你能够正确抓取到文献信息，就不建议继续折腾下去了。PDF 附件能正常抓到就抓，抓不到就手动添加。继续折腾下去很可能是浪费了大把的时间，且很难有任何的积极效果。

如果你不能正确地抓取文献信息，或者抓取后的条目里文献信息缺失，那下面这一篇文档对你很重要，请务必仔细阅读每一点提醒。这些提醒会对你帮助很大。

【为什么会出现网页抓取条目/附件失败的问题】

条目信息抓取出现问题通常是因为你电脑中相应网站的 translator 太久没更新了，而网站页面出现了变更，Zotero Connector 读不懂网站了。只要更新下 translator 就可以解决。

当然，也有一些其他的【常见问题及注意事项】需要你多多关注。这些关键问题都可能会导致你无法正常抓取。

而附件抓取失败还会有很多复杂的因素，通常是无法解决的。

【如何解决网页抓取失败的问题】

以下的操作需要用到茉莉花（Jasminum）插件。如果你还没有安装，请先参照下面这个教程安装茉莉花插件： #I5004K:📃【常见问题】Zotero 插件安装和更新的问题（包括 Zotero Connecter 浏览器插件的问题）茉莉花插件可以在这里下载到： -> [Github] 茉莉花 Jasminum 插件官方主页下载页面 -> [国内镜像仓库] 我们维护的国内镜像仓库

在 Zotero 首选项中，进入 [高级/Advanced] 设置。更新官方的 translator：点击下方“自动检查更新的转换器和样式” 后面的 [立即更新/Update now] 按钮（这里的 translator 可能会被翻译成 [转换器/翻译器/翻译人员]。如果你遇到了这几个描述，他们说的是同一个东西）。更新官方的转换器

更新第三方维护的中文网站 translator：进入茉莉花插件的设置，打开 [Unofficial Translator Repository] 选项卡，先点击 [刷新/Refresh] 按钮，然后点击 [Update All] 按钮。用茉莉花插件更新中文网站的非官方 translator

‼️ 重要步骤 ‼️按照这个视频中的教程，更新每一个浏览器中 Zotero Connector 插件里的 translator： -> [Bilibili] 如何在浏览器中更新转换器/翻译器/translator 注1：如果你是按照本文的方法操作的，只需要观看视频 04:00 之后的部分并完成里面的操作。视频前半段的工作已经借助茉莉花插件完成了。注2： Safari 用户可以在网页空白处点一下鼠标右键，然后点 [Zotero Preferences] 即可进入设置。其他浏览器的设置位置略有差异但都和视频里的位置大同小异，可以自己找找。至此，你应该能解决绝大多数数据抓取/附件下载的问题了。注：translator 的更新可能会十分频繁。如果这次更新 translator 未能解决你的问题，你也可以过一阵再重做以上所有步骤，再次检查是否有更新。【常见问题及注意事项】》插件相关的问题如果没安装茉莉花插件，可以来这里下载： -> [Github] 茉莉花 Jasminum 插件官方主页下载页面 -> [国内镜像仓库] 我们维护的国内镜像仓库每一个浏览器中都需要分别打开 Zotero Connector 插件里的设置，更新里面的 translator。浏览器里 Zotero Connector 设置中的那个 Update 按钮可以多点几（十）下，不要吝惜你的鼠标（也就是前文 Bilibili 视频教程里说的经验）。》有哪些页面可用来抓取

不是所有页面都可以用 Zotero Connector进行抓取。即便是在同一个网站，也有部分页面是无法抓取的。这里作如下提醒：

尽量不要在搜索结果页（批量）抓取，尤其是在谷歌学术和知网的时候更要避免。批量抓取时 Zotero 会以极快的速度连续访问该网站，很可能触发该网站的风险控制，给未来带来无尽的麻烦。轻则弹一个验证码验证一下你是否是机器人，重了的话也可能会直接封禁你的 IP（对于学校买了数据库正版版权的那些网站，被封了 IP 可能会被学校请去喝一杯茶）。此外，知网在搜索结果页抓取的时候基本上是完全无法自动下载附件的，所以也不建议这么干。不要在在线阅读界面或者下载了 PDF 后的阅读界面抓取。这些页面都是无法识别，无法抓取的。你应该在论文详情页面抓取项目，也就是在搜索结果中点击论文标题进去的那个页面。不要在 Sci-hub 中抓取文献信息。 Sci-hub 中的文献信息很可能不全，而且大概率会抓取失败。Sci-hub 只适合用来下载文件附件，其他任何事情都不适合。建议你复制页面上的 doi 号，然后打开下面这一网址，在右侧粘贴 doi 号并解析，即可访问文献官方详情页： -> [DOI 官网] 解析 doi 号你也可以使用 DOI 号借助 Zotero 中的这一功能快速创建条目并获取文献信息：

如果通过这一方法得到的条目信息不全，你可以手动补充，或者还是回前面提到的文献详情页抓。不要在任何的镜像站以及学校的网页版校外访问中抓取。具体原因和解决方案见下文的详细解释。》镜像站及校外访问的问题几乎所有的镜像站都是抓不了的。Zotero Connector 需要依靠网址来确定调用哪个 translator 来解析网页上的数据。所有的镜像站、图书馆的镜像站会改变原有的网址（改为镜像站自己的网址，或者带上了学校的域名）。只要网址不是原网站本来的样子，统统都抓不了。【注意】切勿在谷歌学术等网站的镜像站直接抓取文献信息，这样的抓取一定会失败。你可以点击搜索结果进入论文详情页，确认网址是期刊官网后再在详情页抓取。如果详情页的网址也不正确，你也可以复制该文献的 doi 号，然后打开下面这一网址，在右侧粘贴 doi 号并解析，即可访问文献官方详情页： -> [DOI 官网] 解析 doi 号当然，如果你能直接访问谷歌学术官网（而不是任何镜像站）也就不会有这个问题了。如果你希望在校外抓取知网的文献，建议试试知网官方的校外访问： -> 中国知网校外访问系统（这个校外访问系统可以直接抓文献信息，并几乎像是在学校一样可以正常抓取/下载 PDF 附件。但并不是所有学校都能用这个系统，如果你的学校不支持的话，请继续看下一种方法。如果你在用学校图书馆的镜像站，很可能会导致抓取失效。请尽量使用学校提供的带有客户端的校外访问工具，带有客户端的一般不会改变网址，不影响条目抓取。目前，知网的第三方 translator 已经支持了部分学校的网页版校外访问（Web巍僻恩）。请先按照前面的步骤使用茉莉花更新所有的翻译器/translator，然后再尝试抓取。如果依然不行，请继续看下一种方法。还有一种结合使用官网和镜像站的妥协方法，这理论上适合包括知网在内的各种网站。你可以直接访问期刊官方网站（不走学校的校外访问）仅抓取条目信息，然后借助学校的校外访问另外手动下载附件，最终手动在 Zotero 条目中添加这一附件（右击条目，点击 [添加附件] -> [添加文件的副本]，然后选择你手动下载的附件）。）》抓取附件及信息处理如果你还想进一步抓取硕博论文的 PDF 附件，你还可以试试知网国际站： -> 可下载硕博论文 PDF 附件的知网国际站（如果你在校外，可以先在前面提到的知网官方的校外访问登录进去，然后再来这里下载/抓取）如果你想在抓知网内容的时候合并中文作者的姓名，又或者希望指定在知网抓取时优先获取 CAJ 格式的附件还是 PDF 格式的附件，可以看这个仓库的说明： -> [Gitee] Zotero translators 中文维护小组重点关注后面的 [ 如何在 Zotero Connector 中添加中文姓名处理以及保留知网CAJ格式文件的设置 ] 部分。如果你已经抓取了一些中文文献，文献库里现存姓名分开的条目，可以多选需要合并姓名的条目，借助 [茉莉花/Jasminum] 插件中的功能进行（批量）合并：

》一些和特定站点相关的提醒强烈不建议在知网搜索结果页面批量抓取文献，在这里抓也很可能不能顺带着自动下载附件。其他网站也不建议批量抓取，过高频率的访问（批量抓取的时候访问频率很高）可能会导致你被该网站封禁。基于与上一点同样的原因，不建议在谷歌学术的检索结果页面批量抓取文献。过多的批量抓取可能导致你的 IP 被封。知网如果抓取附件失败有很多种可能的原因。请先确保网站上直接下载附件时不会要求你输入验证码，然后再尝试能否成功抓取附件。如果不要求输入验证码了还不能抓，建议按照前面说的更新 translator。如果还不能，建议放弃。万方最近似乎在抽风，可能也是网页有调整 translator 不好使了。万方的 translator 最近已经有更新了，你也可以更新之后再尝试。更新后目前已知万方的搜索结果页上的抓取还是会失败的，但是文献信息详情页的抓取应该已经基本正常了。 Pubmed 遇到问题的人也很多，如果你也遇到问题了多担待着点。豆瓣上抓取的信息目前会混入很多乱七八糟的代码，这恐怕是 translator 的问题。除非 translator 的作者更新新版本解决这一问题，或者你自己会开发 translator 帮忙解决这一问题，否则靠自己解决不了。对于图书类的信息抓取，可以改用： -> 国家图书馆文津搜索维普好像是彻底不行了，换别的网站看看。

除了上述问题之外，文献抓取和附件自动下载还有很多难以解决的玄学问题，你还可以重启电脑、换个浏览器再试试。如果以上所有方法（包括这条在内）都不好使，那恐怕只能建议你换个网站抓了（比如回到期刊官方主页上的论文详情页），或者采用下面最后一招：由引用信息导入。

【曲线解围：通过直接导入 PDF 附件来自动生成条目】

虽然这里给出了这个方法，但仍然建议你优先选择从网页上抓取附件。期刊官网上论文详情页上的信息通常最全且最新，从论文详情页抓取条目信息最可靠。

这一方法适用于批量添加文献的需求，也适用于使用校外访问/镜像站的朋友。

》如果你想要添加的是英文文献：

很多英文文献的 PDF 附件中带有论文的元数据，而 Zotero 也支持通过 PDF 附件中的元数据自动抓取文献信息并自动创建副条目。具体操作如下

从网页上下载好文献的 PDF 附件；将 PDF 附件直接拖入 Zotero 文献列表中的空白区域；

注：如果页面上没有空白区域了，可以将附件拖到任意两个条目中间的间隙处，此时相邻条目间隙处会出现一个横线，如上图所示。请不要将附件直接拖到条目上，因为拖到条目上是另一个功能：将这一文件作为附件添加到该条目中。此时，界面右上角同步按钮旁会多显示一个图标，这意味着 Zotero 正在检索并匹配这一条目信息。检索中

匹配完成后，Zotero 会自动使用元数据创建父条目，并将这一 PDF 文件作为附件添加到新生成的条目中。英文成功

》如果你想要添加的是中文文献：

中文论文的 PDF/CAJ 附件中通常并没有完善的论文的元数据，Zotero 本身也并不支持为中文文献抓取元数据。

对于中文文献，茉莉花（Jasminum）插件可以通过文件名自动检索元数据并创建条目。添加附件的方式与英文文献相同，文献添加后茉莉花会自动检索文献、创建条目并将附件移动到条目中。中文成功

如果你之前添加的中文附件未能自动创建父条目，你也可以使用这一功能来重新手动触发一次检索匹配：

右键点击不附属于任何条目的 PDF/CAJ 附件；点击 [知网助手/CNKI]，然后点击 [抓取知网元数据……]。手动触发

注意：这一功能仅对不属于任何条目的附件文件有效。如果这一附件已经有了条目了，也就不能重新触发抓取了。右键菜单里只会有 [更新知网引用数] 的功能。有父条目

（茉莉花插件更新的引用量信息会放在 [其他/Extra] 字段，这一位置目前与 Zotero IF Pro Max 的标签集存放位置相同。如果你同时在使用 Zotero IF Pro Max，请关注下这个问题）

此外，由于这一功能元数据是根据文件名检索得到的，这一功能对文件名的要求较高，基本上要求：

文件名的格式完全符合茉莉花插件设置中的格式；标题/姓名内容中不含（以下划线为代表的）特殊标点符号（可以尝试将这些符号替换为空格再尝试检索匹配）；文件名没有被添加额外的内容（如重复文件自动添加的编号或xx看图王一类的无关信息）。

文件名的命名格式（用于匹配导入附件的文件名中的文献信息）可以在 Zotero 首选项中茉莉花插件的设置中修改。这里默认的设置内容和知网上直接下载下来的文件名是一致的。命名规则

如果文献名称比较特别，或文件名里有标点，或者文件名被编辑过，都很有可能会匹配失败并报错。如下图所示中文失败

》如果失败了……

不管是中文文献还是英文文献，都存在一定的概率无法成功匹配到信息并自动创建条目。如果遇到问题了，还是建议回到期刊官网的论文详情页抓取信息并创建条目，然后将 PDF 文件以附件的形式添加到该条目上（将附件拖到该条目上即可，但不要拖到条目之间的间隙里）。如果 Zotero 确实不支持抓取你正在使用的网站，你也可以使用下面的最后一招。

【最后一招：由通用格式的引用信息导入】

由于各种各样奇怪的问题、奇怪的限制，可能你确实没有办法从某个网站抓取条目，但你也确实找不到其他替代的检索网站。如果你遇到了这种头疼事，可以试试从网站上导出通用格式的引用信息，然后再在 Zotero 直接导入这一引文信息，最后再手动将附件附在导入的条目上。这里有 Zotero 支持导入的格式列表： -> [Zotero 官网] How do I import BibTeX or other standardized formats?

这里以一篇万方上的学位论文为例简要介绍一下这一方法：

打开论文的详情页，点击 [引用] 按钮；选择一个 Zotero 支持的通用格式；导出格式选择

下载包含引用信息的文件/复制包含引用信息的文本（具体操作因网站不同而略有区别）；在 Zotero 文献列表页面点击 [文件/File] -> [导入/Import] 或 [从剪贴板导入/Import from Clipboard] （根据你的实际情况选择使用哪个功能）；

根据界面提示完成导入（这里以通过文件导入为例演示）；选择格式

导入完成后，该条目会混入文库中。你可以在左边栏分类列表最下面的 [未分类条目/Unfiled Item] 中按照年份排序来方便地找到刚刚导入的条目，将其拖入你需要的分类中：寻找刚插入的文献

注1：这样导入基本意味着无法自动抓取附件（毕竟，对于好抓取附件的网站，也不会这么难导入）。你需要手动下载附件，然后将附件添加到这一条目上；添加附件

当然，你也可以直接把下载好的附件拖到这一条目上，效果是一样的。注2：不同导出格式里的信息可能略有差异，而且可能都不完整甚至有错，你可以后续自己手动编辑右边栏中的 [信息/Info] 进行调整（以万方为例， RefWorks 格式导入的结果中 [分类/Type] 信息是分类号（TP311.52），而不是学位类型（硕士/博士）； EndNote 格式的结果中将导师姓名也写入了作者列表，而且将两个导师的姓名直接写成了第二作者的姓和名； Bibtex 格式的结果中没有摘要，而且分类写为了硕士论文）。注3：你也可以去百度学术这一类的受支持的通用检索网站抓取/导出引用信息。注4：有条件的话尽量还是直接从网页上抓取，毕竟这么导入有可能出现各种填写不规范的情况，也可能缺少一些信息。

【本文地址】

📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero

📃【常见问题】从浏览器保存条目时发生错误 / 抓取时不能自动下载PDF / 无法自动给添加的PDF附件创建条目怎么办 · Issue #I50UPE · qnscholar/zotero

今日新闻

推荐新闻