【自然语言处理】浅谈语料库

您所在的位置:网站首页 自然语言处理的含义和作用 【自然语言处理】浅谈语料库

【自然语言处理】浅谈语料库

2024-05-30 06:26| 来源: 网络整理| 查看: 265

1. 搜狗实验室新闻| 互联网数据: http://www.sogou.com/labs/ 2. 北京大学语言研究中心:http://ccl.pku.edu.cn/term.asp 3. 计算机语言研究所: 4. 数据堂: http://www.datatang.com/ 5. 中央研究院平衡语料库(https://www.sinica.edu.tw/SinicaCorpus):专门针对语言分析而设计的,每个文句都依词断开并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0 版本。 6. LIVAC 汉语共时语料库:http://www.livac.org/index.php?lang=tc 7. 兰开斯特大学汉语平衡语料库: http://www.lancaster.ac.uk/fass/projects/corpus/ 8. 兰开斯特——洛杉矶汉语口语语料库 :http://www.lancaster.ac.uk/fass/projects/corpus/ 9. 语料库语言学在线:https://www.corpus4u.org/ 10.北京森林工作室汉语句义结构标注语料库:http://www.isclab.org.cn/csa/bfs-ctc.htm 11.国家语委现代汉语语料库(http://corpus.zhonghuayuwen.org/index.aspx) 现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000 万字,为分词和词性标注语料。 12.古代汉语语料库(http://corpus.zhonghuayuwen.org/):网站现在增加了一亿字的古代 汉语生语料,研究古代汉语的也可以去查询和下载。网站同时还提供了分词、词性标 注软件,词频统计、字频统计软件。基于国家语委语料库的字频词频统计结果和发布 的词表等进行建库,以供学习研究语言文字的同学和老师使用。 13.《人民日报》标注语料库(https://blog.csdn.net/eaglet/article/details/1778995):《人民日报》标注语料库中一半的语料(1998 年上半年)共1300 万字,已经通过《人民日报》新闻信息中心公开并提供许可使用权。其中一个月的语料(1998 年1 月)近200 万字在互联网上公布,可自由下载。 14. 古汉语语料库(https://www.sinica.edu.tw/ch):古汉语语料库包含以下五个语料库—— 上古汉语、中古汉语(含大藏经)、近代汉语、出土文献、其他。部分数据取自史语所汉籍全文数据库,故两者间内容略有重叠。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。 15. 近代汉语标记语料库(https://www.sinica.edu.tw/Early_Mandarin):为应对汉语史研究需 求而建构的语料库。目前语料库所搜集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。 16. 树图数据库(http://treebank.sinica.edu.tw/) 17.搜文解字(http://words.sinica.edu.tw/):包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,以及直接链接到出处并阅读原文。 18.文国寻宝记(https://www.sinica.edu.tw/wen):在搜文解字的基础之上,以华语文学习者 为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合。与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。 19. 汉籍电子文献(https://www.sinica.edu.tw/ch):包含整部25 史整部阮刻13经、超过2000 万字的台湾史料、1000 万字的大正藏及其他典籍。 20. 中国传媒大学文本语料库检索系统(http://ling.cuc.edu.cn/RawPub/) 21. 在线分词标注系统(http://ling.cuc.edu.cn/cucseg/) 22. 新词语研究资源库(http://ling.cuc.edu.cn/newword/) 23. 哈工大信息检索研究室对外共享语料库资源 :http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm 该语料库为汉英双语语料库,10 万对齐双语句对,文本书件格式,同义词词林扩展版,77343 条词语,秉承《同义词词林》的编撰风格。同时采用五级编码体系,多文档自动文摘语料库,40 个主题,文本书件格式,同一主题下是同一事件的不同报道。汉语依存树库,不带关系5 万句,带关系1 万句;LTML 化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264 句;已标注问题类型,LTML 化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库共211 篇。 24. 清华大学汉语均衡语料库THACorpus。 25. 中国科学院计算技术研究所,跨语言语料库目前的双语句对数据库中有约180000 对已对齐的中英文句子。本数据库支持简单的中英文查询服务。查询结果包括句对编号、中文句子、英文句子、句对来源等。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3