English Corpora: most widely used online corpora. Billions of words of data: free online access

您所在的位置:网站首页 北大ccl语料库使用教程 English Corpora: most widely used online corpora. Billions of words of data: free online access

English Corpora: most widely used online corpora. Billions of words of data: free online access

2024-07-08 23:01| 来源: 网络整理| 查看: 265

 

使用语料库学习和教授语言

我们认为比起其他线上语料库,English-Corpora.org里的语料库为学习者提供了更好的数据,同时更以学习者为导向。或许这也是为什么在过去10-15年,几乎每本关于语料库和语言学习的书籍都以English-Corpora.org(之前被称作"BYU corpora")里的语料库为基础(一些范例:1 2 3 4)。

到目前为止,在语言学习方面最广泛使用的语料库是COCA (the Corpus of Contemporary American English)。COCA是唯一一个庞大、新近且体裁均衡的语料库。拥有体裁均衡的语料库是极为重要的,因为语言学习者常常不知道一个单词或短语在母语者听来是否过于正式或非正式。如果他们在用英语进行书面或口语表达时,错误地使用了这个单词或短语,就可能听上去很奇怪。

举两个简单的例子,学习者可能在学术论文里使用如a lot of NOUN这样的单词或者短语(这个语境下最好使用several NOUN),或者他们可能在和朋友对话时使用seldom,虽然这个词在母语者听来不仅过时而且过于正式。同样地,一个单词的意思和用法在不同体裁中有很大区别,比如chair 或者chain在小说和学术英语里的搭配词(临近的单词)。

一个主要由网页或者报纸构成的语料库是无法展现这些区别的。语料库需要像COCA这样包含多种体裁,从非正式的(如对话、电视和电影的剧本)到正式的(如学术)。

但语料库不只包括了其中的句子、段落和文本。一个真正有用的语料库还应为使用者提供能让他们充分利用潜在数据的接口。以下是English-Corpora.org独具的一些特色,它们能让这些语料库对语言学习者非常有用

特色

对学习和教授语言的重要性

可替代的短语

对语言学习者来说最难的事情之一是知道哪些单词放在一起合适。比如,哪个potent的同义词最常与单词argument一起使用?在COCA里简单快速地搜索一下便能获得答案。诸如此类的搜索,在其他像Sketch Engine 或者CQPWeb这样的线上语料库里,要么无法实现,要么非常复杂且耗时。

单词概要 

学习者想要多方面了解某些单词(不只是搭配词)。在English-Corpora.org上的每个语料库里,你都可以看到最常搜索的60,000个词中的每一个的定义、同义词、更具体或更宽泛的词、搭配词、相关的主题、词群、检索行、频率以及连接到如发音、图像、视频和对应100多种语言的翻译等外部资源的链接。

浏览 

学习者想要根据词频来查找单词(由此来了解自己词汇量的不足之处)。在English-Corpora.org上,你可以通过词形、词性、频率、词义(比如出现在定义里的单词)、同义词、更具体或更宽泛的词、甚至发音来查找单词。

查找相关词 

最好的学单词的方法是把它作为一个包含各种相关词的"系统"的一部分。例如,如果学习者将"望远镜"和其他概念如"地球","太阳","星星","行星","银河","宇宙","科学家",或"天文学"联系起来,他们更有可能知道并记住"望远镜"这个单词的意思。只有English-Corpora.org允许学习者查找搭配词和相关主题(出现在同一文本中任意地方)并提供关于词义的很多有用信息。

外部资源 

许多语言学习者能从单词或短语的多模式信息中获益,比如发音、图像、视频和对应他们母语的翻译。English-Corpora.org拥有唯一能连接到如此多种类的外部资源的语料库,而且它在很多方面都十分有用。当你浏览一个单词的"语境中关键词"Keyword in Context (KWIC)时,只需点击一下,即可获得各种各样的资源,它们能帮你找到那些你可能不认识的单词的相关信息。

全文(写作)

与"可替代的短语"部分类似,语言学习者往往需要帮助才能知道短语1、短语2、短语3哪个听起来最自然,尤其是在一个特定的体裁中。在English-Corpora.org上,你可以输入你写作的全文,然后快速简单地标出文中的短语来在COCA中查找相关短语,这有助于你编辑文本使其看起来更自然。

全文(阅读)

对语言学习者来说,当文本中有很多不认识的单词和短语时,可能很难去阅读它(比如从线上报纸中择取的一篇文章)。在English-Corpora.org上使用COCA,你可以查找文本里的关键词(来更好地理解该文的主旨),并且(这可能更重要)点击文本里的任何单词或短语来查看与其相关的各种信息,正如上面"单词概要"部分所展现的那样。

虚拟数据库 

那些带有特定目的(如工程,金融,医学,或者更具体的应用如聚合物,按揭贷款,或内分泌学)的英语学习者想要通过语料库来快速简单地查找在这些领域适用的单词和短语。在English-Corpora.org上,使用者可以在5-10秒内创建专门的语料库,然后再在2-3秒内提取关键词,这比用其他方法如BootCat快速简单很多。

保存的单词和短语

当语言学习者看到一个有用的单词或短语,他们会希望能保存那个单词或短语,可能还希望将他们归类。在English-Corpora.org上要实现这一功能非常快速且简单。

Translation to Chinese: Yu Yan; English major, Class of 2024 at Fudan University.

 

 

 

 

 

 

 

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3