翻译公司常用语料库推荐,好用的语料库,译者需要了解的语料库,瑞科翻译公司小编裂墙推荐!
美国当代英语语料库(单语)
美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,它由包含5.2亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。
美国杨百翰大学BNC语料库(单语)
由美国杨百翰大学语言学教授创立,下设多个字库,语料极其丰富。
美国国家语料库(单语)
最大的关于美语使用现状的语料库,记录了自1990年起美语口头和书面语,词量达2200万。
BNC (British National Corpus)(单语)
英国国家语料库由牛津出版社、朗文出版公司和大英图书馆等机构共同建立。其中包括广泛的书面语和口语,书面语90%,口语10%,总词量超过1亿。
Corpus Concordance English(单语)
综合多个语料库,内容包括历届美国总统演讲及电视节目、学术、法律等,有口语和书面语两种形式,词量达数千万。
Michigan Corpus of Academic Spoken English(单语)
密歇根大学英语语言所建立,内容主要为学术英语口语,词量达184万。
online BLCKWIC Concordancer(双语,英语、日语)
商业信函及其他信函类语料库,由日本人建立,包括商业信函、名人信函、美国总统国情咨文部分名著等。
BOE——柯林斯英语语料库(the Bank of English)
为目前世界三大著名语料库之一,该语料库(The Bank of English)为英国伯明翰大学与Harper Collins出版社合作建立的COBUILD语料库的一部分,目前固定在4.5亿词的规模,可以在线检索。
WebCorp
由伯明翰城市大学英语学院英语研究小组开发的网络语料库WebCorp 除了具有传统语料库检索软件的词表(wordlist)、语篇统计(token与type数目统计)、KWIC索引(语境共现)、搭配统计(Key phrases)、词语型式(pattern)统计等功能以外,还具有网络语料库特有的功能。它能够设定常见词(stop words)排除,将the、a等常见词从搭配中自动去除掉,这样检索出来的词语搭配更加精炼准确;能够设定搜索的域名范围、时间范围,可以提供不同地区、不同时期的语料资源。
绍兴文理学院语料库
由绍兴文理学院建立,主要语料有鲁迅作品、四书五经、传统经典、毛邓选集、两岸三地法律等。
北京大学中国语言学研究中心
北京大学中国语言学研究中心网站是由北京大学中国语言学研究中心开发并维护的纯学术性非盈利性网站。以交流语言学研究经验,传播语言学研究成果,推动语言学研究和发展为宗旨。北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。支持复杂检索表达式、支持对标点符号的查询、支持在“结果集”中继续检索、用户可定制查询结果的显示方式、用户可从网页上下载查询结果(txt文件)。
香港教育学院“LIVAC汉语共时语料库”
LIVAC汉语共时语料库以严谨、恒常与「共时」方式,搜索和处理了超常的大量具代表性汉语平面媒体语料,并通过精密的技术,累积了泛华语地区众多精确的语言和语用统计数据。本语料库最大特点是采用「共时性」视窗模式,剖析来自香港,北京,上海,台湾,澳门,新加坡等多地有代表性的定量华语媒体语料。直至2016年,LIVAC已累计过滤25亿汉字语料,并已处理逾6亿字,累积并持续提炼出2百多万词条。
中文语言资源联盟
中文语言资源联盟是由中国中文信息学会语言资源建设和管理工作委员会发起,由中文语言(包括文本、语音、文字等)资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的社会团体,具有完整性、权威性、系统性和开放性的特点,涵盖中文信息处理各个层面上所需要的语言语音资源,包括词典、各种语音语言语料库、工具等。