LDC2010T06 Chinese Web 5-gram Version 1

厂商名称:Linguistic Data Consortium

产品类别:

分享到:

产品简介 相关产品 厂商介绍

LDC2010T06

Chinese Web 5-gram Version 1, Linguistic Data Consortium (LDC) catalog number LDC2010T06 and isbn 1-58563-539-1,是由Google Inc.研究院开发。他综合了中文n-gram用语和将近800多万种的常用代替用法。n-gram从一个单字到5个不等。这项数据可以极大地帮助统计语言模型(机器翻译等)和其他用途。

数据收集

N-gram是从越8830亿个文字的公开网页中筛选出来的。该数据仅收集在句子中出现至少40次的n-gram。出现频率较少的不被记录。虽然确定和收集的信息都来自中文网页,但是一些其他语言文字也会被包括在最终数据中。

数据收集到2008年3月,之后的数据尚未进行。

 

图片 产品名称 分类 厂商
Visual Pcl2pdf Visual Software
Ultralingua电子词典 Ultralingua
Bar Code Pro SNX
Paragraph Tools Silicon Prairie
SDL Trados Studio 2011 Professional SDL
Psiloc Crystal Japanese Psiloc
R-Word R-Tools Technology Inc.
VeryPDF PDF Editor VeryPDF.com inc
文鼎UniFonts字达人2 文鼎
ABCpdf ASP WebSupergoo
Win2PDF 7 Dane Prairie Systems,LCC
Extensis Universal Type Server Extensis
VeryPDF PDF2Word VeryPDF.com inc
activePDF Portal activePDF
ABBYY Recognition Server

页面

Linguistic Data Consortium是一个由大学、企业和政府研究室组成的开放联盟。联盟创建、收集和分发语音文字数据库、词典,以及研究开发资源。美国宾夕法尼亚大学是LDC的主办机构。LDC成立于1992年,由 Advanced Research Projects Agency (ARPA)主力出资资助,并从Information and Intelligent Systems division of the National Science Foundation的IRI-9528587获得部分资助。