您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 双语对齐 >

语料库建设对于语言学的意义

发布时间:2019-06-07 06:29 来源:未知 编辑:admin

  基于平行语料库的研究方法源远流长。我们首先简单地回顾一下国内外平行语料库发展的历史与现状。

  我们知道,解读密码(decipherment)是古典文献研究的一个重要内容,历代学者们曾经依靠自己的聪明才智出色地解读了不少古代的铭文,或者通过铭文中已知的部分来解读铭文中未知的文字。Rosetta(罗塞塔)石碑(Stone)上古代埃及文字的解读,就是使用平行语料库方法来解读密码的一次成功的范例。

  我们认为,Rosetta石碑上面的三种文字就像三个彼此对应的并行语料库(parallel corpus),Rosetta石碑也许就是世界上最早的平行语料库。Rosetta石碑的解读,是使用平行语料库解读密码的成功范例。可惜,这样成功范例当时在语言学研究中并没有得到推广,绝大多数语言学家仍然使用基于语感和个人语言经验的内省方式来研究语言。

  自从20世纪60年代初,第一代大型电子语料库——BROWN和LOB语料库建立以来,世界上许多国家和地区陆续建立起各种单语语料库(包括书面和口语,共时和历时语料库),但平行语料库的研制,则直到上世纪90年代初、中期才开始。比较早的平行语料库有英语-挪威语双语平行语料库和1992年建立的英语-意大利语双语平行语料库。

  双语语料库由于涉及到两种语言的对应,工作量很大,需要投入较多的人力、物力和财力,一般人不敢轻易从事。这种双语语料库的建设往往容易陷入步履维艰的困境。

  目前平行语料库的研制业已成为语料库研究的一个重点,平行语料库的研究正朝着不断扩大库的容量、深化加工和不断拓展新的领域等方向继续发展。

  随着从事语言研究和机器翻译研究的学者对平行语料库重要性的逐渐认识,国内外很多研究机构都致力于平行语料库的建设。

  n Hansard英法平行语料库:在加拿大人们收集加拿大议会辩论的英法双语稿,建立了Hansard英法平行语料库。该平行语料库是最早建立的平行语料库之一,在平行语料库的研究中被许多学者广泛使用。

  n 英语-挪威语平行语料库:由Johanson等人在挪威奥斯陆大学(University of Oslo)建立,包括一个核心语料库和一个增补语料库,1997-2001年又增加了德语、 荷兰语、葡萄牙语的对应语料。

  n 圣经语料库(The Bible Corpus):由马里兰大学的Resnik等人构建,包含了9种语言(英语、法语、丹麦语、芬兰语、希腊语、瑞典语、拉丁语、西班牙语、越南语)。

  n Gao(高照明)收集台湾Sinorama杂志文章建立的Sinorama中英对应语料库。

  n 北京外国语大学中国外语教育研究中心的通用汉英对应语料库(约3000万汉字/英文词)。

  n 北京大学汉语语言学研究中心的CCL汉英双语语料库 (233589句对)。

  n 北京大学计算语言学研究所的汉英/汉日双语语料库(汉英句对齐语料:200101句对,汉英词对齐语料:10102句对,汉日句对齐语料:20000句对)。

  n 哈尔滨工业大学的英汉双语语料库(40-50万句对,在句子、短语、词汇三级实现双语对齐)。

  n 中国科学院自动化研究所的英汉双语语料库(香港法律英汉双语对齐语料31万句对,并从英汉双解词典中摘取例句25000个句子对)。

  n 哈尔滨工业大学计算机学院语言技术研究中心面向奥运的中英日三语语料库(220余万字,52227个三语句对)。

  n 香港法律英汉双语对齐语料库(31万句对)与在此基础上建立的双语法律信息系统BLIS(21万句对)。

  n 内蒙古大学结合汉蒙机器翻译系统,建立了近20万词的汉蒙对照政府文献语料库。

  n 新疆大学建立的面向法律文档的汉维双语对齐语料库收集了2000对汉维句子(句子级对齐)。

  特别应当提出的是北京外国语大学中国外语教育研究中心王克非教授主持的国家社科基金重大研究项目“超大型英汉平行语料库的研制与加工”,该课题的目标是建成1亿词以上的英汉平行语料库,这将是世界上最大的英汉双语双向平行语料库,该项目包括4个子课题:

  这个超大规模英汉平行语料库的研制,可以为计算语言学提供强大的语言学理论和事实的支持,从根本上推动计算语言学的发展。

  但是,在计算语言学是否需要语言学支持的问题的上,计算语言学界还处于迷茫状态,一些学者对于这个问题存在偏颇的看法。

  目前的计算语言学研究,主要是面向应用的,机器翻译、跨语言信息检索、文本数据挖掘、自动信息抽取、文本自动分类、自动文摘,全都是面向工程应用的,这些研究当然是非常重要的,没有这样的工程应用,计算语言学将失去活力,难以得到广大用户的认可。

  但是,究竟是哪一个学科作为这些工程应用的理论支撑呢?我认为应当是语言学。我们只要考察一下面向数据革命以来在自然语言工程领域的重大成果就可以证明这样的看法。

  比如宾州树库(Penn TreeBank),1992年第一版本问世以来,它的标注体系被用来对众多的词类和分析器进行训练。这套标注体系的背后是什么理论?在什么意义上这个标注体系是“正确的”?会不会有其他某个标注体系也是同样好的?我们凭借什么准则对这样一套资源的质量进行评估?这准则又该嵌入科学的哪一个分支?显然应当是语言学,语言学中的词类理论成为了宾州树库的理论支撑。没有安学中的单词的分类理论,宾州树库的标注体系将会黯然失色。

  再看机器翻译。我们现在的统计机器翻译系统已经做得足够在很广泛的应用场合下使用了,目前Google Translator系统可翻译的语言有58种,翻译方向有58 X 57 = 3306个,也就是说,这个系统可以进行3306个语言对的翻译工作,我们可以在汉语和希伯来语之间、在越南语和希腊语之间互相翻译了。这样的工作显然是人的翻译所难以胜任的,这在过去是不可想象的。这恐怕算是自然语言工程领域最伟大的成就了吧,但是它到底基于哪个学科呢?受到哪个理论的支撑呢?显然也是语言学。如果没有我们对于这58种自然语言的数据和知识,Google的多语言自动翻译系统将寸步难行。

  类似的例子举不胜举。词汇歧义消解、随机句法分析、文本分类、问答、语义角色标记、语音识别、本体开发,随便什么你感兴趣的应用,都可以同样追问:它们基于什么学科?受到哪个理论的支撑?它的理论支点在哪里?显然都应当是语言学。

  单词的形态分析器就是形态学(morphology)的语言学家们的智慧集大成之后的反映。很多早期的形态剖析程序使用词缀剥离法(affix-stripping)来进行剖析。例如,在Packard于1973年设计的古希腊语剖析器中,就反复地剥离输入单词中的前缀和后缀,使剩余下来的词根突显出来,然后,再在词表中查找剩余下来的词根,并返回与被剥离的词缀相容的词根。这样的工作是建立在语言学家对于古希腊语形态分析的语言学的基础之上的。

  1981年,Weber和Mann等设计的AMPLE(A Morphological Parser for Linguistic Explorartion,用于语言研究的形态剖析器)是另一个早期的形态分析器。AMPLE包含一个词表,词表中存储每一个语素的所有可能的表层变体(叫做语素变体[allomorphs]),以及它们出现时的限制(例如,英语中的-es这个表示复数的语素变体只能出现在s, x, z, sh, 或ch之后)。该系统找出与输入相匹配的每一个可能的语素序列,然后进行过滤,把那些不满足限制条件的序列去掉。这些工作也需要形态学知识作为基础。

  世界上第一个句法分析系统“转换与话语分析课题”(Transformation and Discourse Analysis Project,简称TDAP)就是在当时的句法(syntax)理论的指导下实现的。而且这个分析系统的设计人正是语言学家Zelig Harris。该系统于1958年6月至1959年7月在美国宾州大学研制成功。过去的一些自然语言处理系统也使用过带有单词的词类信息的词典,但是没有描述如何进行词类歧义的消解。作为剖析程序的一部分,TDAP使用了4条规则进行词类歧义消解,他使用的词类标记序列成为了后来所有算法的雏形,系统的运行考虑到了单词标记的相对频度的顺序。这个剖析-标注系统在1999年由Joshi和Hopely以及Karttunen再次实现,他们指出,这个剖析程序实质上是作为一个层叠式的有限状态转录机来实现的。

  Zellig S. Harris是Noam Chomsky的老师,后来他在1962 年发表的《句子结构的串分析》(String Analysis of Sentence Structure)中,又提出了“语言串理论”(linguistic string theory),并在这种理论的基础上提出了“语言串分析法”(linguistic string analysis),这是Harris为计算机进行英语句法分析而专门研究的分析法,是一个最早在计算机上实现了的自然语言处理的形式模型。这样的形式模型的研究,为自然语言的句法剖析的工程应用提供了理论支撑。

  人机对话系统吸取了语义学(semantics)和话语分析(discourse analysis)理论的研究成果。基于计算的话语分析集中探讨了话语研究中的四个关键领域:话语子结构的研究、话语焦点的研究、自动参照消解的研究、基于逻辑的言语行为的研究。1977年,Crosz和她的同事们研究了话语中的“子结构”(substructure)和线年,Hobbs开始研究“自动参照消解”(automatic reference resolution)。在基于逻辑的言语行为研究中,Perrault和Allen 在1980年建立了“信念-愿望-意图”(Belief-Desire-Intention,简称BDI)的框架。这些工作需要吸取语义学和话语分析的语言学研究成果。

  显而易见,没有正确的语言学知识作为基础的自然语言处理的工程应用领域是走不远的。

  “然而,当前的语言学作为一个学科,正在走向迷失——它只关注句法,而且又以英语的句法为主;它的理论变得如此晦涩难懂,如此华而不实,如此自以为是,以至于其他领域的研究者事实上无法跨学科参与进来。用Evans和Levinson(待出版)的话说,‘相关的文献对于圈外人士来说是难以逾越的屏障’,或者用Tomasello(1995,136页)的话说,语言学理论‘用特殊术语来描述语言,导致我们很难把它与心理学的其他研究领域中关于认知的成果相联系。’至少对于计算机实现而言,是这个原因。”

  “基于这样的原因,计算语言学专家对语言学感到沮丧,他们在沮丧中彻底放弃了它,剩下的就只有统计学和概率论。但是,计算语言学肯定不是应用统计学的一个分支。假如真是应用统计学的话,那自然语言处理系统就和其他非语言的字符串处理系统,比如DNA序列、乐谱、棋谱等非语言学的处理系统没有什么区别了。我们的系统所处理的字符串肯定有某种唯一的特性,有某种可以从理论角度加以概括、在科学意义上加以研究的东西。决定我们的系统的特殊性的,正是在于它处理的是自然语言,而能给我们以指导的唯一的科学领域就是语言学。实际上,在语言学的世界里新东西越多,计算语言学能从中受益的就越多。生成语言学与理论语言学之间一度咬得很紧,但是已经松下来很长时间了。有几个很棒的方向,如能从形式上、数学上、计算上加以研究,相信会能大有裨益。”

  但是,她同时又怅然地指出:“在二十年前,一个计算语言学家或许既对开发自然语言处理的应用感兴趣,也对语言本身的过程的形式化以及语言学的推理感兴趣。现如今,兴趣只剩下前者了。粗粗看一看我们领域主要会议上的文章,绝大多数都是工程型的,讨论的都是实际问题的工程解决方案,几乎不再有人讨论基础性的语言学问题了。”

  她呼吁:“我最近听到的最发人深省的见解之一,来自Lori Levin在EACL2009(欧洲计算语言学会2009)的语言学与计算语言学互动专题讨论上提出的建议。他建议我们在ACL(Association for Computational Linguistics)里设置一个语言学专委会。最初的尴尬之下,我发觉这个想法很怪异:这岂不是有点像美国儿科学会妄想设立‘医学专委会’或者‘儿童专委会’一样滑稽吗?然而接下来一想,才意识到这个想法的合理性:本质上,当代的自然语言工程里,语言学整体上是缺位的!在这里,我想呼吁语言学重新返回到计算语言学中。”

  作为一个计算机背景的计算语言学家,能够提出这样的真真灼见,呼吁计算语言学家关注语言学研究,呼吁语言学重新返回到计算语言学中(the return of linguistics to computational linguistics)。她的见解值得为我们中国的计算语言学家和语料库语言学家给予密切关注。

  除了为自然语言处理用而研究语言学之外,语料库的建设还有语言学自身的目的:在语料库的基础上来研究语言本体,研究语言的语音、语法、语义、语用的规律,探索自然语言的数学面貌和数学规律,揭示人类自然语言本身的奥秘。

  在这方面,基于平行语料库的语言研究与基于语言学家的语感和个人语言经验的语言研究有着本质的不同。2003年在上海举行的语料库语言学国际会议上,基于平行语料库的语言研究占到了8.2%,数量相当可观。在比较语言学研究领域,双语平行语料是非常宝贵的语言研究资源,为语言学家提供了大量的语言实例,是比较语言学家运用现代化手段进行语言研究不可缺少的无言助手。双语平行语料库对双语词汇学和词典编纂、语言(或方言)之间的翻译研究都有很大促进。近年来,在我国的语料库语言学研究中,王克非对“汉英平行语料库”的考察,刘泽权等利用平行语料库对虚构文本中报道性动词的翻译研究,杨沐昀等对基于平行语料库汉英词语翻译挖掘技术的研究,等等,都表明我国在利用平行语料库进行比较语言学研究方面已取得了初步成果。

  大连海事大学的范凤祥教授使用语料库对于篇际英语词汇增幅率的研究以及他对于英语中一次性罕用词(hapax legomena)的研究值得我们关注。他的成果,或者发表在国际计算语言学杂志(Computational Linguistics)[1]上,或者发表在国际计量语言学杂志(International Journal of Quantitative Linguistics)[2]上,这些刊物都是SSCI检索的刊物,影响因子都比较高。表明了我国的语料库语言学研究正在向世界的高水平迈进,这些都是中国语料库语言学取得的可喜成就。

  我所在的中国传媒大学依存树库研究团队近年来在汉语依存树库的基础上进行了一系列的语言本体的研究工作。

  我和刘海涛提出了概率配价模式(Probabilistic Valence Pattern,简称PVP),对于树库中的所有的依存关系都计算概率,PVP为使用统计方法研究句法语义关系提供了一个数学模型。根据PVP,中国传媒大学依存树库研究团队做了很多研究工作。

  刘海涛、胡凤国利用汉语依存树库建立了汉语的复杂网络,他们研究了汉语复杂网络的度分布、聚集系数、依存距离等基本数学特性。

  他们的研究表明,在结点数为4017的汉语句法网络中,结点之间的平均路径长度d为3.372,比“六度分隔”还要小,因此,他们认为,语言的句法网络是一个小世界。他们还发现汉语语义网络的平均路径长度d为3.952,聚集系数C为0.079,也可以算是一个小世界网络[3]。

  这些研究成果分别在2008年的Physica A和Europhysics Letter[4]上,引起了国际物理学界的关注。刘海涛还在《科学通报》2009年7月54卷14期上发表了《汉语语义网的统计特性》,介绍了在语义网络方面的研究成果[5]。

  刘海涛使用了20种语言的树库,对于这些语言中的中心词居前(head-initial,简称HI)与中心词居后(head-final,简称HF)的分布进行了统计分析[6]。他的研究成果表在国际著名语言学杂志《Lingua》上,这是SSCI 、A&HCI检索的国际核心期刊。

  我的博士生高松根据汉语的依存树库来研究汉语的概率语法,为使用统计方法研究汉语主要词类的句法功能提供了有力的数据支持。

  我的博士生瞿云华根据汉英平行语料库研究英语和汉语的视点体(aspect)对比,深化了我们对于视点体的认识。

  我的博士生乐明在汉语语料库的基础上研究汉语的修辞结构理论(Rhetoric Structure Theory,简称RST),补充了Mann等RST类别的不足,她的研究成果在悉尼的国际会议上发表,引起了韩礼德(Halliday)的关注。

  这些研究都是使用语料库来研究语言现象本身,而不是针对工程应用的,这是语言学工作者则无旁贷的工作 ,而且是计算机背景的计算语言学家代替不了的研究。今后,我们应当大力加强这种基于语料库的、面向语言本体的语言学研究,从而推动我国语言学的发展。

  我们应当特别注意与国际的语言学研究接轨,争取在国际第一流的语言学杂志上发表高质量的论文,为中华民族争光。

  另外,双语平行语料库是翻译教学不可替代的重要参考材料和工作平台,可以为教师和学生提供词、短语、句子等层面上丰富的双语对译实例,作为讲解和仿习之用。它是双语语言教学和语言习得的重要资源。汉英平行语料库对于汉语作为第二语言的教与学很有价值,它可以辅助汉语教师更好地了解母语为英语的学生的情况,从而根据汉语和英语的各种表达差异来制定汉语的词汇、语法等方面的教学方案。同时,对于这些学生来说,汉语的多义词、兼类词、句法歧义等现象都是学习的难点,汉英平行语料库可以帮助他们同时利用两种语言的知识来更好地掌握汉语。托依拜特(Wolfgang Teubert)提出,利用平行语料库进行母语和目的语对比,通过提供语境双语翻译帮助学习文本中的“意义单位”(Units of Meaning),可提高词汇学习的效率。不少研究都同时关注词语组合或意义模块化对语言学习的重要意义,如辛克莱(John Sinclair)和毛拉能(Anna Mauranen)的“切块”(Chunking),濮建忠的“词块”(Chunks),李文中的“词丛”或“词簇”(Word Clusters),卫乃兴的“搭配”(Collocations),邓耀臣的“搭配模式”(Collocation Patterns)等。所有这些研究都认为,由多个词语组成并重复出现的片段具有显著的特点,从教学上看比孤立的词更值得重视和研究。这些也是我国语料库语言学取得的成果。

  因此,对于语言学研究者来说,除了面向工程应用之外,还应当使用计算机技术来探索自然语言的规律和奥秘,揭示自然语言的数学面貌,提高语言教学的水平,从而丰富人类对于自然语言的认识。这样的研究和探索,如果使用超大规模的语料库或者双语平行语料库作为数据的来源,将会得到更加可靠而客观的结果。

  这样看来,国家社科基金把超大规模双语平行语料库的研制与加工作为重大研究课题,还是很正确的。我认为,这是我国语料库语言学研究的一件值得大书特书的大喜事。

  ■ 实现资源共享。由于双语平行语料库的研制非常不容易,需要实现资源共享。目前Chinese-LDC上已经可以共享部分资源,可以采用会员制的方法实现双语语料库的资源共享。超大规模双语平行语料库的研制与加工的成果,是国家社科基金资助的,也应当实现资源共享。

  ■ 加强少数民族语言与汉语的双语平行语料库建设:目前,在国内有藏语、蒙古语和维吾尔语等少数民族语言的语料库,然而这些语料库只限于单语种。在我国涉及少数民族语言的双语语料库的探索工作还比较少。目前还没有见到规模较大的、经过深度加工的、以汉语为源语言的汉-民(少数民族语)双语语料库的报道。

  [5] 刘海涛,汉语语义网的统计特性,《科学通报》,2009年,第54卷,第14期,SCI 检索期刊。

  肠虫清的英文:Albendazolealbendazole是什么意思:阿苯达唑,丙硫咪唑,肠虫清,抗蠕敏,扑尔虫

http://poisondarts.net/shuangyuduiqi/111.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有