您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 双语对齐 >

汉维双语语料库中句子对齐技术的研究

发布时间:2019-07-28 03:33 来源:未知 编辑:admin

  新疆大学硕士学位论文汉维双语语料库中句子对齐技术的研究姓名:毕雪华申请学位级别:硕士专业:计算机应用技术指导教师:吐尔根·依布拉音20060522 新摄大学母! 卜沦文摘要随着计算机年u互联网的发展,在自然语言处理领域,以双语( 或多语) 平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对丁烈语词典编纂、词义消岐和跨语言信息检索也具有重要价值。在平行语料库的加上中,研究不同级别的对齐技术足一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基丁I实例的机器翻译中实例库构建不可缺少的关键...

  新疆大学硕士学位论文汉维双语语料库中句子对齐技术的研究姓名:毕雪华申请学位级别:硕士专业:计算机应用技术指导教师:吐尔根依布拉音20060522 新摄大学母! 卜沦文摘要随着计算机年u互联网的发展,在自然语言处理领域,以双语( 或多语) 平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对丁烈语词典编纂、词义消岐和跨语言信息检索也具有重要价值。在平行语料库的加上中,研究不同级别的对齐技术足一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基丁I实例的机器翻译中实例库构建不可缺少的关键环节。本文以平行语料库及其对齐技术在面向政府文献的汉维机器辅助翻译中的应用为背景,介纠了汉维双语语料库的建设方法,讨论了汉维般语语料库中句子对齐技术和段落对齐技术。首先本文通过统计分析,验证了汉维双语文本之间存在着较为稳定的长度关系规律,因此采』}J 基于K度的句子对齐方法,并利J fJ 动态规划的方法进行问题的最优化。然后本文考虑到基丁回车符的方法在实际应用中的缺陷,提出了一种基丁-锚点句对的分段对齐方法,并根据需要,将上二述两种方法相结合,形成了~种多层次分段对齐方法,进一步提高了句子对齐的运行效率和止确率。天键词:机器翻译,平行语料库,段落对齐,句r对齐 新疆大学坝L论文ABSTRACTW i ththedevel opm entofcom puterandtheIntem et,theappl i cati onofbi l i ngual(m ul ti l i ngual )paral l el corpushas becom e ani m portanti ssue i n the fi el d of N aturalProcessi ng.M oreoveLtheparal l el corpusi s val uabl e i n m achi netransl ati on,bi l i ngualLanguagedi cti onarycom pi l ati on,w ordsensedi sam bi guati onandCross- Li ngualInform ati on Retri eval ,In creati on of theparal l el corpus,researchofal i gnm enttopi c.Inorder to extractl i ngui sti c know l edgef romparal l elat di fferent l evel s i s an essenti alcorpus.i ti snecessarytoal i gnthemfi rst.Theal i gnm entM achi neTransl ati on(EBM a3.Thi sthesi sChi neseU i ghur M achi ne- Ai ded Transl ati on.The constructi on ofcorpusi s di scussed w i th the sentence and theparagraph al i gnm entsi n thi scorpus.Accordi ngto stati sti canal ysi s,i ti s f ound that there arecom parati vel y steady textl engthrel ati ons betw eenChi nese- U i ghur paral l el bi l i ngualtexts.Then the sentencesal i gnm enton i tsl ength.D ynam i c program m i ngi sem pl oyedi n thi sthesi s.Consi deri ngthe defects i n theoftradi ti onalParagraph Al i gnm enti sal so anecessary phrasei n the constructi on oftheExam pl e- Basedfi rstl yi ntroducestheappl i cati onofbi l i ngualcorpusand al i gnm enti nChi neseU i ghnrbi l i nguali sadopted.w hi chi s basedpracti calappl i cati onm ethod basedO i lcarri age-retufficharacter, thi sthesi sputsforw ard asegm ental al i gnm ent al gori thmbased on the anchor sentencepai rs.Tocom bi ne the m eri ts of tw o m ethods above,a m ul ti -l evelsegm ent al i gnm entm ethod i sexperi m ents provethe m ethodsuggestedi n thi s research.The fi nali s hi ghl y effi ci ent andpracti cal .Keyw ord:M achi neTransl ati on,Bi l i ngual Corpus,Paragraph Al i gnm ent,SentenceAl i gnm ent 新疆大学硕士论文第一章引言本章首先就当前机器翻译研究领域的主要技术和发展趋势,以及双语语料库的关键技术和主要应用进行阐述,最后介绍本文研究的关键技术。1.1本文研究的背景和意义1.1.1研究背景当今社会处于信息时代,因特网迅猛发展,迫切需要通过机器翻译( M achi neTransl ati on,简称M T) 消除不同国籍人们之间的文字障碍。但是,自然语言翻译是人类高级智能活动之一,而人工智能(Arti fi ci al Intel l i gence,简称A1) 研究尚未达到完全理解自然语言的水平,因此机器翻译( M T) 研究是计算语言学研究中的一个重要内容,具有重大社会经济价值【l 】。而且,随着信息的急剧增加,国际间交流的日趋频繁,尤其是国际互联网络的逐渐普及,机器翻泽的需求越来越大12J 。根据知识表示和处理方法的不同,目前主要有两种翻译方法:基于规则( Rul e.Based、的机器翻译方法和基于语料库(corpus.Based)的机器翻译方法[3】【” 。基于规则的翻译系统的主要特点是:通过对语言现象的理解和认识,不断总结其规律性.形成表达语言知识的语法结构规则、语义规则等。分析系统利用这些规则对输入的语言进行分析、理解,形成一种没有歧义的、确定的内部表达形式,然后,根据这些表达形式转化成相应的目标语言结构,并形成译文。这种基于规则的方法是目前最成功的翻译技术。但由于该方法需要大量的、能代表语言现象规律的规则知识库和词典库,这些知识大部分通过智能性很低的人工方式获取。因此,知识获取成为约束基于规则的翻译方法发展的根本因素。针对上述问题,研究人员提出了基于语料库的翻译方法。该方法又可咀分为两种:基于统计的翻译方法( SBM T) 和基于实例的翻译方法( EBM T) 131。1949年,W eaver就提出了基于统计的机器翻译方法SBM T,1990年,IBM 公司的Brow n等人又重新提出将统计方法用于机器翻译的研究。SBM T的主要思想是以大规模双语语料库为基础,它对源语言和目标语言词汇的对应关系进行统计,并根据统计规律输出需要翻译的原文句子所对应的译文句子。基于实例的机器翻译EBM T方法的基本思想是由日本京都大学的N ago、Sato等人提出的:系统的主要知识源是双语对照的语料库。每当输入一个源语言句子s时,系统利用s和烈语语料库中的源语例句或片断进行比较,找出其中和S最为相似的句子s ,并模拟s 的译文句子T 构成句子T作为S的译文。 新疆人学硕上论文自从二十世纪八十年代以来,基于语料库的方法受到了计算语言学研究者的广泛重视[ 41。而随之出现的平行语料库,逐渐成为解决机器翻译中的知识获取的理想资源。所谓平行语料库,是指由多种语言的互译文本构成的语料集合,其中比较常见的是由两种语言的互译文本组成的双语平行语料库。由于平行语料库含有不同语言之间的对照翻译信息,所以它对于众多跨语言的自然语言处理研究和应用都具有相当高的研究和实用价值,如对比语言学研究、语言教学、双语词典和术语库的编撰、词义消歧、跨语言信息检索以及本文所关注的机器翻译研究p】。根据有关文献O l [ 4l [ S] ,有关双语语料库的研究设想始于二十世纪八十年代初。1980年M arti nKay在论及“ 人和机器在语言翻译中的适当作用” 时曾设想了一个机器辅助翻译系统,该系统的机制与现在众所周知的翻译记忆系统很相似,都是以专业翻译人员实现建立的翻译样例为基础。同时,H artm ann也提及在翻译研究及双语词典中使用平行语料库。四年以后,N agao提出了以实例为基础的机器翻译框架,其原理是采用类比原则从已经建立的翻译实例中获取双语知识库来支持翻泽过程。在此之后,双语语料库的价值逐渐引起了研究者的注意,几个研究单位包括Xerox PARC,IBM 的研究中心,AT T的贝尔实验室在80年代后期都同时开展了各自的相关探索。但是,当时研究的焦点集中在句子的自动对齐方法,还未涉及双语文本的多层次整体对应问题。推动双语语料库研究的另一个动力来自统计机器翻译的研究。1988年,由布朗( PeterBrow n) 领导的一群IBM 研究人员提出了一种全自动化的机器翻译系统开发策略。该方法的核心是以双语语料库为基础.使用统计方法计算各种翻译关系i oj 。从此,双语语料库的潜在价值逐渐被人们充分认识,研究者们围绕着如何从双语语料中更有效地获得双语知识开展了大量的研究,诸如词汇对齐、结构对齐、双语词典建设以及翻译模型等都成为倍受关注的研究课题。1.1.2研究意义从近年来的自然语言处理研究中可以看出,基于语料库的语言学知识获取研究已经成为其中的一个热点,而双语平行语料库的加工及其应用更是吸引了众多研究者的注意力。作为新疆这样一个少数民族地区,汉语和维吾尔语( 以下简称维语) 所构成的双语语料库,其研究必将对少数民族语言学、翻译理论产生重要的推动作用,而汉维双语语料库技术的最终应用还将促进以汉语与少数民族语言的机器翻译为代表的众多自然语言处理系统的实用化,从而带来巨大的经济和社会效益。此外,汉维双语语料库的建设对于汉维双语词典编纂、跨语言的对比研究、“ 民一汉” 双语教育的研究也具有重要价值pJ 。新疆维吾尔自治区是多民族的地区,总人口约190.5.19万,其中维吾尔( 869.23万) 、 新弱大学硕士论文哈萨克( 133.35万) 、柯尔克孜( 17.13万) ,合计1019.48万,占总人口的53%。维吾尔语属阿勒泰语系突厥语族,属该语族的国内还有维吾尔、哈萨克、柯尔克孜、乌孜别克、塔塔尔族等。目前,维吾尔文、哈萨克文、柯尔克孜文是和汉文同时使用的官方语言文字。虽然目前启动了“ 民一汉” 双语教育,但离全面普及还有~段距离,南疆三地州以及一些边远地区尚没具备普及“ 民一汉” 双语教育的条件,少数民族群众还很难用汉语与汉族同胞沟通。随着信息社会各类知识信息急剧聚增,而且这些知识和信息主要以英语和汉语为载体,如果我们不尽快解决网上的电子翻译问题,我们将在国民收入步入小康的同时在信息和知识上走向贫困,在知识经济的大潮中沦为第四世界、第五l :}=界。“ 面向政府文献的汉维机器辅助翻译系统” 的开发就是在上述背景下提出的,该系统的研究将解决维吾尔等少数民族同志使用信息技术时的语言障碍问题,使他们能快速翻译获取信息。对提高少数民族的科技文化水平尽快脱贫有着深远的意义;另一方面对将来哈( 哈萨克文) 汉、乌( 乌孜别克文) 汉、柯( 柯尔克孜) 汉、土( 土耳其文) 汉双向辅助机器翻译系统的开发打F坚实的基础。对我们获取中亚国家的科技、.文化、经济的信息.加强与周边国家的友好往来,使我们国家长治久安有着深远的意义。本文的研究就是作为“ 面向政府文献的汉维机器辅助翻译系统” 前期资源库建设提出的。1.2相关研究综述国内外很多研究机构都致力于双语语料库的建-最,并利用这些语料库进行广泛的研究。加拿大的议会会议录( Canadi anH ansards) 是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库的基础上进行的13J 。有关汉外双语语料库建设及其研究,香港科技大学收集和加工了香港立法委员会的会议记录,形成汉英双语语料库。此外,北京大学、东北大学、哈尔滨工业大学的研究人员也建立了一定规模的汉英取语语料库。但这些汉外双语语料库大都规模比较小,加工规范也不统一,从而影响了双语语料库知识获取的研究。目前最完整的就是北京大学计算语言研究所为北京大学计算语言学研究所、清华大学智能技术国家重点实验室和中国科学院计算所三家单位联台承担的国家973课题“ 面向新闻领域的汉英机器翻译系统” 的研制开发,而构建的“ 服务于汉英机器翻译的取语对齐语料库和短语库H I。目前关于双语或多语语料库的研究大致可分为三类pJ :一是研究双语语料的对齐技术( Al i gnm ent) ,国内外学者就此提出多种策略和方法,现在已经出现了许多对齐双语或多语语料的程序或工具[ Gal e 19931;二是研究双语语料的各种应用,如在基于统计的机器翻译技术[ Brow n 1990]、基于实例的机器翻译技术『N agao 1984] ,双语词典编纂[ Kl avansandTzoukerm ann1990]技术中,拟语语料库都发挥着十分重要的作用;三是双语语料库的设计、 新鲴大学硕士论文采集、编码和管理问题。目前比较著名的语料库编码方案有TEl 文本编码标准以及CES标准,两者均是基于SG M L的标记语言。就前两类研究来说,中国国内目前做了较多的跟踪研究工作,而对于第三类研究,即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究,探索工作似乎做的相对较少。国内少数民族关于这方面的研究有内蒙古大学蒙古语研究所80年代完成的“ 蒙古语500万词的语料库建设” ,内蒙古大学正在建设的“ 汉蒙对照双语语料库” 等;新疆大学多文种信息处理重点实验室建设中的现代维吾尔语语料库以及新疆师范大学的维语语料库等,但是目前还没有见到有关系统的、经过深度加工的、以汉语为源语言的民汉双语语料库的报道。1.3本文的主要研究内容和组织面向政府文献的汉维机器辅助翻译系统需要一个高质量的汉维域语语料库,而耍建设这样一个双语语料库,其中关键的技术就是双语句子对齐。本文针对汉维双语语料库建设中句子对齐的问题进行了研究,并提出了一套可行的方法。基于统计的机器翻泽和基于实例的机器翻译都需要大量双语句对来支持,而一般的双语语料都是篇章级对齐的,应用之前需要实现句子级的对齐。对于大规模语料库,手工对齐是不现实的,近年来人们一直在研究用计算机实现自动对齐。自从Brow n等人1990年首次进行文本对齐以来,迄今为l t,国内外的许多学者进行了不少对齐的尝试,取得了一定的成果。主要研究工作和方法有:Brow n、Gal e等人根据互译句子间的长度关系实现了基于长度的双语句子对齐方法;Si m ard等人利用英法句子中的同源词的多少实现了一种基于词汇的双语句子对齐方法:Kay、Roschei sen等人根据词汇的分布提出了一种句子对齐方法。这些对齐处理主要限于印欧语系内部的英、法、德和西班牙等语种。目前,国内对双语语料库构建技术有研究的机构主要有:北京大学、东北大学、哈尔滨工业大学。其中摄完整的就是北京大学计算语言学研究所、清华大学智能技术国家重点实验室和中国科学院计算所三家单位联合承担的国家973课题“ 面向新闻领域的汉英机器翻译系统” 中研制开发、构建的“ 服务于汉英机器翻译的双语对齐语料库和短语库” ,这是在印欧语系与亚洲语系之闾展开的研究。而本文的主要特色是:提出了在属于Ⅱ洲语系的汉语和属于阿勒泰语系的维语之间进行句子对齐的方法技术。根据汉、维各自语言的特点,通过大量训练语料,分析了汉维平行文本问存在的长度规律,提出了采用基于睦度的方法解决汉维句子间的对齐问题,同时d 新疆大学硕士论文提出了一种基于回车符和基于锚点句对的多层次分段对齐方法。从而为汉维机器辅助翻译系统的建设提供了强有力的支持。本文后续章=霄内容如下:第二章语料库与句子对齐这部分主要阐述了语料库发展历程与句子对齐的研究方法概述。第三章汉维双语句子对齐的总体结构该章主要介绍了汉维双语句子对齐的总体结构并给出了讨论对齐的评价方法。第四章主要算法思想主要介绍了本文针对汉语和维语所采用的句子对齐方法的思想和多层次分段对齐方法的设计思想。第五章对齐实验结果分析该部分简要介绍了具体的实现,并对测试结果进行了分析。第六章展望与总结总结本文的:L作,并提出了下一步的:[ 作内容和重点。5 新疆大学硕士论文第二章语料库与句子对齐近年来,在自然语言处理的研究和开发中,双语( 或多语) 平行语料库(Bi l i ngual /M ul ti l i ngual paral l el corpus) 的作用日益突显出来。特别是在机器翻译研究中,人们提出了多种基于双语平行语料库的新方法,例如基于实例的机器翻译EBM T( Exam pl e.BasedM achi neTransl ati on)、基于统计的机器翻译SBM T(Stati sti cs.BasedM achi neTransl ati on) 和机器辅助翻译M AT( M achi ne-Ai dedTransl ati on),可以直接使用经过对齐的双语语料改善机器译文的质量。此外,也可以通过统计模型从双语语料库中获取双语词典和翻译模板,从而改进传统的机器翻译方法。除机器翻译方面的应用之外,双语语料库的建设对于双语词典编纂、词义消岐、跨语言信息检索和跨语言的对比研究也具有重要价值110ⅡnJ【J2】。本章首先简要介绍关于语料库和平行语料库的背景知识,以及双语平行语料库和句子对齐在基于实例的机器翻译技术中的应用,然后提出本文将要研究的问题。2.1现代语料库语料库( corpus或corpora) 是指按照一定的语言学原则,运用随机抽样方法。收集自然出现的连续的语言运用文本或话语片段,而建成的具有一定容量的大型文库。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本代表某一研究中所确定的语言运用总体【101。作为一种语言学研究方法,语料库及索I( concordance) 早在十八世纪就在欧洲得到了应用1101。当时的语料库大多以手工方法收集,其索引和分析过程也都是通过手工进行的,极为耗时费力。到了十九世纪,语料库方法在语言学研究中继续得到运用,基于语料库的研究主要集中在词典编纂和语法研究方面。学者Poutsm a和Krui si nga,将他们的研究建立在手工收集的语言材料上面,这些语料都以引用卡片( ci tati onsl i p)的形式手工收集,整理,存放和利用。后来的被称作“ 语料库语言学家” 的美国结构语言学家Leonard、Bl oom fi el d,也使用手工收集和构造的口语集进行语言学的研究,1957年,美国语言学家Chom sky的《句法结构》一二日出版,掀起了一场对传统的描写语言学的革命,理性主义的研究方法逐渐在语言学研究中占统治地位Il ⋯ 。作为一种经验主义的研究方法,传统的基于语料库的研究开始进入低谷。八十年代中期是语料库研究的复兴时期。真正意义的现代语料库是指大型的以屯子文档为主要构成的计算机语料库。虽近三十年中,随着计算机技术的飞速发展,基于现代语6 新疆大学硕士论文料库的研究开始复兴。机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件使得大容量的机器可读语料库的建设成为可能。同时.一些新的、更好的统计语言模型也开始出现。而且,随着自然语言处理系统的不断实用化,知识获取问题己经成为一个瓶颈,基于规则的自然语言处理系统在处理大规模的非受限真实文本中遇到的种种困难,促使广大研究人员去探索和采用一种新的研究思想。所有这些因素,推动了基于语料库的经验主义研究方法成为目前自然语言处理研究中的一个热点。语料库越来越多地应用到机器翻译、语音识别以及信息检索等应用研究中去。在自然语言处理领域,语料库的建设和利用具有越来越重要的意义。现代意义上的语料库可以定义为:以机器可读形式存储的,可能含有多种形式的语言学信息注解的,文本或者语音的线⋯ 。这些语料库必须以电子计算机为载体,通常为计算机中的电子文件。语料库中的语言实例必须是真实语言环境中出现过的语言材料,可咀是文本形式的书面语,也可以是语音形式的口语。另外,这些语料库可能经过一定的分析,加:[ 和处理,含有多种形式的语言学信息注解,比如词性标注等等。世界上第一个现代语料库是始建于20世纪60年代初的美国Brow n大学当代美国英语标准语料库(简称Brow n语料库),由Brow n大学的Franci s N el son和H enryKucera发起。Brow n语料库的规模达到100万词次( 共1014232词次) 选取美[ 亘1961年的一些出版物为语料110l 。从此,大量的英语和欧洲语言的语料库开始出现。1989年Li taTayl or雨j 英语语料库的调查指出,当时全世界共有36个语料库存在【131。2.2双语( 或多语) 平行语料库随着现代语料库和自然语言处理的发展,20世纪90年代初开始出现一种新的类型的语料库一双语溅多语)平行语料库,以及一些基于平行语料库的自然语言处理方法和技术[ 121[ ” 1。关于双语( 或多语) 平行语料库的研究层出不穷,包括双语平行语料库的建设,涵盖设计、采集、编码和维护管理等问题;平行语料的不同级别的对齐技术( al i gnm ent) :研究双语平行语料库在自然语言处理以及信息检索中的各种应用。所谓平行语料库是指由一种语言的原始文本和它在另一种( 或多种) 语言中的翻译文本组成的双语( 或多语) 对照的语料库。下面的表2.1为一个英汉烈语语料【未经加工) 的示例:7 新疆大学硕:L论文表2.1N 语平行语料库M auki nd i s about to ent er the 21st人类历史即将进入二十一世纪。把一个centuryof i tshi story.Iti s theaspi rati on和平、稳定、繁荣的世界带入新世纪,是中of the Chi nesegovernm entandpeopl eto国政府和人民的愿望。l ead apeaceful ,stabl eandprosperous处在世纪之交的重要历史时期,中国正w orl d i nto the newcentury.致力于现代化建设。中国需要并十分珍惜一At the turn of thecentury,al l个长期的国际和平环境。中国人民愿同世界i m portanthi stori calperi od,Chi nai s各国人民一道,为促进世界和平与发展的崇devoti ngi tsel f toi ts m oderni zati on dri ve.高事业,开创人类美好的未来,做出不懈的Chi na needs and cheri shesdearl yan努力。envi ronm ent ofl ongtermi nternati onalpeace,especi al l ya favorabl eperi phem lenvi ronm ent.The Chi nesepeopl earew i l l i ng,togetherw i th thepeopl eof theother col i ntri es i n thew orl d,tom akeunrem i tti ngefforts for thel oftycause ofprom oti ngw orl dpeaceanddevel opm ent,and fori ni ti ati ngagl ori ousfuture form anki nd.最近十年间,欧美一些国家的学者们构建了许多欧洲语言的双语( 多语) 平行语料库㈣。双语平行语料库如:加拿大议会议事录语料库( The Canadi an H ansardCorpus) :英语一法语双语平行语料库,语料来源于加拿大议会保存的辩论记录。该平行语料库是最早建立的平行语料库之一,在平行语料库对齐的研究中被许多学者广泛使用。英语一挪威语平行语料库(TheEngl i sh-N orw egi anParal l el Corpus) :O sl o大学构建,该平行语料库包括一个核心语料库和一个增补语料库。核心语料库规模达到大约260万词次,语料为挪威语到英语或者英语到挪威语的翻译文本;增补语料库包含一些并不互译但在文章体裁和类别上兼容的般语文本。M ILLE语料库:包含三个双语平行语料库(Punj abi /Engl i sh,Syl heti /Engl i sh,Chi nese/Engl i sh) 。f13M cEnery等人T1998年在Lancaster) t学的M ILLE项目中开始构建,为了调查利研究英国的非本士少数民族语言的语料库资源的发展。另外,多语平行语料库如[14J :I Tu CRATER语料库:一个包含i 种语言( 英语、法语和西班牙语) 的三语平行语8 新疆大学硕士论文料库,构建于Lancaster大学的CRATER项目中,语料来源于国际电信协会(删)报告。每种语言包含100万词,并且进行了PO S标注和句子对齐等加工。M U LTEXT-East语料库:一个包含六种东欧语言( 保加利亚语、捷克语、爱沙尼亚语、匈牙利语、罗马尼亚语和斯诺文尼亚语) 的多语语料库,总共约200万词。圣经语料库( TheBi bl eCorpus) :一个包含九种语言( 英语、法语、丹麦语、芬兰语、希腊语、拉r语、瑞典语、磺班牙语和越南语) 的多语平行语料库。由马里兰大学的Resni k等人构建。一“ Agenda 21” 语料库:一个包含四种语言f荷兰语、英语、法语和德语) 的四语平行语料库。构建于荷兰Tw ente大学的Tw entyO neProj ect中。语料来源于官方的 Agenda 21” 会议文献,并且经过了句子对齐。2.3平行语料库及句子对齐的意义平行语料库作为一种特殊的语料库,对于基于语料库的机器翻译、人机互助的翻译、机器翻译评价工具、跨语言信息检索、双语短语词典编纂和词义消岐等研究具有重要意义。在平行语料库的加工中,研究不同级别的对齐技术是一个重要的中心课题。所谓对齐指的是,将平行语料库中两种( 或多种) 语言之间的互译片断或单元建立映射。按照对齐单元的粒度划分,对齐可以分为段落对齐、句子对齐、短语对齐和单词对齐。对齐不仅是进一步利用平行语料库获取一些语言知识的必要前提,也是EBM T莆J 用双语知识的重要前期处理【15j 。本节将结合基于实例的机器翻译介绍平行语料库及句子对齐在机器翻译中的应用。2.3.1平行语料库及句子对齐在EBM T中的应用在基于规则转换的翻译系统中,源语言分析是通过把当前句子与规则进行合一匹配而完成的,而在基于实例的翻译中,这个规则台一匹配过程变成了源语言句子与存储的例旬进行匹配的过程。EBM T的基本思想是:预先构造由双语对照的翻译实例组成的双语平行语料库,然后翻译过程使用一个搜索和匹配算法在平行语料库中寻找最优匹配的翻译实例,最后根据该实例的译文构造当前所翻译单元的译文19J 【” l 。EBM T的思想最早由日本学者N agao在1981年提出。N agao探讨了外语初学者的基本模式,发现初学外语的人总是记住最基本的英语句子和对应的日语句子,而后做替换练习。因此,参照这个学习过程,提出了基于实例的机器翻译思想:( 1) 人类不通过做深层语言学分析翻译句子。( 2) 人类的翻译过程:首先正确分解输入句子,分解成短语碎片( 也许是9 新疆大学硕士论文格框架单元) ,接着,把这些短语碎片译成其它语言短语,最后把这些短语构成一个长句。每个短语碎片采用类比的原则进行翻译。本质上,EBhfl r采用类比的机理来进彳亍自然语言的翻译。EBM T不需要对源语言进行“ 理解” ,但需要保存一个庞大的实例库,库中保存着大量双语对照的句子或短语。当需要翻译一个句子时,系统就到实例库中查找与之相似或部分相似的一个或多个源语言实例.识别出其对应的目标语言实例,并将这个句子表示成这些源语言实例的某种组合或变换,然后将同样的组台或变换应用于这些实例对应的目标语言,就得到了这个句子的目标语言译文( 图2.1) 。EBM T的翻译机制是建立在这样一个假设上的,即如果一个已经翻译过的语句再次出现,那么相同的翻译结果仍然极可能正确。比如,如果实例库中存在如下两组实例:Thi si s aredpen.这是一支红色的钢笔。lboughtsom eappl es.我买了一些苹果。这样,EBM T系统翻译句子I boughta redpen.时,它从实例库中匹配出a组的aredpen和b组中的l bought。并且识别出它们各自在目标语言中的对应“ 一支红色的钢笔” 和“ 我买了” ,然后进行组合,得到翻译结果“ 我买了一支红色的钢笔” 。,/一一\//一、( 目标语言实例库) ( 源语言实例库)\一一一7\r].J L厂丽丽]爿■ 万J L■ 鬲再磊i 萎丽]}珊二号[竺丝]/厂]_J L源语言句子。甬。 。一i。_L-]目标语言句子图2.1 EBM T的翻译机制语言学中认为.人类在学习语言的过程中,正是通过这种语言的组合关系与聚合关系来习得自己从未说过或从未听过的新句子的。EBM 磁某种程度上通过模拟人类学习语言的机理来进行自然语言翻译的思想,打破了以往基于规则的机器翻译RBM T限ul e.BasedM achi neTransl ati on) 方法以规则为主导的思路,为机器翻译的研究注入了新的活力I” 。EBM T是基于平行语料库的机器翻译方法,因此平行语料库及其对齐技术的研究是10 新疆大学硕士论文EBM Tt] .g, 耍蘸掇㈥。在EBM Tqb,寰璃静粒皮对予系统}l 鼋设诗嬲瞧鼹起菪荚键瓣作翊。一般崇{蘧,受霹予蔹嚣莠露鬻器攀l 掰穗子对齐缭暴采诗冀数落强汇阉熬对译程度,嚣嚣再利用单词在句子中的相对位置来确定每个源语词究竟对应哪个目标语词。遮时就凸显了句予对箨豹重要矬,句子慰弃可以说燕艇个对并技术中豹一个转搿点。2.3。2乎蜇语瓣簿及麓语霹莠庆辍嚣疆驻黧译孛瓣蕊愆人机互助的翻译方法认为,在现有的技术条件F要求机器翻译系统能够庇佥自动产生勰矮爨豹译交熬不瑗实戆,毽避过十夫辊之闽弱辐曩狳作竞全可趣竣避翻译震爨袋攥盎效率辫。飘爨辅秘麓译撰攒不霹躲艘璃菠爨X可努为A秘提译蠢}椒璇人译嚣令夫蕊骚兖方褒。选种方法的关键在予鞭找到在翻译过程中人和机器箨自擅长的翻译_步骤,势设计台理的翻译滤楗锼锝人釉机器怒够各尽掰糍,发挥他嚣I备自在秘译中的优势i ” 11” 】。瓣髓在极秘A译骞蘑罄研究主要集中予势攒人类簿秘译避瓣,我窭藏译港{i j 谯鹣译孛疑两撬城繁臻豹势动多骣,簸褥胃疆避遘撬谈鞠藏的辕秘工熬寒避兔这些重簸舅旗,鬟鑫翻译人员的工作效率。现有的比较蒋名的系统脊德因Trados公司的Transl atorW orkbench等。谨们致力于提供趄好的魏译记惦钒割莘珏一些惑效熬窳用工具,有数字表明,袋粥辅助工具可敬搜糖译A受的二£穆效率提舞30%-50%f151。程天赣梳译方磁壤疆入为手颈辩莰豹不麓霹势为三个研究领域:滓兹处疆、泽游交互年 译厝编辑。译前处理的含义魑酋先找出机器翻译系统可能秃法处理的歧义或者其它一些谢富瑷藩舞瑁A王避纾穆正,攥诞送入撬译系缀的缀文尽量瓣蒗,飙嚣袭善枫嚣翻译结莱的葳整。毽这秘方法辩操作入煲要求较高,并黩躲接在嚣文鲣正之瑟译文痿鏊瞧不一定裁貔满燕要求,翮样述箍要译爱编辑。囡诧这种方法麓有较大的缺陷。译闻交鬣是撩在视器翻译的过程中程磁剥机器无法处理的情况(如策姥情况的消蚁)时自动弹出搿日和操作者避抒交踅,壶A浓爨赘鳃决郅骛对人嚣言非常麓单锻慰予撬嚣张说极为复杂袋嚣溶解决匏阏悉。毽这秘方法既鬟纛裁在予爨要{手绥设计攥瓣魏砖梃,躲祭交爱过多,攘佟畿鬈爨惑剿厌域:l 作效率必然。F降。但知暴窝置太少,又窬秘降低译文的质麓。译后编辑娥指在机器翻撵结柬之箭由人对机译结聚进芎亍修正的过程。系统中应该提供良好的人机_交豆机制以方溪掰户薅魏译绻暴瀚修馥。舅静,系统还可以对译嚣编辑孛於太枫交互售患避撂鞭踩学辩,歇嚣改善系缎鹄浚8扩q。嗣前,机器辅勘翻译系统大多采确机助入潞的方式。系统保存⋯ 个双语的安例殍,在翻译过程中,计簿帆懑过搜索和旺骶算法在实铡席中查找与之相似蠛部分棚似的最忧匹配魏翻译窭铡强鬟参鸯,然后出翻译畿采最终生成译文。或者跨爨枫提供匐子、片段、零镬域攀遮l }孽藏译参考,繇译者不瓣骚蠢璃龚。魏聚袋{1j 嚣躅匀予辩斋疆来j 委先掬造句子级爨l l 新疆大学硕士论文的双语实例库,那么计算机就会准确地提供句子级译文。2.4句子对齐研究概述2.4.1句子对齐的意义1981年,M el by探讨了如何将已有的翻译结果存成电子文档为翻译者建立辅助工具的问题,并论述了利用双语语料库自动建立双语词汇索引的具体方法【l ” 。这可以说是第一个探索双语语料库利用技术的研究。在此之后,有关双语语料库的加工和利用的论文纷纷涌现,其中绝大部分研究可以概括为双语对齐研究:包括段落对齐、句子对齐、词汇对齐、和结构对齐这几个层次。首先引起研究者兴趣的是双语句子自动对齐研究。这是因为如果人们想获得更大规模的双语知识库,就必须先建立所获得的双语文本的句子层对译关系。而双语句子之间的对应关系除了大量的“ 1-1” 的情况以外,还包括“ 1.多” 以及“ 多.多” 的复杂形式,因而具有相当的技术挑战性。相对来说,双语文本的篇章和段落层次的对齐关系只存在“ 1-1”的情况,虽然有学者认为段落对齐也存在问题,但是这方面研究始终没有引起研究者的兴趣。有关双语句子对齐的第一批公开文献发表于1991年【l ⋯ 。有趣的是,其中两篇文章同时背对背地发表在当年的计算语言学学会年会的论文集中。二者的方法实际上几乎相同,都是利用了源文和句子长度的相关性,采用了只考虑长度信息的统计模型和动态规划算法。主要区别在于Brow n按照词数计算句子长度,而G al e和Church是依据字母数量计算句子长度。这种基于长度的句子对齐方法的主要优点是无需双语词典等外部语言学资源,具有语言的独立性。主要缺点是错误蔓延以及不能发现译文缺失,鲁棒性和可靠性比较差。解决句子自动对齐的另一个思路是基于词汇的方法Il “ 。这方面的工作以Kay和Chert的工作为代表。他们的方法都是先采用某些启发信息来自动计算双语语料中的词汇对译关系.再利用这些初步的词汇对应信息来计算句子对齐,而后利用刚得到的句子对应关系重新计算词汇对应。重复这一过程直到收敛状态。这种方法一般可以得到比较可靠的结果,但是计算的过程十分复杂,时间较长。综合上述两种方法的优点,研究者们提出了很多基于混合策略的句子对齐方法,其基本思想都是要建立某个支点或找到很多基于混合策略的句子对齐方法,其基本思想都是要建立某个支点或找到一些词做为“ 锚点” 来提高对齐精度。Si m ard等人率先提出了在长度标准上加上同源概念( Cognate) 来提高算法的性能印l 。同源是指双语文本中某些语言符号具有相似的音系特征、书写特征或语义标志,因此这些语言符号极有可能是互为译文。12 新疆大学硕士论文随后不少学者进一步针对差别较大的语言( 如英Et、英汉) ,探索了如何在以长度为基础的句子对齐模型中融合词汇信息。句子对齐研究中值得注意的一个现象是,虽然有些方法直接引入了双语词典,但是研究者普遍认为双语词典不能胜任句子对齐问题。二十世纪九十年代的电子双语词典十分有限,Kay和Chen[ 1s] 等人放弃直接使用双语词典解决句子对齐是理所当然的选择。但是,随着目前双语词典规模的扩大以及众多的在线双语词典,直接利用双语词典解决句子对齐问题成为了一个现实的选择。能否利用烈语词典设计出基于内容的句子对齐模型的理论探索价值重新引起了研究者的重视。和句子对齐相比,词对齐是敢语语料对齐的一个热点问题。由于具有比较直接的应用价值,所以这方面的研究吸引了众多研究者的注意。一般来说,词对齐常常要利用句子对齐结果来计算双语词汇间的对译程度,而后再利用单词在句子中的相对位置来确定每个源语词究竟对应哪个目标语词。尽管这种基于统计的方法取得了初步成功,但需要相对较大规模的双语语料。随后研究人员提出利用语言学知识来指导_烈语词汇对齐研究。这方面的探索有:Changl l 7] 提出的根据单词的词性信息进行汉英单词对齐的方法、Ker提出的基于语义类的词对齐方法、Fung提出的一种基于单词出现规律的部分词汇对齐方法、我国中科院软件所研究人员提出的句块边界信息进行词汇对齐的方法等等。尽管目前还有很多难题有待解决,但词对齐无疑是双语对齐中很有价值的研究。在句子对齐和词汇对齐研究之后,双语对齐中最具有挑战性的课题结构对齐就摆在了研究者们的面前【l “ 。所谓双语结构对齐就是对双语句对进行深层分析并给出两个句子之间的句法结构对应关系。结构对齐中常用的策略是“ 分析一分析.对齐” 的方法,即先对两种语言分别进行句法分析,而后再利用词汇对译信息进行短语结构的对齐。但是,由于自动句法分析问题远未解决,句法分析的精度不高,所以自动结构对齐的结果还不能令人满意。多年来人们对此问题进行了不懈的探索,如利用l TG( 1nversi onTransducti onG ram m ar)文法对双语句对同时进行句法分析和对齐的结构对齐方法。该方法把句法分析和结构对齐统一在一个形式文法框架下,并可以使用统计模型来实现,因此极具潜力。该方法的难点在于需要预先获得一个硬语语法,而这种双语文法是取语研究中仍在探索的问题。这样看来,目前烈语结构对齐研究的主要困难在于缺乏精确、可靠的句法分析器,加之不同语言的结构差异会造成双语句对的句法分析结果中本身存在很多不匹配的结构,所以该问题的解决还有待时日。总体看来,目前双语语料的对齐研究中,句子对齐问题即使还没有被完全解决,但也可以说研究得非常透彻了,可是句子以下层次的对齐研究远远不能令人满意。正如Debl i和Sam m onda指出,随着双语文本研究的不断细化,由章节到段落,由段落到句子,再由句子到词,最后由词到字符一级,句子级的对齐] :作是一个转折点。 新疆大学硕=b论文目前句子对齐处理的对象主要有两类:带有噪声的双语文本和无噪声的双语文本。带有噪声的双语文本主要是通过O CR等方法自动获得的语料,对于它们的对齐加工只能通过计算一个文本中的某些位置和另一个文本中的某些位置的对应关系,大致给出文本片段的对齐信息1151。而所谓文本片断并不是一个严格的文本单位,可以是一个句子的一部分,也可以包含多个句子。相比之下,无噪声的双语文本是双语句子对齐的主要研究对象,而且其目标是要找到正确的对齐句珠序列。本文重点是处理已经形成电子文档的汉维双语语料,所以句子对齐的目标是相对没有噪声的文本。根据计算内容的不同,用于这一目的的双语句子自动对齐可以分为:使用句子物理特征的基于长度的方法、使用句子内容的基于词汇信息的方法以及综合采用两种信息的混合策略。2.4.2基于长度的句子对齐方法第一个成功地应用于大型双语语料库的句子对齐算法是由Brow n,G al e和Church等人提出的【21】瞄】。其基本思想都是句子的氏度越接近,他们就越有可能成为对译句对。Brow n的对齐算法主要依靠句子中的单词数量,而单词本身形态和意义都被忽略了。在此基础上Brow n等设计了概率模型,并选择最大概率路径作为对齐输出。这一模型的参数包括句珠类型概率p( eaA(c8表示a个英语句子,fb表示b个法语句子)和长度对应概率P( “ k) ( k表示英语句子单词数,k表示法语句子的单词数) 。这两个参数从已经对齐的英法句对中经统计得到。据实际对齐经验,Brow n等只考虑了( e8,n{(1,O ),(o,1),(1,1),(1,2),(2,1),(2,2)}的情况。从而,这个优化问题可做为动态规划中的一个标准问题得以解决。由于动态规划算法的时间复杂性至少是O ( m xn) ( [ 11,n分别代表待对齐的双语语料中硒种语言的句子数) ,所以对于上百万的双语语料来说该算法还不能直接应用。需要事先将待处理的双语语料进一步切分成较小的处理段,以缩短所需的计算时间。为此Brow n等人进一步提出了锚点( anch00的概念来进行双语语料的粗分割。所谓“ 锚点” 就是一段比较容易识别的文字,并且极有可能在烈语中每种语言的同一位置上出现。例如,Brow n等人注意到在H ansard语料中类似“ Author=M r.Cossi tt” 和“ Ti m e=( 14:15) ” 等片语不时在英语语料中出现.并且对应的法语译文在法语语料中也出现在相应的位置上。这样,Brow n就以这些片语作为锚点,应用对齐算法先针对这些锚点进行对齐,而后再对各个锚点间的句子进行对齐123112“ 。G al e和Church的方法与Brow n等人类似,不同之处在于Brow n计算的是句子内的单-间数,而Gal e等人计算句子中的字母数。除此之外,Gal e等人也没有使用最大概率模型,14 新疆大学硕士论文而是赋予每种对齐一个长度值,并搜索最具有可能的艮度对齐序列作为输出。同样,G al e等人仍然采用的是动态规划算法,并预先把双语语料分割成较小的待处理的片断。随后,香港学者吴德凯把该方法引入汉英双语句子对齐。虽然汉英语言差别较大,但是实验结果说明该方法用于汉英还是大致可行的[驯。尽管这些算法都取得了比较令人满意的结果,但仍有亟待提高之处。例如,按照上述方法进行计算,在H ansard语料库中的“ M r.M cZnni s。----*M .M cZnni s” 和“ M r.M cl nm i sM .Saunders” 的对齐概率是一样的。因此,这些算法很有可能在某一语言偶然丢失一句的情况下,因为下一句词或字母数相同,而造成连续的错误对齐。而且对于某种语言结构,如果在一文中的单词数与原文出现了较大的偏离的话,也同样会造成错误地对齐。总体来说,这种基于长度的算法鲁棒性不好,并且由于忽视了词本身的特征而容易造成根本不相关的对齐结果。2.4.3基于词汇信息的句子对齐方法与基于跃度的方法相比,利用了词汇信息的对齐算法更有可能得到精确的结果。这方面的工作以Kay和Roschei sen的算法为代表p1。Kay等人采用了松散范例( rel axati onparadi gm ) 来进行对齐。他们首先利用“ 源语句子于目标语译文的位置应该大致相同” 这一特征,记录所有可能的对齐句对。在得到这样一个非常庞大的候选对齐初始集合后,他们采用单词的分布信息粗略地推算每个单词的译文。而后使用这种租略的单词译文,对待选集和进行一定的删减,并再一次推算每个单词的进一步译文。这一过程循环进行直至收敛。然而,这一算法对大规模双语语料的加工处理不合适,Kay等人的实验仅包括大约1000个双语句对,而大规模双语语料常有上百万句双语句子有待对齐。在此之后,Chen[ 181提出了~种利用翻译模型进行双语句子对齐的方法。该方法认为:虽佳句子对齐序列就是在给定的翻译模型下产生该双语语料概率最大的句子对齐状态。为了提高系统性能,Chen的翻译模型仅考虑7( 1:o) 、( o:1) 和( 1:1) 的词对词的翻译模型。在动态规划算法中也只考虑可( 1:0) 、( 0:1) 、( 1:1) 、( 1:2) 和( 2:1) 这几种句子对齐情况。通过该方法和G al e的方法对加拿大议会烈语语料处理的不同结果,Chen估计该方法总体错误率约在0.4%左右。Chert认为,该方法比上述基于欧度的方法和Kay的方法更快、更准确、鲁棒性更好。在此之后,研究人员发现上述词汇方法对于结构不同的双语短文本效果不佳,于是开始采用其他方法来获取词汇对应信息,如直接引入双语词典信息以及采用词汇信息等。台湾学者陈光华( 音译) 仔细研究了“ 基于词汇的对齐算法” ,该方法以关键词性( 名词、动词和形容词) 的对齐数目为标准,采用模拟退火算法,实验对象是一个中英文出版的杂15 新疆大学硕士论文志中的10篇文章。结果表明,该算法对于G al e等人忽略的( 1:3) 、( 1:4) 和( 2:4)等句子对应现象能够进行较好的处理。但是,上述基于词汇信息的最大问题就是搜索空间比较大,获得词汇对应信息的代价比较高。而为了克服这一问题,算法中往往不得不减少所考虑的词汇对应信息的范围(或者简化计算模型或者直接引入外部词典) 。这又往往导致所计算的内容不够充分,信息不够准确,从而降低精度。再加上上述大部分方法的实验规模较小,所以到目前为止基于词汇的方法还没有引起研究者的充分重视,,对它的研究还很不充分。2.4.4长度和词汇信息相结合的句子对齐方法为了解决基于长度的方法和基于词汇的方法所存在的问题,研究者们近来都致力于如何在民度信息的基础上更充分地利用词汇信息的研究。1992年,Si m ard率先提出利用同源词( cognate) 作为廉价语言知识,来增加文本中的可靠“ 锚点” ,以提高对齐精度口q。同源词是指西方语言中拼写和意义十分相近、因而十分可能互为译文的词对,如“ error/el Teur” 。由于东方语言和英语结构差异较大而造成跃度关联降低,引入词汇信息的句子对齐思想很快引起了中、日学者的重视。但是由于不同语系的语言之间很难找到同源词,所以相关研究相对集中在如何获取有限的比较可靠的词汇对应信息,并把它结合到基于长度的计算模型中。这方面的研究包括:香港学者在完成长度对齐的初步实验之后,利用了特殊此表( 包括机构名、称呼、日期等) 和长度方法相结合来改进对齐精度;清华大学的研究者采用自动抽取词汇信息的双语句子对齐,他们根据一对一的句珠正确率较高的特点,使用删算法从中计算出一些可靠的对译词表,而后利用这些词汇信息重...

  肺间质纤维化合并肺气肿病人血清TNF-α、IL-10和CRP作用、意义及其与吸烟相关性研究

  肺间质纤维化合并肺气肿病人血清TGF-β、VEGF、IGF-I作用、意义及与吸烟相关性研究

  肺表面活性物质蛋白B基因单核苷酸多态性与新生儿呼吸窘迫综合征的相关性研究

  肺表面活性物质治疗胎粪吸入综合征监测SP-A、SP-D、TGF-β1的含量及意义

  肺表面活性物质对胎粪吸入综合征患儿血管内皮生长因子及血小板源性生长因子的影响

http://poisondarts.net/shuangyuduiqi/176.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有