您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 双语对齐 >

器翻译评测的万句中英平行语料库 中科院自动化所开发了万旬对齐

发布时间:2019-05-20 11:40 来源:未知 编辑:admin

  器翻译评测的万句中英平行语料库 中科院自动化所开发了万旬对齐的中英双语语料库 哈尔滨工业大学开发了万句对齐的中英双语语料库等。北京大学还建立了万句 中日平行句对语料库。但对于其它语言对之间的双语平行语料库的报道还不多见。 目前国内双语平行语料库的建设和研究工作主要侧重于语料库的对齐加工标注、 多级自

  器翻译评测的万句中英平行语料库 中科院自动化所开发了万旬对齐的中英双语语料库 哈尔滨工业大学开发了万句对齐的中英双语语料库等。北京大学还建立了万句 中日平行句对语料库。但对于其它语言对之间的双语平行语料库的报道还不多见。 目前国内双语平行语料库的建设和研究工作主要侧重于语料库的对齐加工标注、 多级自动对齐技术和双语平行语料库在机器翻译以及翻译知识获取等方面的实际应 用技术 各研究单位的中小规模重复建设也消耗了大量的人力、物力和财力 而对大 规模原始双语语料库的系统性构建这一工作却关注较少。因此 研究如何构建可持续 增长的、大规模的、多领域的双语平行语料库对减轻人工搜集的劳动成本 推动相关 研究继续发展具有重要的实际意义。 基于平行网页对的平行语料库的建设 基于相同站点内部的平行网页对建设平行语料库 以中英平行语料为例 基于平行网页对的平行语料获取是指从互译的中文网页和 英文网页之间来获取平行资源 因此也可称为从网页间抽取平行语料。该方面目前已 有一个相对可行的解决方案 国内外也出现了一系列的原型系统在这个领域做了很多 引导性的工作 研究了一套切实可行的流程来获取平行网页对 并且普遍都取得了很 高的准确率和召回率 接下来将详细介绍几个著名的系统 并比较其采用的技术与性 能。由加拿大蒙特利尔大学的研究者聂建云开发。 “中文版等锚 通过搜索引擎查找含有特定锚文本如网页中的“ 文本信息的网站作为含有单语平行网页对的候选站点 再依赖预先定义的与语种相 关的前后缀表 抽取出具有命名相似性的候选网页如 则根据前后缀表将其替换为与另一种语言的前后缀如“替换成“如果 这样构建出来的确实存在 则认为找到了一对候选平行网页对。最后再根据网 页文本长度、网页的标签结构、语言等特征进行深入验证 过滤掉候选集合 第一章绪论 基于的大规模平行语料库构建方法研究 中的伪平行网页对。采用人工评价平行网页对的验证效果 系统有将近 的准确率。最终获取到英文文本有 中文文本有。只涉及篇章对 并未涉及到段落、句子、短语等多层次的资源对齐工作。由美国 马里兰大学的研究者开发 也是利用搜索引擎和锚文本信息得到候选的双语 网站。与相比不同点在于 系统在利用命名相似性来获取一 个网站内的候选平行网页对时 采取在中、英中删去预先定义的与语言相关的 字符串的方式 而不是系统中采用的替换方式。如果去除了语言相关的字串 的对完全相同 则认为当前中、英对是一对候选单语平行网页对。此外 系统更加深入的研究了平行网页对在结构上的高相似性问题 采用 了一系列基于网页结构特征来过滤掉候选集合中非平行的网页对。随机选择个中 英平行网页对进行评估 系统取得了 的准确率和 的召回率。 系统共获取到大约对中英平行网页 但是也没有涉及到段落、句子、 短语等多层次的平行资源对齐工作。系统是采用基于内容的方式来获取平行网 页对的。首先下载指定域名下的所有网页作为候选集 然后定义了计算网页内容相似 度的方法 即计算互译词占文本总词数的比例 最后为每个中文网页选择相似度最高 的英文网页来构成中英平行网页对。实际上 系统基于系统 它利用 系统将潜在的候选网页下载下来 然后提出新的方法进行网页对齐 法引入了一些与语言相关的知识因此对齐的质量也有所提高。 系统是由澳大利亚莫纳什大学陈纪淞等开发的 首先使用网页采集器下载指定双语网站下的网页集合 然后通过以下两 个步骤来获取平行网页对 采用系统中的原理 通过文件名比较模型即 根据的命名相似性来得到平行网页对 对不具备命名相似性的网页通 过一个文件内容分析模型抽取出平行网页对 该模型定义了如何计算网页文本内容之 间的相似度类似。系统共获取到对中英平行文本 其中对是正 正确率为召回率为 由微软亚洲研究院的吴克等开发。该系统在利用搜索引擎获取候选网站时 不仅利用了锚文本信息 还使用了图片的肛 基于的大规模平行语料库构建方法研究 第一章绪论 信息。而在根据命名相似性获取候选平行网页对时 采用将分成 如图所示 其中的配对查找也是利用预先定义的启发式字符串 并在具体的查 找时定义了一些匹配规则 而的查找配对则是基于改进的最小编辑距离算 法。在过滤候选平行网页对的环节除了采用文本长度、网页结构等特征之外 还引入了一个基于网页内容的特征 即候选网页对内部进行了更细粒度的句子级别的 对齐。在与同样的测试集合上 系统取得了 的正确率与 的召回 率。实验结果证明这种处理方法取得了更好的网页对齐效果。 以上的系统都是止步于对齐平行文本 而没有讨论如何进一步获取平行句对。而 文献【】中叶莎妮等一方面致力于改进网页对的对齐技术 提出一种能够自动发现当 前站点的作者命名平行网页对的特点 进而再进行候选平行网页对的获取 该方法完 全不需要预先定义语言相关的字符串集合 另一方面还给出如何进行平行句对获取的 初步解决方案 利用提供的工具对两个网页的标签序列进行对齐 那么处于互相对齐的标签之间的文本 就可以看作是互相对齐的即互为翻 译的文本 根据这个假设就可以抽取出双语平行资源对。另外 他们还使用了位置、 标签等信息过滤噪音候选 但得到的双语资源对的对齐效果也不尽理想 主要 有以下几个方面的原因 已有的句子对齐模型都是针对普通文本而设计的 不适用于网页文本 无论是平行网页对还是混合网页除了包含一些互为翻译的内容 都还会包 含一些无关的噪声信息 例如广告信息、导航信息等 存在很多超出双语词典覆盖范围的词汇即未登录词 影响了对齐效果。 基于跨站点的平行网页对建设平行语料库 上述的系统都是从相同站点下的平行网页对获取平行资源 还有一些相关工作是 基于跨站点的平行网页对来获取平行文本。以新闻网页为例 如果一些新闻报道中包 第一章绪论 基于的人规模甲行语料库构建方法研究 等锚文本信息 则说明当前文本 含“根据外电报道”或“ 很可能对照于其他站点下的某文本 即内容相关或者完全平行 只是叙述语言不同而 已。与对齐相同站点下的网页对相比 对齐跨站点网页对是个更困难的任务 因为如 上所述 相同站点内部的网页对的结构相似性以及的相似性都很高 是不同站点下往往会采用截然不同的布局方式所以跨站点的网页结构相似性很低 且完全不具有相似性。因此针对“跨站点”这一特殊性 必须适应性地提出新 的网页对齐方法。 对于跨站点的网页 既然结构和都不能提供任何判断平行性的有用 信息 一些研究创新性地提出仅仅从语义角度来判断网页对是否平行 例如文献【 等。这些研究除了在局部算法上有所区别之外 工作流程基本相似 主要包含两个环节 平行网页文本对的检索 首先提取源语言网页文本的关键词集合可以看作是源语言文档的描述 并将 其翻译成目标语言构成用于下一个任务的查询词 然后采用信息检索技术就可以 从数据库中检索到一批相关的目标语言文档集 其中每一篇文档就可以与源语言文档 形成候选平行文档对。 平行句对的获取 基于候选平行网页文本对 一方面可以运用成熟的句子对齐工具来直接抽取平行 如文献【。另一方面还可以在【 的抽取结果上通过分类器或者翻译 置信度度量来过滤掉一些噪音 进而获取翻译质量更高的平行旬对 如文献。 在上述第一个环节中 成熟的信息检索技术已经有很多如文献【】采用的 信息检索工具包 文献【】使用的相似度计算方法 文献 采用的余弦相似 度计算方法等 难点是基于源语言文档如何构造出非常有效的目标语言形式的查询 因为查询词的质量越好越有可能检索出与之真正平行的文档 系统的性能会越 好。文献提出首先按照把源语言文档中的所有词进行排序 然后翻译基 于双语词典翻译前 个词作为目标语言形式的查询词。文献贝提出首先要把源 语言文档通过翻译器通篇翻译 然后再用把译文中的所有词进行排序 个词构成查询词。文献【】仅仅考虑提取源语言文档中的命名实体短语然后 将其按照排序 最后翻译前个命名实体短语构成查询词。 基于的人规模平行语料库构建方法研究 第一章绪论 为了提高检索效果 在文献微软亚洲研究院的等提出必须对目标 语言形式的关键词进行重排序因为该方法是在关键词已经按照排序的基础 上展开的 所以被称为重排序方法。由于无论是基于词典还是基于翻译器的翻译质 量都不是很高 所以该方法提出重排序的环节必须把翻译置信度等因素也考虑进去 例如翻译正确的概率越高 则相应的目标语言形式的关键词被排在靠前的次序上 似的如果关键词与文档主题密切相关 则其也必须被排在靠前的次序上。其实验效 果明显优于【一】等相关工作。 基于双语混合网页的平行语料库的建设 双语混合网页是指这样一类网页 在该类网页内部含有两种语言描述的且互译的 内容 即互译的信息同时出现在同一个网页内部。这里 “混合就是指两种语言描 述的内容交错出现于同一个页面 所以基于双语混合网页的获取方法又可以视作从网 页内部的平行资源抽取。 双语资源的另一个重要的且应作为主要来源的网络资源是双语混合网页 但目前 国内外关于从双语混合网页内部抽取平行资源的研究很少。中国科学院的叶莎妮等尝 试通过预定义一些关键词通常为锚文本信息 例如“双语新闻、“双语学习、“双 语阅读、“情景对话等 然后利用搜索引擎来获取候选双语混合网页集。同时他 们发现不仅大多数该类网页中本身就含有对照的双语资源 还通常会含有指向其他双 语混合网页的链接。因此以这些网页作为种子页面 深度下载相关链接就可以获得更 多的候选双语混合网页。例如 以“双语阅读为关键字 通过搜索引擎检 索得到不重复的个页面。其中 确实为中英对照或者含有指向其他中英对照页面 链接的网页有个 无效或不存在页面有个 剩下的个页面中大部分是中 法、中韩、中日以及中俄等不同语言对之间的混合网页。但是该方法严重依赖于预定 义的关键词集合 并且该关键词集合的规模、质量等直接影响到系统最终获取的双语 混合网页的数量以及质量。该方法为如何基于获取双语混合网页提供了一个初 步的、简单的解决方案 但该文献没有详细给出如何从双语混合网页内部抽取平行资 源的方法。 针对双语混合网页内部的平行资源的存在特性 文献】中微软亚洲研究院的蒋 龙等提出一种基于模板的方法来获取平行资源 即通过学习少数双语平行资源在既定 第一章绪论 基于的大规模平行语料库构建方法研究 网页内部的存在形式构建抽取模板 进而获取整个页面内所有潜在的平行资源。我们 知道 世界上没有任何一个双语词典能够覆盖所有实体词汇 例如包含了一定数量未 登录词的平行句对问的翻译得分其实并不会很高 因此未登录词的存在会影响对齐效 果。蒋龙等提出的方法就是考虑到这一问题 希望通过学习翻译得分较高的平行资源 对的存在形式 自动构建抽取规则 进而获取到其他潜在的平行资源对包括

  基于Web的大规模平行语料库构建方法研究(可编辑),平行语料库,英汉双语平行语料库,英汉平行语料库,大规模平行测序,语料库,北大语料库,王陆语料库,ccl语料库,语料库在线

http://poisondarts.net/shuangyuduiqi/14.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有