您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 双语对齐 >

自然语言处理期末复习(7)平行文本与机器翻译

发布时间:2019-07-30 20:33 来源:未知 编辑:admin

  1.按照语料库所涉语种,语料库可区分为(1)单语语料库 (2)多语语料库: 由多语平行文本组成

  2.双语对齐处理在两种语言文本的不同语言单位之间建立对应关系,确定源语言文本中哪个(些)语言单位和目标语言文本中哪个(些)语言单位互有翻译关系。

  3.自动双语对齐处理指的是通过一定的算法,由计算机在双语文本间建立对齐关系。

  1.概念:在双语文本间建立句子一级的对齐关系,就是要确定源语言文本中哪个(些)句子和目标语言文本中哪个(些)句子互为译文。

  (1)依据:--互为翻译的两个句子在长度上高度相关。--翻译时,句子顺序不做剧烈改变。(不考虑交叉)

  (2)在已知参数c和s2以及Prob(match)后,即可计算最佳对齐。枚举文本间所有可能的对齐,分别计算距离,选择最佳对齐

  2.统计对齐的任务,就是从众多的对齐中找出概率最大的对齐,即韦特比对齐。

  (2) IBM模型二:原文与译文对应的概率为不等的概率,依赖着原文的词位。

  (3) Vogel的类HMM模型翻译具有局部性,原文中邻近的词译成其它语言时,译词大多数情况下仍然保持较近的距离,类HMM模型对此作了考虑。

  (4)基于繁殖率的模型: 一个译文单词t对应的原文单词的数量称为t的繁殖率

  理论上当然可以枚举所有对齐方式,对每种对齐方式,计算P(S, AT),在寻求值最大的对齐。实际上不现实。

  (1)对于IBM模型一、二而言:顺次为每一个原文单词sj选择一个能使t(sjti)取最大值的ti与之对应。

  – 基于统计的机翻译通过建立、训练统计翻译模型、并进而基于统计模型进行翻译。

  • 5基于实例的方法:通过模仿实例库中已有的译文基于类比的策略进行翻译。

  – 当需要翻译一个新句子时,通过检索的办法在实例库中寻找和该句类似的翻译实例。

  在上一步预处理完成之后,平行句对中的中文部分都被切分成了相应的短语,而英文的大小写、格式、相应的空格也都加上了,在这之后就可以完成词语对齐的过程了。词语对齐的目标是得到中英文词或短语的对齐信息,便于翻...博文来自:寒小阳

  最近看了一些关于自然语言处理方面的书,对其很感兴趣,在昨天晚上搞到了深夜,总算功夫不负有心人,现在基础环境已经搭建完成,闲言少叙,现将搭建的具体过程和遇到的问题分享给大家。基础环境:windows 7...博文来自:展翅高飞,点滴成长

  第三部分隐马尔科夫模型与词类标注1.定义:如果给定一个观察序列(不同颜色的小球序列),不能直接确定状态转换序列(坛子的序列),因为状态转移过程被隐藏起来了。所以这类随机过程被称为隐马尔科夫过程。2.词...博文来自:kangyucheng的专栏

  自然语言处理复习汇总(南京大学)标签(空格分隔):自然语言处理参考书籍:统计自然语言处理–宗成庆自然语言处理复习汇总南京大学参考书籍统计自然语言处理宗成庆统计语言模型N-GramNeurallangu...博文来自:LYF1993的博客

  1.EBMT方法1.1传统的EBMT方法有五个步骤1、先将英文源篇章分解为若干短句。然后再分为若干短语片段(分句)2、将短语片段在一个英文实例库上进行匹配,得到包含该短语且语义最接近(需要语义词典)的...博文来自:lampqiu的专栏

  一、n元模型1.语言建模:根据给定的语言样本估计概率P(s)的过程2.语言模型:根据语言样本估计出的概率分布P称为语言L的语言模型。3.马尔科夫假设:词wi的出现只与其前n-1个词有关4.n元组(n-...博文来自:kangyucheng的专栏

  总结下一步分词与词性标注研究习题博文来自:weixin_34249678的博客

  随着三月初蚂蚁金服内推开启,整个暑期实习生招聘大幕也正式打开,这一场从三月初持续到之后五月的笔试面试过程,确实让笔者真真切切的感受到基础的重要性,面试和笔试不仅从机器学习,自然语言处理,数据结构与...博文来自:王琨的博客

  准备双语语料zh.txt:源语言海洋是一个非常复杂的事物。人类的健康也是一件非常复杂的事情。将两者统一起来看起来是一件艰巨的任务。但我想要试图去说明的是即使是如此复杂的情况,也存在一些我认为简单的话题...博文来自:藏知阁

  Gale和Church在1993年提出了一个基于长度进行句对齐的算法,并在附录里公开了C源代码。这篇论文相当经典,以至于之后的关于句对齐的论文大多数要引用它。论文的题目是《AProgramforAli...博文来自:WUTab的博客

  首先来回顾之前用到的两种seq2seq模型(sequencetosequence)(1)和(2)编码器结构完全相同,只不过(1)使用的是单向LSTM,(2)使用的是单向的GRU,二者的重要区别在于de...博文来自:WYXHAHAHA123的博客

  一个完整的文本分类器主要由两个阶段,:一是将文本向量化,将一个字符串转化成向量形式;二是将向量喂到分类器,包括SVM,CNN,LSTM等等。这边做的项目其实阶段用的是tf-idf来进行文本向量化,使用...博文来自:Nine0820的博客

  目录1.词向量的one-hot表示2.文本表示:词袋模型3.文本表示:TF-IDF1.词向量的one-hot表示拿英文举例,英语中大约有1300万个词组(token),不过他们是完全独立的吗?显然不是...博文来自:sdu_hao的博客

  自然语言处理当中评价指标很多,好多专用的术语,本篇旨在对常用的评价指标汇总,督促自己系统学习,大家当做参考不足之处请指出并做交流。文本分类评测指标如下:P-R曲线的比较:对于A和B曲线,如果需要比较,...博文来自:极客梦的专栏

  简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在...博文来自:技术博客

  平行语料库,用于机器翻译等的预处理语料。 汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用

  作者:JasonBrownlee翻译:梁傅淇本文长度为1500字,建议阅读3分钟本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接,对于有志于练习自然语言处理的新手而言,是极有帮助的资源。在...

  宗成庆著统计自然语言处理,包括统计学习的基本概念和自然语言处理的相关知识。

  360实习生面试过程:18年2月初去的360面试,这是第一次去大型互联网公司面试,也只是抱着试试看的念头,但是年后HR给我打电话说我通过了,然后就没再准备其他公司的,一心等3月多去公司。结果,一直没等...

http://poisondarts.net/shuangyuduiqi/182.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有