言语模型预练习是一种经过使机器学习体系依据其上下文猜测单词来“教”机器学习体系将其上下文明的技能,该技能已经在一系列自然言语处理方针方面取得了前进。可是,像Google的BERT这样的模型在规划上是双向的(意味着它们学习了词的左和词的上下文来构成猜测),因而不适合进行很多修正而生成自然言语的使命。
因而,Microsoft Research的科学家研讨了一种称为UNIfied预练习言语模型(UniLM)的代替办法,该办法能够完结单向,序列到序列和双向猜测使命,而且能够针对自然言语的了解和生成进行微调。他们宣称它在盛行的基准上比BERT优胜,在摘要摘要,生成性问题答复和言语生成数据集的样本上取得了最新的成果。
UniLM是一个多层络,其中心是由Transformer AI模型组成的,这些模型一起针对很多文本进行了预练习,并针对言语建模进行了优化。关于初学者,变形金刚包含相互衔接的神经元(功用),这些神经元从输入数据传输信号并调整每个衔接的强度(权重)。这是一切AI体系提取特征并学习进行猜测的办法,可是Transformers会留意每个输出元素都衔接到每个输入元素。实际上,它们之间的权重是动态核算的。
依据研讨人员的说法,预练习的UniLM与BERT类似,因为它能够进行微调(假如需求,能够附加其他特定于使命的层)以习惯各种下流使命。可是与BERT不同,UniLM能够运用不同的自我留意掩码进行装备,以汇总不同类型言语模型的上下文。此外,因为其预练习的统一性,因而Transformer络能够同享参数(从前史练习中学到的数据),这使学习到的文本表明方式愈加通用,然后减轻了对任何单个使命的过度拟合(当体系对练习数据建模得很好时) 。
研讨人员陈述说,UniLM在运用英语维基百科和开源BookCorpus的文章后的总词汇量为28,996,经过了预练习,其跨言语使命的体现令人形象深入。具体来说,他们说它取得了与GLUE基准测验(评价一般言语了解)上的BERT适当的成果,而且取得了两个问答数据集,而且在五个自然言语生成方面均优于曾经的最新模型数据集,包含CNN / DailyMail(测验摘要),Gigaword(笼统摘要),SQuAD(问题生成),CoQA(生成性问题答复)和DSTC7(对话呼应生成)。
该团队经过在“络规划”文本语料库上练习较大的模型来推进当时办法的限制,然后留给未来的作业。他们还期望研讨扩展UniLM以支撑跨言语使命。
代码和预练习模型可在GitHub上取得。