elmo模型结构
如下所示是elmo模型结构图:
在输入中可以采用worc2vec模型 训练的词向量。
其实总的来说,elmo模型就是若干bilstm的堆积,然后训练得到的,
对于某一个单词[公式],一个L层的双向语言模型biLM由2L+1个向量表示:
x为char-level初始词向量,前后向h分别为前后向lstm的输出,ELMo将多层的biLM的输出R整合成一个向量:
再将 R 向量正则化后,输入softmax层,作为学到的一组权重
elmo模型的使用
ELMo通过将隐藏状态(和初始嵌入)以某种方式组合在一起(连接后加权求和),提出语境化词嵌入。
参考:
https://zhuanlan.zhihu.com/p/52483135