虽然由于数据规模不足, 导致大型的深度语言模型发展较CV晚些, 但随着数据和计算资源以及其他建模技术的提升, 基于Transformer的大型预训练语言模型在仅年来开始横扫各大榜单。 这个系列就来谈谈NLP深度学习中的预训练语言模型, 从最基本的词嵌入, 到Tansformer存在的问题, 到各种优化变体,再到它的解释性和拓展应用, 笔者尝试用一种‘故事’的形式大致勾画出它的一个轮廓, 后续再单独撰文讨论各细节方面。 希望读到这个’故事‘的读者能有所收获。
随着Transformer的预训练语言模型被广泛应用在深度学习的各个领域, 多其结构的剖析和思考也逐渐的被人们所关注。 这篇文章就来简单谈谈Transformer模型中存在的冗余性, 以及基于此的种种‘迷之操作’轻松换来加点。