《预训练周刊》第29期：Swin Transformer V2：扩大容量和分辨率、SimMIM：用于遮蔽图像建模的简单框架...

No.29

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

本期周刊，我们选择了10篇预训练相关的论文，涉及图像处理、图像屏蔽编码、推荐系统、语言模型解释、多模态表征、多语言建模、推理优化、细胞抗原预测、蛋白结构理解和化学反应的探索。此外，在资源分享方面，我们选择了2篇预训练资源，将介绍视频理解和生物图像处理方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：微软｜Swin Transformer V2: Scaling Up Capacity and Resolution（Swin Transformer V2：扩大容量和分辨率）了解详情

作者：Ze Liu, Han Hu, Baining Guo等

简介：本文提出一种图像应用的预训练技术。作者提出了缩放Swin Transformer的技术，能够训练多达30亿个参数并使其图像分辨率高达1,536×1,536。通过扩大规模容量和分辨率，Swin Transformer在四个代表性视觉基准上创下新记录：在ImageNet-V2图像分类上的84.0%top-1准确率，COCO对象检测上的box/mask的63.1/54.4mAP，ADE20K语义分割59.9mIoU，Kinetics-400视频动作分类86.8%的top-1准确率。作者通过使用Swin Transformer作为案例研究来说明：1)后归一化技术和缩放余弦注意方法，以提高大型视觉模型的稳定性；2)对数间隔连续位置偏置技术有效地将在低分辨率图像和窗口中预先训练的模型传输到更高分辨率的对应模型。使用这些技术和自我监督的预训练，作者成功地训练了一个强大的30亿Swin Transformer模型并有效传递到涉及高分辨率图像的各种视觉任务，在各项基准测试中达到最先进的精度。

代码地址：https://github.com/microsoft/Swin-Transformer

论文地址：https://arxiv.org/pdf/2111.09883v1.pdf

标题：微软｜SimMIM: A Simple Framework for Masked Image Modeling（SimMIM：用于遮蔽图像建模的简单框架）了解详情

作者：Zhenda Xie, Zheng Zhang, Yue Cao, Han Hu等

简介：本文介绍了一种简单的框架蒙版图像建模方法。作者简化最近提出的没有特殊设计的相关方法，例如通过离散VAE或聚类进行的块屏蔽和标记化。为研究让遮蔽图像建模任务学习好表征的原因，作者系统地研究了框架中的主要组件，发现每个组件的简单设计都显示出非常强大的表征学习性能：1）随机遮蔽具有中等大小的蒙版补丁大小的输入图像（例如，32) 做一个很强的前置任务；2）预测原始像素通过直接回归得到的 RGB 值的性能不差于具有复杂设计的补丁分类方法；3）预测头可以像线性层一样轻，同时性能没有变差。使用ViT-B，作者的方法实现了ImageNet-1K数据集上，83.8%的top-1微调精度，也在这个数据集上进行了预训练，超过了之前的最佳方法+0.6%。当应用于一个更大的模型，大约有6.5亿个参数SwinV2-H，它使用 ImageNet-1K实现了87.1%的top-1准确率。作者还利用这种方法来促进30亿模型(SwinV2-G) 的训练，即通过比以前的实践少40倍的数据，作者实现了四个代表性视觉的最新技术基准。

代码地址：https://github.com/microsoft/SimMIM

论文地址：https://arxiv.org/pdf/2111.09886v1.pdf

标题：快手、瑞士苏黎世联邦理工学院|Persia: An Open, Hybrid System Scaling Deep Learning-based Recommenders up to 100 Trillion Parameters（Persia：基于深度学习的百万亿参数开放式混合扩展推荐系统）了解详情

作者：Xiangru Lian, Binhang Yuan, Ji Liu等

简介：本文介绍了一种基于深度学习推荐系统训练框架。随着模型的嵌入层可以包含整个模型的99.99%以上大小，这是非常占用内存的；而其余的神经网络计算量越来越大。在本文中，作者通过谨慎的方式解决了这一挑战优化算法和分布式的协同设计系统架构。具体来说，为了保证训练效率和训练精度，作者设计了一种新颖的混合训练算法，其中嵌入层和密集神经网络由不同的同步机制处理；然后作者构建了一个名为Persia的系统以支持这种混合训练算法。理论论证和实证研究已经进行了多达百万亿个参数的研究，以证明Persia的系统设计和实施是合理的。

代码地址：https://github.com/PersiaML/Persia

论文地址：https://arxiv.org/pdf/2111.05897.pdf

标题：瑞士洛桑埃科尔理工学院 | Interpreting Language Models Through Knowledge Graph Extraction（通过知识图谱提取解释语言模型）了解详情

作者：Vinitra Swamy, Angelika Romanou, Martin Jaggi

简介：本文对不同语言模型的性能量化进行研究、并采用了知识图抽取框架。在大型文本语料库上训练的基于 Transformer 的语言模型在自然语言处理社区中广受欢迎，并且通常用作下游任务的起点。虽然这些模型不可否认是有用的，但在传统的准确度指标之外量化它们的性能是一个挑战。在本文中，作者通过在训练过程的连续阶段获得的知识的快照来比较基于 BERT 的语言模型。通过使用探测任务查询掩码语言模型，可以发现来自训练语料库的结构化关系。作者提出了一种方法，通过在RoBERTa早期训练的各个阶段从完形填空“填空”语句中生成知识图谱提取物来揭示知识获取时间表。作者将此分析扩展到 BERT 模型的预训练变体的比较。本研究工作提出了一个定量框架，通过知识图谱抽取比较语言模型，并展示了词性分析来识别每个模型变体的语言优势。使用这些指标，机器学习从业者可以比较模型，诊断模型的行为优势和劣势，并确定新的目标数据集以提高模型性能。

论文地址：https://arxiv.org/pdf/2111.08546.pdf

标题：Meta AI、谷歌、Outreach、HuggingFace | XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale（自监督跨语言语音表征学习）了解详情

作者：Arun Babu, Changhan Wang, Andros Tjandra,等

简介：本文介绍了基于wav2vec 2.0的跨语言语音表示学习大规模预训练模型XLS-R。作者在128种语言的近50万小时的公开语音音频上训练具有高达2B参数的模型，这比已知的最大的先前工作多出一个数量级的公共数据。作者的评估涵盖了广泛的任务、领域、数据机制和语言，包括高资源和低资源。在CoVoST-2语音翻译基准测试中，作者在 21 个英语翻译方向上将之前的技术水平平均提高了 7.4 BLEU。对于语音识别，XLS-R 改进了 BABEL、MLS、CommonVoice 和 VoxPopuli 上最著名的先前工作，平均相对降低了 14-34% 的错误率。XLS-R 还设置了 VoxLingua107 语言识别的最新技术。而且，作者表明，在有足够的模型大小的情况下，跨语言预训练在将英语语音翻译成其他语言时可以优于仅英语的预训练，这种设置有利于单语预训练。作者希望 XLS-R 可以帮助改进世界上更多语言的语音处理任务。

论文地址：https://arxiv.org/pdf/2111.09296

标题：阿里达摩院、南洋理工 | Knowledge Based Multilingual Language Model（基于知识的多语言语言模型）了解详情

作者：Linlin Liu, Xin Li, Ruidan He,等

简介：本文研究基于知识的多语言预训练模型。知识丰富的语言表示学习，在各种知识密集型 NLP 任务中表现出良好的性能。然而，现有的基于知识的语言模型都是用单语知识图数据训练的，这限制了它们对更多语言的应用。在这项工作中，作者提出了一个新颖的框架来预训练基于知识的多语言模型（KMLM）。作者首先使用维基数据知识图生成大量代码切换合成句子和基于推理的多语言训练数据。然后基于生成数据的句内和句间结构，作者设计了预训练任务以促进知识学习，这使得语言模型不仅可以记住事实知识，还可以学习有用的逻辑模式。作者预训练的 KMLM 在广泛的知识密集型跨语言 NLP 任务上表现出显着的性能提升，包括命名实体识别、事实知识检索、关系分类以及作者设计的一项新任务，即逻辑推理。

论文地址：https://arxiv.org/pdf/2111.10962.pdf

标题：英特尔、加利福尼亚大学 | Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic Sequence Length（通过动态序列长度提高 TinyBERT 的推理效率）了解详情

作者：Shira Guskin, Moshe Wasserblat, Ke Ding, Gyuwan Kim

简介：本文研究基于优化TinyBERT的模型如何显著提升计算效率。有限的计算预算通常会阻止在生产中使用Transformer，也无法利用其高精度。TinyBERT 通过将 BERT 自我提炼为具有更少层和更小的内部嵌入的更小的Transformer表示来解决计算效率问题。然而，当将层数减少 50% 时，TinyBERT 的性能会下降，当将层数减少 75% 时，TinyBERT 的性能下降得更厉害，例如跨度问答等高级 NLP 任务。此外，必须针对具有不同计算预算的每个推理场景训练一个单独的模型。在这项工作中，作者提出了Dynamic-TinyBERT---基于TinyBERT 模型、利用序列长度缩减和超参数优化来提高每个计算预算的推理效率。Dynamic-TinyBERT只训练一次，性能与 BERT 不相上下，并实现了优于任何其他有效方法的准确度-加速权衡（高达 3.3 倍，损失下降 <1%）。

论文地址：

https://arxiv.org/pdf/2111.09645.pdf

标题：斯坦福、华盛顿大学医学院 | TCR-BERT: learning the grammar of T-cell receptors for flexible antigen-xbinding analyses（TCR-BERT：学习T细胞受体的语法以进行灵活的抗原结合分析）了解详情

作者：Kevin Wu，James Zou等

简介：T细胞受体（TCR）使T细胞能够识别和响应由感染和病变细胞呈现的抗原。由于TCRs惊人的多样性和TCR抗原识别背后复杂的结合动力学，预测一个给定的TCR可能与哪些抗原结合是具有挑战性的。本文提出了TCR-BERT并将自监督的迁移学习应用于这个问题。TCR-BERT利用未标记的TCR序列来学习TCR序列的一般的、通用的表征，从而实现众多下游应用。本文证明了TCR-BERT可以用来建立最先进的TCR-抗原结合预测器，与之前的方法相比，具有更好的通用性。TCR-BERT同时促进了对可能共享抗原特异性的序列进行聚类。它还促进了对具有挑战性的、未解决的问题的计算方法，如设计具有工程化结合亲和力的新型TCR序列。重要的是，TCR-BERT通过专注于具有已知生物学意义的残基来实现所有这些进展。

论文地址：https://doi.org/10.1101/2021.11.18.469186

标题：慕尼黑工大 | Contrastive learning on protein embeddings enlightens midnight zone at lightning speed（用于高效理解蛋白午夜区的嵌入对比学习）了解详情

作者：Michael Heinzinger, Maria Littmann等

简介：由于最近蛋白质三维结构预测方面的进展，特别是AlphaFold 2和RoseTTAFold的影响，蛋白质三维信息的丰富程度将在未来几年爆发。本文提出了一种新的方法ProtTucker，将同源推理的概念从低维的序列距离查询扩展到高维的基于嵌入的注释迁移的水平。作者使用来自蛋白质语言模型的单一蛋白质序列表示，即预训练嵌入（Prose、ESM-1b、ProtBERT和ProtT5），作为对比学习的输入。这种方法创建了一套新的嵌入，优化了蛋白质三维结构的分层分类所捕获的约束，并明显改善了折叠识别。新的嵌入能够作用与蛋白质的午夜区，即成对序列相似性水平类似于随机关系，很难用同源方法来分析的区域。基准测试表明，ProtTucker比先进的序列比较更进一步，而不需要计算比对，使其速度快了几个数量级。

论文地址：https://doi.org/10.1101/2021.11.14.468528

标题：加州大学伯克利等 | Improving machine learning performance on small chemical reaction data with unsupervised contrastive pretraining（无监督对比学习预训练可提高小型化学反应数据的机器学习性能）了解详情

作者：Mingjian Wen, Kristin A. Persson等

简介：化学反应的机器学习模型必须在大量的标记数据上进行训练。本文提出了一种利用未标记的数据来学习准确的模型，以处理小样本的化学反应数据的策略。作者专注于一个古老而突出的问题，将反应分为不同的家族，并为这个任务建立一个GNN模型。对比学习预训练通过使一个反应的两个增强版本的表征彼此相似，但与其他反应不同来进行学习。本文提出了化学上的反应增强方法以保护反应中心，并发现它们是模型从未标记的数据中提取相关信息以帮助反应分类任务的关键。结果上迁移学习的模型在很大程度上超过了从头开始训练的监督模型，此外始终比基于传统规则驱动的反应指纹的模型表现得更好。除了反应分类，基于GNN的反应指纹还可以用来浏览化学反应空间等。

论文地址：https://doi.org/10.1101/2021.11.14.468528

资源分享

标题：META| PyTorchVideo: A Deep Learning Library for Video Understanding（PyTorch Video：用于视频理解的深度学习库）了解详情

作者：Haoqi Fan, Tullie Murrell, Christoph Feichtenhofer等

简介：本文介绍了一个开源视频理解库。提供了一套丰富的模块化、高效和可重复的用于各种视频理解任务的组件，包括分类、检测、自监督学习和低级加工。该库涵盖了一整套视频理解工具，包括多模态数据加载、转换和再现最先进性能的模型。PyTorchVideo进一步支持硬件加速，可在移动设备上实现实时推理。该库基于 PyTorch，可以被任何训练框架使用；例如，PyTorchLightning、PySlowFast或Classy Vision。

论文地址：https://arxiv.org/pdf/2111.09887.pdf

标题：多伦多大学 | CytoImageNet: A large-scale pretraining dataset for bioimage transfer learning（CytoImageNet：用于生物图像迁移学习的大规模预训练数据集）了解详情

作者：Stanley Bryan Z. Hua, Alex X. Lu, Alan M. Moses

简介：近年来，以图像为基础的生物检测已逐渐成进入高通量的时代，从数十万张图像中提取有生物学意义的信息引发了对相应快速自动化方法和工具的需求。从ImageNet的成功中得到启发，本文策划了CytoImageNet，这是一个由公开来源和弱标记的显微镜图像组成的大规模数据集，包括890,737张显微镜图像和894个类别。对CytoImageNet的预训练产生的特征在下游的显微镜分类任务中与ImageNet的特征具有竞争力，融合提取的特征在下游任务中的表现最好，这意味着CytoImageNet和ImageNet的预训练导致了不同的、但有意义的图像表征的学习。这些结果表明，未来生物图像迁移学习的应用可能会从CytoImageNet和ImageNet特征的融合中获益。

论文地址：https://arxiv.org/abs/2111.11646v2