《预训练周刊》第29期:Swin Transformer V2:扩大容量和分辨率、SimMIM:用于遮蔽图像建模的简单框架...

article/2025/8/30 14:25:39

No.29

智源社区

预训练组

9ee3a1e73641fbc57e6bf80a47c39fa9.png

研究

观点

资源

活动

关于周刊

本期周刊,我们选择了10篇预训练相关的论文,涉及图像处理、图像屏蔽编码、推荐系统、语言模型解释、多模态表征、多语言建模、推理优化、细胞抗原预测、蛋白结构理解和化学反应的探索。此外,在资源分享方面,我们选择了2篇预训练资源,将介绍视频理解和生物图像处理方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:申德周 翟珂 吴新刚)

a3ff62600afcda54320815609dcfcc10.png

247cb16a6e5524660096d7d0f1ce899f.png

88958f3db718a4e9d510e11927fd01ba.png

2ebe3c10d9ee960a98d029a208eedc3f.png

63e2a2da6e6aa3add34ffb261f90e247.png

论文推荐

标题:微软|Swin Transformer V2: Scaling Up Capacity and Resolution(Swin Transformer V2:扩大容量和分辨率)了解详情

作者:Ze Liu, Han Hu, Baining Guo等

简介:本文提出一种图像应用的预训练技术。作者提出了缩放Swin Transformer的技术,能够训练多达30亿个参数并使其图像分辨率高达1,536×1,536。通过扩大规模容量和分辨率,Swin Transformer在四个代表性视觉基准上创下新记录:在ImageNet-V2图像分类上的84.0%top-1准确率,COCO对象检测上的box/mask的63.1/54.4mAP,ADE20K语义分割59.9mIoU,Kinetics-400视频动作分类86.8%的top-1准确率。作者通过使用Swin Transformer作为案例研究来说明:1)后归一化技术和缩放余弦注意方法,以提高大型视觉模型的稳定性;2)对数间隔连续位置偏置技术有效地将在低分辨率图像和窗口中预先训练的模型传输到更高分辨率的对应模型。使用这些技术和自我监督的预训练,作者成功地训练了一个强大的30亿Swin Transformer模型并有效传递到涉及高分辨率图像的各种视觉任务,在各项基准测试中达到最先进的精度。

代码地址:https://github.com/microsoft/Swin-Transformer

论文地址:https://arxiv.org/pdf/2111.09883v1.pdf

标题:微软|SimMIM: A Simple Framework for Masked Image Modeling(SimMIM:用于遮蔽图像建模的简单框架)了解详情

作者:Zhenda Xie, Zheng Zhang, Yue Cao, Han Hu等

简介:本文介绍了一种简单的框架蒙版图像建模方法。作者简化最近提出的没有特殊设计的相关方法,例如通过离散VAE或聚类进行的块屏蔽和标记化。为研究让遮蔽图像建模任务学习好表征的原因,作者系统地研究了框架中的主要组件,发现每个组件的简单设计都显示出非常强大的表征学习性能:1)随机遮蔽具有中等大小的蒙版补丁大小的输入图像(例如,32) 做一个很强的前置任务;2)预测原始像素通过直接回归得到的 RGB 值的性能不差于具有复杂设计的补丁分类方法;3)预测头可以像线性层一样轻,同时性能没有变差。使用ViT-B,作者的方法实现了ImageNet-1K数据集上,83.8%的top-1微调精度,也在这个数据集上进行了预训练,超过了之前的最佳方法+0.6%。当应用于一个更大的模型,大约有6.5亿个参数SwinV2-H,它使用 ImageNet-1K实现了87.1%的top-1准确率。作者还利用这种方法来促进30亿模型(SwinV2-G) 的训练,即通过比以前的实践少40倍的数据,作者实现了四个代表性视觉的最新技术基准。

代码地址:https://github.com/microsoft/SimMIM

论文地址:https://arxiv.org/pdf/2111.09886v1.pdf

标题:快手、瑞士苏黎世联邦理工学院|Persia: An Open, Hybrid System Scaling Deep Learning-based Recommenders up to 100 Trillion Parameters(Persia:基于深度学习的百万亿参数开放式混合扩展推荐系统)了解详情

作者:Xiangru Lian, Binhang Yuan, Ji Liu等

简介:本文介绍了一种基于深度学习推荐系统训练框架。随着模型的嵌入层可以包含整个模型的99.99%以上大小,这是非常占用内存的;而其余的神经网络计算量越来越大。在本文中,作者通过谨慎的方式解决了这一挑战优化算法和分布式的协同设计系统架构。具体来说,为了保证训练效率和训练精度,作者设计了一种新颖的混合训练算法,其中嵌入层和密集神经网络由不同的同步机制处理;然后作者构建了一个名为Persia的系统以支持这种混合训练算法。理论论证和实证研究已经进行了多达百万亿个参数的研究,以证明Persia的系统设计和实施是合理的。

代码地址:https://github.com/PersiaML/Persia

论文地址:https://arxiv.org/pdf/2111.05897.pdf

标题:瑞士洛桑埃科尔理工学院 | Interpreting Language Models Through Knowledge Graph Extraction(通过知识图谱提取解释语言模型)了解详情

作者:Vinitra Swamy, Angelika Romanou, Martin Jaggi

简介:本文对不同语言模型的性能量化进行研究、并采用了知识图抽取框架。在大型文本语料库上训练的基于 Transformer 的语言模型在自然语言处理社区中广受欢迎,并且通常用作下游任务的起点。虽然这些模型不可否认是有用的,但在传统的准确度指标之外量化它们的性能是一个挑战。在本文中,作者通过在训练过程的连续阶段获得的知识的快照来比较基于 BERT 的语言模型。通过使用探测任务查询掩码语言模型,可以发现来自训练语料库的结构化关系。作者提出了一种方法,通过在RoBERTa早期训练的各个阶段从完形填空“填空”语句中生成知识图谱提取物来揭示知识获取时间表。作者将此分析扩展到 BERT 模型的预训练变体的比较。本研究工作提出了一个定量框架,通过知识图谱抽取比较语言模型,并展示了词性分析来识别每个模型变体的语言优势。使用这些指标,机器学习从业者可以比较模型,诊断模型的行为优势和劣势,并确定新的目标数据集以提高模型性能。

论文地址:https://arxiv.org/pdf/2111.08546.pdf

标题:Meta AI、谷歌、Outreach、HuggingFace | XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale(自监督跨语言语音表征学习)了解详情

作者:Arun Babu, Changhan Wang, Andros Tjandra,等

简介:本文介绍了基于wav2vec 2.0的跨语言语音表示学习大规模预训练模型XLS-R。作者在128种语言的近50万小时的公开语音音频上训练具有高达2B参数的模型,这比已知的最大的先前工作多出一个数量级的公共数据。作者的评估涵盖了广泛的任务、领域、数据机制和语言,包括高资源和低资源。在CoVoST-2语音翻译基准测试中,作者在 21 个英语翻译方向上将之前的技术水平平均提高了 7.4 BLEU。对于语音识别,XLS-R 改进了 BABEL、MLS、CommonVoice 和 VoxPopuli 上最著名的先前工作,平均相对降低了 14-34% 的错误率。XLS-R 还设置了 VoxLingua107 语言识别的最新技术。而且,作者表明,在有足够的模型大小的情况下,跨语言预训练在将英语语音翻译成其他语言时可以优于仅英语的预训练,这种设置有利于单语预训练。作者希望 XLS-R 可以帮助改进世界上更多语言的语音处理任务。

论文地址:https://arxiv.org/pdf/2111.09296

标题:阿里达摩院、南洋理工 | Knowledge Based Multilingual Language Model(基于知识的多语言语言模型)了解详情

作者:Linlin Liu, Xin Li, Ruidan He,等

简介:本文研究基于知识的多语言预训练模型。知识丰富的语言表示学习,在各种知识密集型 NLP 任务中表现出良好的性能。然而,现有的基于知识的语言模型都是用单语知识图数据训练的,这限制了它们对更多语言的应用。在这项工作中,作者提出了一个新颖的框架来预训练基于知识的多语言模型(KMLM)。作者首先使用维基数据知识图生成大量代码切换合成句子和基于推理的多语言训练数据。然后基于生成数据的句内和句间结构,作者设计了预训练任务以促进知识学习,这使得语言模型不仅可以记住事实知识,还可以学习有用的逻辑模式。作者预训练的 KMLM 在广泛的知识密集型跨语言 NLP 任务上表现出显着的性能提升,包括命名实体识别、事实知识检索、关系分类以及作者设计的一项新任务,即逻辑推理。

论文地址:https://arxiv.org/pdf/2111.10962.pdf

标题:英特尔、加利福尼亚大学 | Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic Sequence Length(通过动态序列长度提高 TinyBERT 的推理效率)了解详情

作者:Shira Guskin, Moshe Wasserblat, Ke Ding, Gyuwan Kim

简介:本文研究基于优化TinyBERT的模型如何显著提升计算效率。有限的计算预算通常会阻止在生产中使用Transformer,也无法利用其高精度。TinyBERT 通过将 BERT 自我提炼为具有更少层和更小的内部嵌入的更小的Transformer表示来解决计算效率问题。然而,当将层数减少 50% 时,TinyBERT 的性能会下降,当将层数减少 75% 时,TinyBERT 的性能下降得更厉害,例如跨度问答等高级 NLP 任务。此外,必须针对具有不同计算预算的每个推理场景训练一个单独的模型。在这项工作中,作者提出了Dynamic-TinyBERT---基于TinyBERT 模型、利用序列长度缩减和超参数优化来提高每个计算预算的推理效率。Dynamic-TinyBERT只训练一次,性能与 BERT 不相上下,并实现了优于任何其他有效方法的准确度-加速权衡(高达 3.3 倍,损失下降 <1%)。

论文地址:

https://arxiv.org/pdf/2111.09645.pdf

标题:斯坦福、华盛顿大学医学院 | TCR-BERT: learning the grammar of T-cell receptors for flexible antigen-xbinding analyses(TCR-BERT:学习T细胞受体的语法以进行灵活的抗原结合分析)了解详情

作者:Kevin Wu,James Zou等

简介:T细胞受体(TCR)使T细胞能够识别和响应由感染和病变细胞呈现的抗原。由于TCRs惊人的多样性和TCR抗原识别背后复杂的结合动力学,预测一个给定的TCR可能与哪些抗原结合是具有挑战性的。本文提出了TCR-BERT并将自监督的迁移学习应用于这个问题。TCR-BERT利用未标记的TCR序列来学习TCR序列的一般的、通用的表征,从而实现众多下游应用。本文证明了TCR-BERT可以用来建立最先进的TCR-抗原结合预测器,与之前的方法相比,具有更好的通用性。TCR-BERT同时促进了对可能共享抗原特异性的序列进行聚类。它还促进了对具有挑战性的、未解决的问题的计算方法,如设计具有工程化结合亲和力的新型TCR序列。重要的是,TCR-BERT通过专注于具有已知生物学意义的残基来实现所有这些进展。

论文地址:https://doi.org/10.1101/2021.11.18.469186

标题:慕尼黑工大 | Contrastive learning on protein embeddings enlightens midnight zone at lightning speed(用于高效理解蛋白午夜区的嵌入对比学习)了解详情

作者:Michael Heinzinger, Maria Littmann等

简介:由于最近蛋白质三维结构预测方面的进展,特别是AlphaFold 2和RoseTTAFold的影响,蛋白质三维信息的丰富程度将在未来几年爆发。本文提出了一种新的方法ProtTucker,将同源推理的概念从低维的序列距离查询扩展到高维的基于嵌入的注释迁移的水平。作者使用来自蛋白质语言模型的单一蛋白质序列表示,即预训练嵌入(Prose、ESM-1b、ProtBERT和ProtT5),作为对比学习的输入。这种方法创建了一套新的嵌入,优化了蛋白质三维结构的分层分类所捕获的约束,并明显改善了折叠识别。新的嵌入能够作用与蛋白质的午夜区,即成对序列相似性水平类似于随机关系,很难用同源方法来分析的区域。基准测试表明,ProtTucker比先进的序列比较更进一步,而不需要计算比对,使其速度快了几个数量级。

论文地址:https://doi.org/10.1101/2021.11.14.468528

标题:加州大学伯克利等 | Improving machine learning performance on small chemical reaction data with unsupervised contrastive pretraining(无监督对比学习预训练可提高小型化学反应数据的机器学习性能)了解详情

作者:Mingjian Wen, Kristin A. Persson等

简介:化学反应的机器学习模型必须在大量的标记数据上进行训练。本文提出了一种利用未标记的数据来学习准确的模型,以处理小样本的化学反应数据的策略。作者专注于一个古老而突出的问题,将反应分为不同的家族,并为这个任务建立一个GNN模型。对比学习预训练通过使一个反应的两个增强版本的表征彼此相似,但与其他反应不同来进行学习。本文提出了化学上的反应增强方法以保护反应中心,并发现它们是模型从未标记的数据中提取相关信息以帮助反应分类任务的关键。结果上迁移学习的模型在很大程度上超过了从头开始训练的监督模型,此外始终比基于传统规则驱动的反应指纹的模型表现得更好。除了反应分类,基于GNN的反应指纹还可以用来浏览化学反应空间等。

论文地址:https://doi.org/10.1101/2021.11.14.468528

7ece4cce18cf6ddd62532f3e9ffd20f6.png

5cd444a7639a6fe97e73656de826d84d.png

418558e05044b856df462256874e4035.png

5d7b13738e3ee5252896e6b5ce8d3e0e.png

a0dffb68b3c9d5d4e17eef8b4106f8ad.png

资源分享

标题:META| PyTorchVideo: A Deep Learning Library for Video Understanding(PyTorch Video:用于视频理解的深度学习库)了解详情

作者:Haoqi Fan, Tullie Murrell, Christoph Feichtenhofer等

简介:本文介绍了一个开源视频理解库。提供了一套丰富的模块化、高效和可重复的用于各种视频理解任务的组件,包括分类、检测、自监督学习和低级加工。该库涵盖了一整套视频理解工具,包括多模态数据加载、转换和再现最先进性能的模型。PyTorchVideo进一步支持硬件加速,可在移动设备上实现实时推理。该库基于 PyTorch,可以被任何训练框架使用;例如,PyTorchLightning、PySlowFast或Classy Vision。

论文地址:https://arxiv.org/pdf/2111.09887.pdf

标题:多伦多大学 | CytoImageNet: A large-scale pretraining dataset for bioimage transfer learning(CytoImageNet:用于生物图像迁移学习的大规模预训练数据集)了解详情

作者:Stanley Bryan Z. Hua, Alex X. Lu, Alan M. Moses

简介:近年来,以图像为基础的生物检测已逐渐成进入高通量的时代,从数十万张图像中提取有生物学意义的信息引发了对相应快速自动化方法和工具的需求。从ImageNet的成功中得到启发,本文策划了CytoImageNet,这是一个由公开来源和弱标记的显微镜图像组成的大规模数据集,包括890,737张显微镜图像和894个类别。对CytoImageNet的预训练产生的特征在下游的显微镜分类任务中与ImageNet的特征具有竞争力,融合提取的特征在下游任务中的表现最好,这意味着CytoImageNet和ImageNet的预训练导致了不同的、但有意义的图像表征的学习。这些结果表明,未来生物图像迁移学习的应用可能会从CytoImageNet和ImageNet特征的融合中获益。

论文地址:https://arxiv.org/abs/2111.11646v2

d24b0cf19a171bd1ba6175cc87d8ac78.png

如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)

c1428e47746ef46cf2171cb06b65e576.png


http://chatgpt.dhexx.cn/article/15dHj3v4.shtml

相关文章

《预训练周刊》第51期:无重构预训练、零样本自动微调、一键调用OPT

No.51 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息&#xff0c;《预训练周刊》已经开启“订阅功能”&#xff0c;以后我们会向您自动推送最新版的《预训练周刊》。订阅方法&#xff1a; 方式1&#xff1a;扫描下面二维码&#xff0c;进入《预…

Antigen for LCS2005

Antigen For LCS2005<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" /> Antigen for LCS2005是一款应用于即时通信内的杀毒&#xff0c;防毒软件。 试验拓扑图如下&#xff1a; Berlin是域LCS的域控制器也是DNS服务器&#xff0c;…

forefront for antigen

forefront for antigen antigen软件是保护企业Exchange 2003和Exchange 2000的。可以有效的防止病毒通过邮件的传输来危害计算机&#xff0c;而且antigen软件集合了八家杀毒公司的引擎&#xff0c;是让人心动的一面&#xff0c;如果能把杀毒的工作做好&#xff0c;那是很有潜力…

详解Microsoft Antigen for exchange9.0部署与测试

今天为大家介绍的是Microsoft Forefront系列的早期版本Antiget&#xff0c;Antigen for exchange9.0集成了九款杀毒引擎。微软的windows已经让我们家喻户晓了&#xff0c;当微软推出Forefront的时候&#xff0c;又一次的给人以惊喜&#xff0c;最具有竞争力的就是微软用自己雄厚…

antigen for exchange 部署

今天部署antigen for exchange。这是基于exchange 的安全软件&#xff0c;有扫描邮件病毒的功能&#xff0c;等。搭建exchange 就不说了。 拓扑图如下&#xff0c; <?xml:namespace prefix v ns "urn:schemas-microsoft-com:vml" /><?xml:namespace pre…

Microsoft Antigen for Exchange 9.0+Exchangesp2 简单搭建与测试

网络的安全性一直是大家所讨论的问题&#xff0c;有完全的安全吗&#xff1f;呵呵&#xff0c;大家都是明白人&#xff0c;明白人不用细说&#xff0c;没有绝对的安全&#xff0c;只有相对意义下的安全&#xff0c;在企业中无所谓一些常用的服务安全性了&#xff0c;对于安全的…

Microsoft Antigen for LCS2005详细部署、客户端测试

前面的博文中我说了下Microsoft Antigen for Exchange搭建&#xff0c;今天我们在来说说微软在Forefront配合LCS详细搭建&#xff0c;大家知道LCS(Live Communications Server)即时通讯产品&#xff0c;和我们用的Q&#xff0c;MSN&#xff0c;旺旺一样&#xff0c;而我们有的企…

详解部署antigen for exchange及配置来实现邮件的安全及优化

详解部署antigen for exchange及实现邮件的安全及优化 现在科学技术越来越发达&#xff0c;竞争越来越激烈&#xff0c;安全成为忧患&#xff0c;尤其是自己发的邮件及给自己的邮件怕被别的公司知道&#xff0c;或者是怕别人利用邮件给自己发一些病毒之类的东西今天我们利用ant…

Antigen Detector(新冠试剂盒检测)

转自AI Studio&#xff0c;原文链接&#xff1a;Antigen Detector&#xff08;新冠试剂盒检测&#xff09; - 飞桨AI Studio 1、检测效果展示 2、Antigener_Detector思路说明 Antigener Detector通过两种方法串行&#xff0c;来完成检测。从而提高阳性样本的召回率。 首先是…

antigen简介

在Linux下经常需要进行终端操作&#xff0c;一个好的shell解释器可以帮助我们极大提高工作效率。有些同学可能听说过zshell和oh-my-zsh&#xff0c;前者是一个shell程序&#xff0c;由于功能比较强大&#xff0c;所以叫做z shell&#xff0c;意为终极shell&#xff1b;而后者是…

详解lcs+antigen的部署与配置来实现即时通讯的安全

详解lcsantigen的部署与配置来实现即时通讯的安全 我在上一篇中介绍了antigenexchange的配置不知大家是否能在工作中用到&#xff0c;今天我来介绍一下lcsantigen的部署与配置。 LCS( Live Communications Server)即时通讯服务&#xff0c;类似于QQ、MSN之类的。 今天我们做的实…

使用antigen轻松打造赏心悦目的shell环境

一提到Shell环境&#xff0c;很多人可能想到的就是那种神秘的黑框界面&#xff0c;但是其实Shell环境也可以设置成非常酷的样子&#xff0c;并带有自动完成、自动补全、人性化提示等各种功能。可能也有同学还听说过ohmyzsh这类集成了各种Zsh插件的方便项目&#xff0c;今天介绍…

tf.invert_permutation

tf.invert_permutation(x, nameNone) tf.math.invert_permutation(x, nameNone) TensorFlow目录总结 入参 / 出参含义取值范围xA Tensor. Must be one of the following types: int32, int64. 1-D.其中取值【i】的范围&#xff1a;y[x[i]] i for i in [0, 1, …, len(x) - …

PAT甲级-二叉树的遍历-1102 Invert a Binary Tree解题思路

1102 Invert a Binary Tree (25 分) 思路 翻转二叉树 后序遍历翻转即可&#xff0c;由于给出每个结点的左右儿子&#xff0c;所以这里用到二叉树的静态写法更加方便 这里有个坑&#xff0c;bool数组初始化为false才是有效的&#xff0c;别的效果不行&#xff0c;暂时不知道为…

create_generated_clock invert preinvert shift_edge是否符合设计真实状态很重要【示例2】

create_generated_clock符合设计真实状态很重要 不是所有的invert clock与non-invert clock都有直接的反相关系另外一种计数器方式生成的时钟存在一定阶段的反相关系定义 cnt_div约束频率切换的问题cnt_div与 upcnt_div是反相关系 仍然基于【示例1】的RTL代码。 不是所有的inv…

【水下目标检测】Underwater object detection using Invert Multi-Class Adaboost with deep learning

原文&#xff1a;Underwater object detection using Invert Multi-Class Adaboost with deep learning 论文被International Joint Conference on Neural Networks (IJCNN) 2020&#xff08;CCF C类&#xff09;收录&#xff0c; 开源代码&#xff1a;https://github.com/Long…

LVGL8_Esp32_颜色反转设置-INVERT_COLORS

在lvgl8中设置颜色反转。 找到自己对应的驱动的头文件定义部分&#xff0c;手动定义CONFIG_LV_INVERT_COLORS即可。 个人见解&#xff0c;感谢阅读。

transform.invert 预处理逆操作

transform.invert 预处理逆操作 from PIL import Image from torchvision import transforms import torch import numpy as npdef transform_invert(img_, transform_train):"""将data 进行反transfrom操作:param img_: tensor:param transform_train: torchv…

opencv invert()函数使用问题记录

参考博客 CV_8UC1/2/3 OpenCV求逆&#xff08;伪逆&#xff09;矩阵函数 invert()介绍 invert是opencv自带的求解逆矩阵或者伪逆矩阵的函数&#xff0c;具体形式如下&#xff1a; double invert(InputArray src, OutputArraydst, int flagsDECOMP_LU); src&#xff1a; 输…

Mysql链接工具

众所周知为了可以更好的操作 Mysql 数据库&#xff0c;我们都会采用远程连接工具的方式连接 Mysql 数据库&#xff0c;使用远程连接工具连接的好处在于&#xff1a; 方便远程访问&#xff1a;如果你需要在外部网络环境中访问 MySQL 数据库&#xff0c;使用远程连接工具可以方便…