跨次元!目标检测类别超20000!

article/2025/11/10 12:45:30
萧箫 发自 凹非寺  量子位 | 公众号 QbitAI

目标检测种类多达20000+种的AI,你见过吗?

不仅准确“揪出”每个物体所在的位置,分类效果非常准确:

2c39dafcad5bfae7272123da5f800331.png

插画版赛博恐龙也没问题:

1d457bf85c459b5ff11a733d8d49835c.png

甚至还能检测杂志封面甚至漫画中的物体!

b63cb17e040b987513ccc7cf056678a8.png

这也是把目标检测给玩出花来了,据作者表示模型在长尾问题等细节上的处理非常好,像狮子和狐狸这种少样本也能准确识别:

cfa0bd8eb2fb886d96e0c6db04c71baf.png

这项研究来自Meta AI和德克萨斯大学奥斯汀分校,一作是著名目标检测框架CenterNet的作者、复旦校友Xingyi Zhou。

82dffe5bf05d481f3ef9cea80be33edb.png

一起来看看。

可识别“跨次元”物体

这篇论文提出了一种新的名为Detic的方法,用来解决目标检测无法用到图像级标签(给一整张图打标签,标注里面有什么物体)的问题。

449c62b71f78865892a100e1274edf29.png

此前的目标检测方法,通常是一个检测框里一个物体:

0babb3ed5c9102ceb72ef1e688fdc6a5.png

这种方法有一个问题,就是没办法利用整个图像级标签,只能用单个物体的图片进行训练。

1a1821fa9a28d1dac195d364a2f637c4.png

也有一些研究想出了一种新方法,搞个弱监督学习,试图让AI自己学会将图像级的标签,去对应锚定框里面有什么物体,但实际上这种方法的效果也不太好。

Detic的方法是采用目标检测数据(a)和图像标签数据(b)对Detic进行混合训练。

其中,在用目标检测数据训练Detic时,同时对图像分类模块W和目标检测模块B进行训练,但只用标签数据对图像分类模块W进行训练。

ac7110a5cb98ee67a9b5885bdca1d631.png

训练的数据集采用的是ImageNet,事实证明模型在训练后无需微调,就能很好地适应到LVIS等数据集,相对之前的一些模型都达到了不错的效果:

c6c45f32e5de0187aceb596d2998b143.png

论文表示,Detic能分类的图片类型也是多种多样,从真实照片到赛博恐龙插画这样的“跨次元”作品都能识别:

d971a1b40f51b0145d6223137f555e88.png

这立刻吸引了不少网友来玩。

在线Demo可玩

有网友用梵高的世界名画试了试。

1bd8e4cc3027b756c17d01b9e42d442a.png

放大一点来看,艺术加工后的椅子、人和桌子也能被识别:

a92aa9cc0f7d026c7c9a9800e9d64b43.png

还有用二次元的龙猫进行识别的,除了龙猫本身被错认成猫头鹰以外,其他的雨伞和靴子都认得不错:

4b993e0cbcc3bda2c35273b14254c62c.png

我们也随便用一个钟表柜的照片试了试,在线Demo的检测时间稍微有点久,大约需要6分钟左右,但效果还不错:

767afa39b19df58d9f8cf81e86a71f53.png

细看的话还是能发现一些瑕疵,例如把部分手表误认成转速计、以及怀表和时钟,以及也有一两块手表没有被检测出来。

不过,即使在二次元和插画中,这个AI能识别的物体,至少也需要在真实世界出现过。

例如,超出20000个分类的物体,如喷火龙和皮卡丘,就不在AI的监测范围内了,全部被认成了猴子(狗头):

309954944c035be30070b031b8cb470a.png

将这些二次元角色也加入AI训练数据集中,不知能否取得同样的检测效果。

作者介绍

32ce09f9c17f91e8691127b738e9d86b.png

这张照片是“女朋友拍的”

论文一作Xingyi Zhou,目前在德克萨斯大学奥斯汀分校读博,本科就读于复旦大学计算机系,之前也是CenterNet论文的第一作者,项目在GitHub上目前已经收获6.1k Star

26f3a7de5968c44598dfe0216f22b924.png

Rohit Girdhar、Armand Joulin和Ishan Misra,Meta AI的研究科学家,主要研究方向是机器学习和计算机视觉,此前Armand Joulin曾经在李飞飞的实验室进行博士后工作。

Philipp Krähenbühl,德克萨斯大学奥斯汀分校助理教授,Xingyi Zhou的导师,研究方向是计算机视觉、机器学习和计算机图形学。

感兴趣的小伙伴,赶紧试试你想玩的漫画、或是杂志插画吧~

Demo地址:
https://huggingface.co/spaces/akhaliq/Detic

论文地址:
https://arxiv.org/abs/2201.02605

参考链接:
[1]https://www.cs.utexas.edu/~zhouxy/
[2]https://twitter.com/ak92501/status/1480704961101148162

猜您喜欢:

超110篇!CVPR 2021最全GAN论文汇总梳理!

超100篇!CVPR 2020最全GAN论文梳理汇总!

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

c18cfedb7e76652641ad1257f4296cfe.png


http://chatgpt.dhexx.cn/article/D8WpFcun.shtml

相关文章

“跨次元”检测模型hold住各种画风,真人赛博,在线Demo可玩

来源:量子位 目标检测种类多达20000种的AI,你见过吗? 不仅准确“揪出”每个物体所在的位置,分类效果非常准确: 插画版赛博恐龙也没问题: 甚至还能检测杂志封面甚至漫画中的物体! 这也是把目标检…

《分析一波NBA今年季后赛之听说东部今年格外牛?》

人世仙家本自殊,何须相见向中途。惊鸿瞥过游龙去,漫恼陈王一事无。 嗨,大家好,我是洛神,性别男。一个来自快乐星球的程序员。 欢迎大家专注我的公众号【程序员洛神】,绝对让你有意外收获哟 洛神今天再唠唠东…

基于B/S的网上零食销售系统的设计与实现(附:源码 论文 Sql文件)

摘要: 本文介绍了网上零食销售系统的整个开发过程,采用国内认准的B2C商城建站系统模式,并按照现有的购物系统的现状而设计开发的网络买卖平台。 本文主要阐述的了整个系统的完成过程,模拟了一个具备卖家,买家和管理员…

Java快乐小游戏---数独

最近学各种工具和框架概念学麻了,效果的养分和热情严重不足,背负着要搞黄面试,自己做了两个小游戏。 demo用的是JDK17,不过没用到很复杂的ApI应该没有兼容性问题. 在刚开始想组合数独的时候想着这在每行每列里进行重复性判断&…

使用selenium自动登陆b站 图片文字验证识别

文章目录 前言一. 反,反反爬虫1.反爬虫2.反反爬虫 二,超级鹰三.完整代码1.导包2.超级鹰接口3.连接手动开启的浏览器4.定位文本框标签5.图片文字识别6.文本处理,坐标处理7.导入刚刚py文件中的函数8.按文字顺序点击图片中的坐标9.登陆 四.完整代…

【小白学习记录】渗透测试之信息收集

网安小白第一次写文章,不喜勿喷,欢迎大佬评论区指错交流 目录 前言 一、渗透测试是什么? 二、信息收集 1.通过网页直接获取信息 2.ip收集 3.端口扫描 4.目录扫描 5.旁站收集 6.备案信息查询 总结 前言 随着互联网的快速发展,网…

用selenium全自动化爬取教务系统作业清单

写在前文:撰写本文仅用于学习交流,不承担因此带来任何的潜在风险和责任 文章目录 0 目的明确,限制和思考1 前置模块准备1.1 selenium安装及简单操作1.2 python lxml模块安装 2 代码撰写2.1 selenium操作网页2.1.1 元素定位2.1.2 验证码图片保…

python 突破b站验证码_Python爬虫模拟登陆哔哩哔哩(bilibili)并突破点选验证码功能...

写在前面 今天带给大家一个突破点选验证码的案例,利用爬虫模拟登陆哔哩哔哩,并且把一些采坑的地方给大家强调一下! 一、需求分析 模拟登陆哔哩哔哩 网站链接: https://passport.bilibili.com/login 效果图如下: 验证成功后会自动跳…

向毕业妥协系列之机器学习笔记:决策树(一)

目录 一.决策树模型 二.学习过程 三.纯度(熵) 四.选择拆分信息增益 一.决策树模型 现在以识别猫为例,有三个特征,分别是耳朵,脸和胡须,然后每个特征都有两种输出(等价于二元分类&#xff0…

求余数的各种方法

1.辗转相除法辗转相除法(又名欧几里德法) C语言中用于计算两个正整数a,b的最大公约数和最小公倍数,实质它依赖于下面的定理: a b0 gcd(a,b) gcd(b,a mod b) b!0根据这一定理可以采用函数嵌套调用和递归调用形式进行求两个数的最大…

matlab求余数

matlab求余数给出了两个函数:mod和rem,官方也给出了两者的区别: 根据需要选择合适的求余函数,记录一下。

rdnf-0.2

rdnf 0.2 思路 indradb indradb图数据库是基于kv存储引擎,主要是基于rocksdb。基本元素主要有三:Edge、Vertex、Property(包含edge_property、vertex_property)。 原理如下 VertexManager key:vertex.idvalue&#…

RDD是什么?

前言 本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系 注意一些关于Spark Co…

AMD RDNA Architecture - AMD RDNA 架构

AMD RDNA Architecture - AMD RDNA 架构 https://www.amd.com/en/technologies/rdna Architected for Gaming - 为游戏而构建 The new RDNA architecture is designed for the next generation of efficient high-performance gaming. It’s the DNA that powers your games, …

Residual Dense Network for Image Super-Resolution(RDN)

摘要 1.问题背景:传统的深度CNN在图像超分辨率任务中取得了显著的成功,但是大部分基于深度CNN的SR模型没有充分利用来自原始低分辨率(LR)图像的层次特征,导致相对较低的性能。 2.创新点:为了解决这个问题…

一文带你初识RDMA技术——RDMA概念,特点,协议,通信流程

文章目录 1.RDMA概念2.RMDA与Socket2.1传统的TCP/IP通信2.2TCP/IP存在的问题 3.RDMA的特点3.1CPU offload3.2kernel bypass3.3zero copy3.4异步接口 4.RDMA通信协议InfiniBandRoCEiWARP 5.RDMA编程概述5.1传输操作5.2传输模式5.3相关概念5.4典型实例 6.RDMA通信过程6.1单向通信…

rDSN概览

原文链接:https://github.com/Microsoft/rDSN/wiki/overview rDSN(Robust Distributed System Nucleus)翻译成中文是高可用分布式系统核心,旨在提供一个健壮的、易于扩展、易于维护运营的分布式软件架构。对于分布式系统的开发人员来说,其提…

深度学习(二十二)——ESPCN, FSRCNN, VESPCN, SRGAN, DemosaicNet, MemNet, RDN, ShuffleSeg

https://antkillerfarm.github.io/ ESPCN ESPCN(efficient sub-pixel convolutional neural network)是创业公司Magic Pony Technology的Wenzhe Shi和Jose Caballero作品。该创业团队主要来自Imperial College London,目前已被Twitter收购。…

超分文章记录 SRCNN-FSRCNN-ESPCN-VDCN-DRCN-RDN-LapSRN-SRDenseNet-SRGAN

1.Learning a Deep Convolutional Network for Image Super-Resolution(SRCNN 2014 ECCV ) 1、总结 第一篇用深度学习做超分的文章,就是用深度学习来表示传统方式。结构比较简单。 源码地址: SRCNN CODE 2、思路 先用 bicubic…

Introducing RDNA Architecture

Introducing RDNA Architecture The RDNA architecture white paper https://www.amd.com/system/files/documents/rdna-whitepaper.pdf The all new Radeon gaming architecture powering “Navi” 全新 Radeon 游戏架构为 Navi 提供动力 Table of Contents Introduction R…