C3D-network论文笔记

article/2025/10/14 15:32:20

前几天一直在看Faster-Rcnn源码和YOLOv3（C语言）源码，感觉时间浪费了不少，但是一个都没有看懂，总结出一句话就是：这TM写的是个啥？我为啥一个都看不懂，原理理解是一回事，看懂代码是一回事，至于自己上手敲更是另外一回事了，后来想想，我没看懂也是有道理的，因为我没有花那么多的时间去看，只看了两三天，有些代码真的不懂，也没有去深究，所有以至于整个都没有看懂，问了一个看完Faster-Rcnn的学长是怎么看完的，他说他花了将近一个月的时候。也难怪，只要花时间查，应该是能看懂的，但是我现在好像没有这么多时间去从一个比较难的网络开始，我还是从一个比较简单而又实用的网络开始我的课题吧-C3D网络。

Let's Open this paper

****************************************************************************************************************

花了一晚上加一上午看了C3D网络的paper,说实话这个网络现在对于行为识别已经有点过时了，只是里面的3D卷积成为了经典，没有花里胡哨的连接，只有传统网络的一条路，卷积，池化，分类。我用这个网络的主要目的是用来3D医学图像分类的。

论文地址：http://vlg.cs.dartmouth.edu/c3d/c3d_video.pdf

常用数据库

行为识别的数据库比较多，这里主要介绍两个最常用的数据库，也是近年这个方向的论文必做的数据库。

UCF101:来源为YouTube视频，共计101类动作，13320段视频。共有5个大类的动作：1)人-物交互；2)肢体运动；3)人-人交互；4)弹奏乐器；5)运动。数据库主页
HMDB51:来源为YouTube视频，共计51类动作，约7000段视频。数据库主页

在Actioin Recognition中，实际上还有一类骨架数据库，比如MSR Action 3D，HDM05，SBU Kinect Interaction Dataset等。这些数据库已经提取了每帧视频中人的骨架信息，基于骨架信息判断运动类型。不做详细介绍

1.基本介绍

本文网络设计主要是用来Action Recognition,之前有用2D-CNN网络来识别的，但是2D的不能很好的提取时间特性，所以效果也不是很好，现在我们看一下3D-CNN和2D-CNN的区别：

首先简要介绍一下2D与3D卷积之间的区别。a)和b)分别为2D卷积用于单通道图像和多通道图像的情况（此处多通道图像可以指同一张图片的3个颜色通道，也指多张堆叠在一起的图片，即一小段视频），对于一个滤波器，输出为一张二维的特征图，多通道的信息被完全压缩了。而c)中的3D卷积的输出仍然为3D的特征图。

如果输入一段视频，其大小是,其中C是通道数(一般是3),，h和w分别是每帧的高和宽，3D卷积的卷积核和池化核也是3D的，很容易想象得到，就是比2D的往里扩展一个维度，所以核大小是d是核的时间深度，K*K是空间上的大小。

2.网络结构

网络结构也特别的简单：

8个卷几层，5个池化层，2个全连接层，然后是一个softmax(我习惯叫它"软max",怎么样，是不是很形象)，这里值得注意的是作者通过大量实验证明，作者多次用到了“empirically”这个词，证明卷积大小统一是3*3*3的时候性能是最牛*的，然后给出了几个说服观众的图（好吧，我信！）：

还有一个要注意的点就是池化层，作者说，池化层除了第一个是1*2*2，其余的都是2*2*2,为什么呢？我解释一下，池化层的第一个数是时间深度，如果设置成1的话，也就是在单独的每帧上面进行池化，如果大于1的话，那么就是在时间轴上，也就是多帧之间进行池化，前者是有利于在初始阶段保留时间特征，作者也用了一句话解释：

然后，后面的全连接层用了4096个输出单元。

其他信息：卷积核步长是1，输入尺寸是：，16是帧的长度，也就是一次输入16帧。

数据准备：
- 提取片段：对于每一个训练视频，我们随机提取5个时长为2s的视频片段。
- resized: 调整大小为128×171
训练阶段：
- 裁切(crop)：将输入视频片段随机剪切为16×112×112
- 水平翻转：50%的概率
- SGD with mini-batch size = 30;
- 初始学习速率为0.003，每150K次迭代除以2.
- 最优化过程在1.9M次（13个周期）
- 除了用C3D网络从头开始训练，我们同样使用在I380K上预训练的模型进行微调。