DL之Yolo：Yolo算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略-重庆市软件正版化服务平台

政策资讯

Policy Information

DL之Yolo：Yolo算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

来源：重庆市软件正版化服务中心 | 时间： 2022-09-20 | 浏览量： 68435 |

DL之Yolo：Yolo算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

Yolo算法的简介(论文介绍)

YOLO作者是Joseph Redmon约瑟夫·雷蒙，论文发表于CVPR2016，目标检测的论文《You Only Look Once: Unified, Real-Time Object Detection》。You Only Look Once顾名思义，作者强调的是单阶段的模型。

摘要
We present YOLO, a new approach to object detection. Prior work on object detection repurposes classifiers to perform detection. Instead, we frame object detection as a regression problem to spatially separated bounding boxes and associated class probabilities. A single neural network predicts bounding boxes and class probabilities directly from full images in one evaluation. Since the whole detection pipeline is a single network, it can be optimized end-to-end directly on detection performance.
本论文提出了一种新的目标检测方法YOLO。先前关于对象检测的工作重新定义分类器来执行检测。取而代之的是，我们将对象检测框架为一个回归问题，回归到空间分隔的边界框和相关的类概率。在一次评估中，单个神经网络直接从完整的图像中预测边界框和类概率。由于整个检测管道是一个单一的网络，可以直接对检测性能进行端到端优化。
Our unified architecture is extremely fast. Our base YOLO model processes images in real-time at 45 frames per second. A smaller version of the network, Fast YOLO, processes an astounding 155 frames per second while still achieving double the mAP of other real-time detectors. Compared to state-of-the-art detection systems, YOLO makes more localization errors but is far less likely to predict false detections where nothing exists. Finally, YOLO learns very general representations of objects. It outperforms all other detection methods, including DPM and R-CNN, by a wide margin when generalizing from natural images to artwork on both the Picasso Dataset and the People-Art Dataset.
     我们的统一架构非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。一个更小版本的网络，Fast YOLO，每秒处理惊人的155帧，同时仍然达到了其他实时探测器mAP的两倍。与最先进的检测系统相比，YOLO会产生更多的定位错误，但在不存在错误的情况下，预测错误检测的可能性要小得多。最后，YOLO学习对象的一般表示。当从自然图像到毕加索(Picasso)数据集和人类艺术数据集上的艺术品时，它比包括DPM和R-CNN在内的所有其他检测方法都有更大的优势。
Conclusion
     We introduce YOLO, a unified model for object detection. Our model is simple to construct and can be trained directly on full images. Unlike classifier-based approaches, YOLO is trained on a loss function that directly corresponds to detection performance and the entire model is trained jointly.
     本文介绍了一种用于目标检测的统一模型YOLO。我们的模型构造简单，可以直接在全图像上训练。与基于分类器的方法不同，YOLO是针对直接对应于检测性能的损失函数进行训练的，整个模型是联合训练的。
     Fast YOLO is the fastest general-purpose object detector in the literature and YOLO pushes the state-of-the-art in real-time object detection. YOLO also generalizes well to new domains making it ideal for applications that rely on fast, robust object detection.
     Fast YOLO是目前文献中最快的通用目标检测器，YOLO推动了实时目标检测的发展。YOLO还可以很好地推广到新的领域，使其非常适合依赖于快速、健壮的对象检测的应用程序。

相关论文
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi.
You Only Look Once: Unified, Real-Time Object Detection. CVPR 2016
https://arxiv.org/abs/1506.02640

1、特点及优缺点

1、特点及其贡献

改革了基于建议框的检测框架。
R-CNN系列需要生成建议框，然后对建议框进行分类与回归。
建议框之间重叠，造成重复工作。
YOLO将全图划分为S×S的格子，每个格子负责对落入其中的目标进行检测，一次性预测所有格子所含目标的边界框、定位置信度、以及所有类别概率向量。

2、Benefits of YOLO

快速(45fps)，适合实时处理。
预测目标位置和类别由单个网络完成。可以端到端训练以提高准确性。
YOLO更加一般化。当从自然图像推广到其它领域（如艺术图像）时，它优于其他方法。

3、缺点

对小目标及邻近目标检测效果差：当一个小格中出现多于两个小目标或者一个小格中出现多个不同目标时效果欠佳。
原因：B表示每个小格预测边界框数，而YOLO默认落入同一格子里的所有边界框均为同种类的目标。

2、YOLO中的VOC数据集概念

YOLO本身使用的是VOC的数据集，所以可以按照VOC数据集的架构来构建自己的数据集。现在深度学习很多框架都在使用VOC数据集。一般voc解压出来后都包括Annotations,ImageSets,JPEFImages,SegmentationClass ,SegmentationObject; Annotations中是放着所有图片的标记信息，以xml为后缀名.以分类检测的数据为例，打开ImageSets中的layout，会有train，trainval，val三个txt格式数据：

1 train 很明显是训练数据（注意，均为图片名，没有后缀）
2 val 验证数据
3 trainval 则是所有训练和验证数据
4 test 测试数据

3、论文术语相关概念

anchor概念：根据YOLOv2的论文，YOLOv2使用anchor boxes来预测bounding boxes的坐标。YOLOv2使用的anchor boxes和Faster R-CNN不同，不是手选的先验框，而是通过k-means得到的。anchor的窗口尺寸，三个面积尺寸（128^2，256^2，512^2），然后在每个面积尺寸下，取三种不同的长宽比例（1:1,1:2,2:1）.这样一来，我们得到了一共9种面积尺寸各异的anchor。训练YOLO2时会用到cfg文件，这个网络结构文件里面的Region层有一个anchors参数就是论文中对应的用k-means方法产生的5个box的信息。grid和anchor的唯一作用就是为了计算IOU，从而来确定正负样本。

对于每个3x3窗口，作者假定它来自9种不同原始区域的池化，但是这些池化在原始图片中的中心点，都完全一样。这个中心点，就是刚才提到的，3x3窗口中心点所对应的原始图片中的中心点。如此一来，在每个窗口位置，我们都可以根据9个不同长宽比例、不同面积的anchor，逆向推导出它所对应的原始图片中的一个区域，这个区域的尺寸以及坐标，都是已知的。而这个区域，就是我们想要的 proposal。