YOLO v1笔记
本文发布于771 天前,最后更新于754天前,其中的信息可能已经有所发展或是发生改变。

学习内容来源:同济子豪兄的个人空间_哔哩哔哩_bilibili

作者介绍

Joseph Redmon,You Only Look Once、YOLO9000、YOLOv3。

2020年起不再从事计算机视觉研究。

作者宣布停止CV研究

预测阶段(前向判断)

YOLOv1结构

输入一个448*448*3的图像,经过一系列的卷积和池化操作,得到一个7*7*1024的feature map,将其拉平,送入4096个神经元的FC层中,输出结果输入到1470(7*7*30)个神经元的FC层中,输出1470维向量,reshape成7*7*30的tensor。

why7*7*30?论文中将图像划分为S*S个网格,这里S取7。每个grid cell(网格)可以预测出B个bounding box(预测框,包含x,y【中心坐标】,h,w【宽高】,c【置信度confidence,包含物体的概率,用框线粗细表示,粗的置信度高】),这里B取2。30=2*5+20。2:2个框;5:5个参数;20:Pascal VOC中20个类别的条件概率(该grid cell在包含物体情况下是xx的概率)。

输出7*7*30模型结构

如何定义bounding box是属于这个grid cell?只要该bounding box的中心是在这个grid cell中即可。

当框内含有物体时,能计算某物体概率。将每个bounding box的置信度×条件概率,获得每个bounding box各类别的概率。值得注意的是,每个grid cell只能预测一个物体,7*7最多只能识别49个物体

划分网格
输入输出流程

预测阶段后处理——NMS非极大值抑制

使用bounding box的置信度,即该box中存在物体的概率,乘以是该种物体的条件概率,得到该种物体的全概率。因此每个grid cell可以得到2个20维的全概率,或者说每个种类有7*7*2=98个概率,最终生成7*7*2*20个概率。

对于小于阈值(如0.2)的值直接设为0。

对于非0

概率预测

当两个框的交并比IoU(两个框的并部分/两个框的交部分)>0.5时,可以认定两个框重复识别了同一个物体,将低概率的框去除(将其条件概率置为0),否则暂时将其保留,继续进行比较,直至将98个bounding box比较完,最后保留n个框。

注意,NMS操作仅在预测阶段进行!

训练阶段(反向传播)

每个grid cell只能代表一个物体,因此最多有49个物体。当ground-truth的中心点落在grid cell中时,生成的两个bounding box中,只使用与ground-truth的IoU较大那个进行拟合物体,另一个则弃之不用。当ground-truth中心点不在grid cell中,则直接放弃这两个bounding box。

损失函数

损失函数由5部分组成。

损失函数

5项均为回归问题的损失函数,其中

  • 式1:负责检测物体的bbox中心点定位误差;
  • 式2:负责检测物体的bbox宽高定位误差,其中求根号能使小框对误差更敏感,大框的偏差减小,对大框更公平;前两项是对坐标回归误差
  • 式3:负责检测物体的bbox 的置信度confidence误差,标签值即为bbox和ground truth的IoU,越接近1越好;
  • 式4:不负责检测物体的bbox 的置信度confidence误差,越接近0越好;3、4是置信度回归误差
  • 式5:负责检测物体的grid cell分类误差,即类别预测误差

权重设置:对于负责定位检测的${\lambda}_{coord}$取5,不负责检测物体的${\lambda}_{noobj}$则取0.5。

值得注意的是,负责检测物体的$\mathbb{1}^{obj}_{i}$与$\mathbb{1}^{obj}_{ij}$同为0/1,而$\mathbb{1}^{noobj}_{ij}$则相反。

论文细节

对比其他目标检测方法,在实时目标检测中,YOLO是最准的,在非实时目标检测中,YOLO是最快的。初代版本YOLO的精度位于R-CNN与Fast R-CNN之间,但其速度很快,FPS达到45。

精度与速度对比

Fast R-CNN只能看到RoI,区分背景能力差,但是精确定位性能好;YOLO能看到全图,区分背景和物体能力强,但精确定位能力差。

Fast R-CNN与YOLO错误分析

论文精读

Two stage的算法是先提取候选框,再对其进行甄别,而YOLO则是直接输出检测结果。

V1-V3版本的作者均为Joseph Redmon。

本文作者: HUII
本文链接: https://www.huii.top/817.html
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自飞一网 !部分图片来源见水印或引用。
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇