GitHub上有哪些比较好的计算机视觉/机器视觉的项目？

640?wx_fmt=jpeg

来源：Unsplash，作者： JR Korpa

来源：知乎问题

今天分享一下 Github 上不错的计算机视觉或者机器视觉方面的项目，包括入门的教程、非常经典的算法和实战项目等等。

今日推荐文章

github标星11600+：最全的吴恩达机器学习课程资源（完整笔记、中英文字幕视频、python作业，提供百度云镜像！）

计算机视觉联盟

https://www.zhihu.com/question/30049772/answer/831391266

从个人经历出发，全部都是自己在成长过程中所收集到的干货项目，很多都是自己经过筛选自己总结的，保证你能获取的是干货，拿走不谢！本王只需您的点赞和关注！

【1】机器学习西瓜书手推笔记（PDF可打印版本）

自己的纯手推笔记，附PDF可打印版本

https://github.com/Sophia-11/Machine-Learning-Notes

【2】计算机视觉领域资源汇总

汇集了计算机视觉资源汇总，包含计算机视觉方向算法汇总、论文汇总

https://github.com/Sophia-11/Awesome-CV-Resources

【3】计算机视觉顶会ICCV2019论文集（标星90）

持续更新收集所有ICCV2019论文集，做科研，搞算法，跟踪最前沿论文思路，少不了这些顶会论文，附下载链接

https://github.com/Sophia-11/Awesome-ICCV2019

【4】再几个目标检测经典算法链接：

YOLO darknet版本：

https://pjreddie.com/darknet/yolo/

YOLO Keras版本：

https://github.com/qqwweee/keras-yolo3

YOLO mobilenet：

caffe Linux 和Windows 版本：

https://github.com/eric612/MobileNet-YOLO

https://github.com/eric612/Caffe-YOLOv3-Windows

Keras版本：

https://github.com/Adamdad/keras-YOLOv3-mobilenet

MXNET版本：

https://gluon-cv.mxnet.io/model_zoo/detection.html#yolo-v3

https://github.com/sufeidechabei/gluon-mobilenet-yolov3

机器学习西瓜书手推笔记（PDF可打印版本）

Table of Contents

第一章绪论

高清图见GitHub链接：https://github.com/Sophia-11/Machine-Learning-Notes

第二章模型评估与选择

计算机视觉领域资源汇总

Table of Contents

全球高校计算机视觉实验室名单

计算机视觉算法资源汇总

AI顶会（2019~2020）

写了这么多的，希望得到您的关注和点赞，如果想获取更多，可以查看GitHub或关注公众号【计算机视觉联盟】！

量子位的回答

https://www.zhihu.com/question/30049772/answer/741863783

谷歌大脑Quoc Le团队，又训练出了一只地表最强的模型。

那是一个目标检测模型，从前并不是最强大。

但自从用机器学习解锁了特别的数据扩增策略，再用自动扩增来的新数据集训练目标检测模型，事情就完全不同了。

注意：目标检测和分类不一样，分类不需要标注边界框，而目标检测需要。

△ 左边是自动扩增数据，右边是成绩提升

模型在COCO目标检测任务上，拿到了50.7 mAP的最高分，刷新从前的纪录。

谷歌的方法，并没有改变模型本身，但有效提升了准确率，+2.3 mAP以上。

团队还强调，AI在COCO数据集里学到的扩增策略，直接迁移到其他数据集上，同样可以提升准确率。

现在，算法已经开源了，AI学到的扩增策略也在里面。

是怎样的扩增策略？

论文写到，这里的数据扩增只涉及了一些简单变换 (Simple Transformations) ：

有应用在整张图片上、但不会影响边界框的那种变换，比如从图像分类里借来的颜色变换 (Color Transformations)。
也有不影响整张图片、但改变边界框位置的那种变换，比如图像平移 (Translating) 或剪切 (Shearing) 。

注意，这些变换只用在训练过程中，不会用到测试环节里。

研究人员说，当变换的数量越来越庞大的时候，就很难手动把它们有效组合到一起了。

所以，就要用机器学习，搜索出更适合目标检测任务的组合策略。

思路是这样的：

团队把数据扩增搜索 (Data Augmentation Search) 看做一个离散的优化问题，优化的是模型的泛化表现。

在自家的另一篇论文 (arXiv:1805.09501) 基础上，把重点转移到针对目标检测的扩增策略上。

比起图像分类任务的数据扩增，目标检测的难点在于，要保持边界框和发生形变的图像之间的一致性(Consistency) 。

而边界框的标注，也为数据扩增提供了一种新的方式：只在边界框里面修改图像。就像上文讲的那样。

另外，团队还探索了在图片发生几何变换 (Geometric Transformations) 的情况下，怎样去改变边界框的位置。

具体方法是这样的：

把扩增策略定义成一组无序的子策略 (Sub-Policy) 。

在训练过程中，每个子策略都会被随机选中，应用到当前的图片里去。

每个子策略里，有N个图片变换，依次在同一张图上进行。

要把这个搜索过程，变成一个离散的优化问题，就要创建一个搜索空间。

空间里面，有5个种策略，每种子策略有2种图像变换运算。

另外，每个运算还和两个超参数相关联，一个是代表应用这个运算的可能性 (Probability) ，二是这个运算的大小 (Magnitude) 。

初步实验之后，团队定下了22种图像变换运算。

学习完成的子策略，成效是这样的：

肉眼可见，成效显著。

一是在COCO目标检测中，以50.7 mAP拔得头筹，(比策略训练前) 提升了2.3 mAP。

二是在PASCAL VOC目标检测中，提升了2.7 mAP。

也就是说，在COCO上训练好的策略，直接搬到其他数据集上也有效。

团队说，这个方法尤其适合在小数据集中避免过拟合。

代码开源了，你也去试一下吧。

论文传送门：

https://arxiv.org/abs/1906.11172

代码传送门：

https://github.com/tensorflow/tpu/tree/master/models/official/detection

— 完 —

量子位

「已注销」

https://www.zhihu.com/question/30049772/answer/127460083

非常多啊

先说说较大的框架项目：

**OpenCV **https://github.com/opencv/opencv
dlib https://github.com/davisking/dlib
Caffe https://github.com/BVLC/caffe
Mxnet https://github.com/dmlc/mxnet
tensorflowhttps://github.com/search%3Futf8%3D%25E2%259C%2593%26q%3Dtensorflow

视觉这块最主要的检测以及追踪

检测：

RCNN，Fast-RCNN，Faster-RCNN 现在最主流的检测框架，https://github.com/rbgirshick/py-faster-rcnn -- see https://github.com/ShaoqingRen/faster_rcnn for the official MATLAB version
SSD，达到实时的检测算法，https://github.com/weiliu89/caffe/tree/ssd
DPM，早期的检测算法，使用latent SVM GitHub - https://github.com/rbgirshick/voc-dpm.

追踪：

TLD，非常鲁棒的跟踪算法 https://github.com/zk00006/OpenTLD

孔涛

https://www.zhihu.com/question/30049772/answer/107232336

我来回答几个，以下的几个代码我都实际运行过，有一部分仔细读过。

pdollar (Piotr Dollar) https://github.com/pdollar

Piotr's Computer Vision Matlab Toolbox，里边包含各种各样的算法，包括特征提取、分割、分类稍等等。

DL系列

Caffe: https://github.com/BVLC/caffe: a fast open framework for deep learning.
model zoo: https://github.com/BVLC/caffe/wiki/Model-Zoo，这个里边包含了基于caffe实现的各种各样的模型。