学海泛舟

Stanford CS131 lecture1~4学习总结

首先,这个课程的开始形象化的表述了什么是计算机视觉,类比于人类的视觉,计算机视觉将摄像机等电子设备当作视觉器官来获取图像,然后使用电脑代替大脑进行分析,最终达到理解图像的目的。简而言之,计算机视觉是为了连通单纯的像素和理解意义。通过计算机学习,我们希望能从图片中获得的信息主要是两点:一是三维信息,即从图片这种二维载体中,恢复物体原本的三维信息;二是语义信息。计算机视觉的应用非常广泛。

接着,介绍了在计算机视觉中广泛采用的工具——线性代数和Matlab。将图像通过矩阵表示,运用矩阵的操作来操控图像完成一系列工作。矩阵的变换是其中重要的一点,例如缩放、旋转等。在实际进行计算机视觉工作时,我们经常需要进行仿射变换,为了方便进行这样的操作,引入了一个齐次坐标的概念,即将向量增加一维,并且新增的一维为1,与此同时,变换矩阵相应要增加一行,并且新增的一行,除最后一个元素为1外,其余都为0。本来平移操作是要通过矩阵的加法来完成的,但是通过增加一维后,乘法也变得可行。采用齐次坐标的方式完成仿射变换是一个常用的方式。同时还要关注矩阵的逆、矩阵的秩和矩阵的分解,如奇异值分解。奇异值分解是一种非常实用,且应用广泛的矩阵分解方式,可以用于图片的压缩。奇异值分解解决了特征值分解无法应用于非方阵的局限性,使得任何矩阵的分解成为了可能,运用主成分分析,即可完成图片的压缩。

在第四课中更加明确了图片在计算机视觉中地位,即将图片看作一个离散函数,以像素位置作为自变量,将该位置的像素的属性作为因变量。透过这个角度,使得对图像的处理成为可能,如通过过滤器就可以实现图像的降噪、超分辨率、修复等工作。过滤器常见的有移动平均和图像分割。要着重关注的两个特征:线性系统和平移不变系统。此外,卷积和互相关也常用于图像处理,但是两者都有边缘效应需要注意。同时应该注意两者之间的区别,卷积是一种滤波操作,而互相关是应用于比较相似度的。卷积和相关的计算有一定的相似度,但是卷积进行操作时要首先将卷积核旋转180度,而相关计算时则不需要,所以对于对称的卷积核,卷积和相关的结果是相同的,比如高斯核。