INTRO
- 模拟/数字图像处理:
- 模拟: 信息量大,处理速度块; 精度差; 可移植差; (数字反之)
- 流程:
- 预处理: 改善图像质量,减少干扰,低级处理阶段 (图像增强,复原,编码压缩) 输入输出都是图像
- 识别: 中级 输入图像,输出分类结果
- 理解: 分析和解释图像 高级
- 特点:
- 数据量大
- 数据量/频带 电视图像5.6M
- 像素相关性大,可压缩潜力大
- 二维三位
- 受人影响大
图像数字化
- 视觉系统是图像的信宿
- 人类认知: 质量评估
- 视角: 上下60 左右180
- 视觉特性:
- 平稳追踪运动
- 单栾运动
- 非随意运动 —
- 注意点在黑白交接处,以及拐角
- 对闭合图形容易像图内侧移动
- 容易几种在运动变化部分
- 容易几种在不规则处 —
- 同样速度大物体显得慢
- 与运动方向水平的物体显示块
- 若隐若现像是在运动 —
- 时空频率特性(对比度)
- 视觉暂留
- 主观亮度(非线性)
- 马赫效应(边缘增强 亮更亮)
- 表示方法:
- 自然场景图: 照射函数 + 反射函数
- 采样,量化 (Nyquist采样) (均匀量化)
- 空间分辨率,灰度分辨率
- 噪声分析:
- 不可预测,采用均值,方差或是相关函数描述
- 分类:
- 平稳非平稳 (统计特性是否随时间变化)
- 外部内部
- 分布: 高斯 瑞利 gamma
- 频谱形状 白噪声 1/f噪声 三角
- 加/乘性 (一般被近似于加性)
- 质量评价:
- 保真度: 与标准图像之间的偏移
- 互相关函数R
- 均方误差
- 峰值信噪比,信噪比均方误差(PMSE)
- 清晰度 平均梯度
- 可懂度: 提供信息能力
- 保真度: 与标准图像之间的偏移
- 彩色:
- RGB / CMY
- IHS彩色模型(分析人眼): - related with 图像融合
图像变换
- DIrac冲激:
- 二维(离散)傅里叶变换DFT
- 卷积和相关运算在时域计算量大
- DFT可用FFT加速
- 一般正变换带 1/M
- 可分离性(2-D转1d),共轭对称性,平移性(想要把频域原点挪到图像中心,只需要对f(x,y)乘上(-1)^(x+y),再DFT)
- 旋转不变性
- 卷积定理
- 傅里叶变换的特点:
- 进行复数运算复杂
- 频域收敛慢,不适合图像编码
- 动态范围大
- 最常用,但是难以实时
- 离散余弦变化:DCT
- 问题:
- 复数运算
- 仍然需要三角函数运算,复杂度高(将矩阵中的元素变为1/-1)
- 理想图像压缩
- 问题:
- Walsh-Hadmard (DWT)
- (* 自然二进制到格雷码,从高到低,与上一位做和)
- 由2^n阶Hadmard矩阵得
- 最简单,计算量小
- 离散KL变换
- 消除特征之间的相关性,凸显差异
- 最精确,收敛性好
图像压缩编码
- 压缩方法:
- 平均信息法: 香农,霍夫曼
- 预测法: 插值脉冲调制,增量调制
- 变换法: 小波变换,正余弦变化
- 图像熵: (平均信息量) (香农定理说明:信源熵是无失真编码的浏览极限,使用高阶熵可以获得更高压缩比) 平均码长 > 信源熵 H/logr <R<H/logr+1
- 香农
- 霍夫曼
- 算术编码: 将整个符号序列映射为一个实数
- 前子区域左端+当前子区左端x前子区长度=新子区域左端
- 前子区域长度x当前字区域长度=新子区域长度
- 预测法编码: (仅对内个像素中的新信息编码)
- 帧内线性预测: (差分编码)
- 给预测期加一个量化器就是有损预测编码
- Delta调制; (1bit)
- DPCM中图像降质:
- 斜率过载引起边缘模糊
- 颗粒噪声
- 假轮廓噪声
- 误码扩散
- 最佳线性预测: Minimize 均方误差
- 预测系数需要满足: e=0为量化电平,且电平数为奇数(避免极限环,减少误码扩散)
- 量化:
- 可见度阈值: 像素预测误差绝对值一定时,能容忍的最大量化误差(是一条曲线) 对其取45`斜线,横坐标焦点为输出电平
- 帧内线性预测: (差分编码)
- 变换编码: 转移到其他域进行编码(降低相关性)
- 缺点: 抗信道五码能力强,但是算法复杂
- 准则: 最大方差,区域编码; 最大赋值:门限编码
- 常用DCT:
- 没有块效应
- 压缩能力强
- JPEG (Joint Photographic Experts Group)
- 8*8 DCT
- 蛇形编码
- DC/AC系数
- 单义码 - 唯一可译码 非续长码 - 即时码
图像增强和复原
- 增强: 不考虑图像降质,突出有用的特征,不一定逼真原图像 -“可懂度” 空域灰度处理,频域滤波
- 灰度修正: 映射改变灰度分布(幂次变换 - 减小动态范围)
- 直方图修正: (从直方图角度修正出我们想要的分布) - 用于图像配准
- 直方图均衡 (相对均匀,且会导致有效灰度级减小)
- 同态增晰:
- 自然场景: 照射函数(光线与景物无关,低频)+反射函数(景物细节,在0~1,高f) - 基于这个做滤波(可以改善过曝)
- 平滑(为了减少噪声)
- 空域: 领域平均
- 频域: 低通滤波
- 一般线性滤波
- 非线性滤波(统计排序滤波 - 中值滤波)
- 用领域内像素的中值替代该像素
- 有效处理脉冲椒盐噪声
- 客服平滑滤波的细节模糊
- 但对细节多的不适合
- 锐化(使边缘和细节清晰)
- 微分运算,加重高频分量使图像清晰
- 必须要提高信噪比
- 空域: 直接在空域进行微分算子; 频域:在频域通过HPF来增强
- 梯度算子:
-
直接使用,使平滑区域变暗 G(x,y)= f(x+1,y+1)-f(x,y) + f(x+1,y)-f(x,y+1) Solu: 采用阈值 - 拉普拉斯算子:(线性+具有旋转不变性) f(i-1,j)+f(i+1,j)+f(i,j-1)+f(i,j+1)-4f(i,j) (边缘会更细)
- 缺点:
- 线性变化区域,结果为0
- 直线到斜线,产生脉冲,方向与变化趋势同
- 灰度突变产生双向脉冲
- 存在孤立噪声中,会产生强响应 (要求图像具有较高的信噪比)
- 缺点:
-
- 几何畸变 (系统的,可预测)
- 坐标关系估计:
- 设线性畸变为:找出几个点估计映射
- 最邻近像素法(距离采样点最近的灰度当做采样灰度) 双线性内插,利用分段函数进行灰度内插
- 伪彩色处理
- 灰度修正: 映射改变灰度分布(幂次变换 - 减小动态范围)
- 复原: 要考虑讲质,要建立复原好坏的客观标准 -“保真度” 线性滤波复原
- 线性滤波复原
- 利用退化现象的鲜艳知识来重建与恢复图像
- 运动降质
- 逆滤波,维纳滤波,约束最小局方误差滤波(简化难度)
图像分割
- 利用退化现象的鲜艳知识来重建与恢复图像
- 线性滤波复原
- 非连续分割(以不同类别之间的灰度变化为基础)/相似分割(相同灰度级别或是相同组织结构)* 边缘检测算子
- 实际图片利用差分来代替导数
- 用梯度算子或是拉普拉斯算子
- 对噪声敏感
- SOLU: 适当平滑: Marr
- 局部线性拟合,再用光滑函数: Facet
- 评价标准: 1. 高检测概率,低虚警 2. 定位精度 3.唯一性
- Marr边缘检测算法(先进行平滑滤波(Gauss平滑滤波),求导数检测边缘)
- Canny算法: 高斯平滑滤波(二维高斯平滑滤波)低通,减小SNR; 梯度算子(3x3)+NMS,最后双阈值处理
- Hough: 坐标变换,将给定形状的曲线变换为空间中的一个点,将曲线检测,转换为变换空间的峰值点问题
- 阈值的选取非常关键:
- 简单直方图分割(双峰法)
- 最佳阈值(正态分布,选取阈值难)
- 类间方差阈值分割(Otsu 在判决最小二乘基础上) 算法简单,准则: 类间方差Max,类内方差最小
- 一/二维最大熵分割
- 区域增长法:
- 单连接区域: 根据两个像素点之间相似性(一般取灰度)
- 混合连接: 整个领域来判断
- 中心连接区域: 从满足某种相似性准则为中心,向各个方向
- 分开-合并区域
- 金字塔/四叉树结构的层次概念,以一定的均匀性检测准则进行分裂和合并
- :star: 形态学
- 形态学变换处理,与逻辑操作存在一一对应
- 连通域: 连在一起的黑色像素,是一个连通域
- 膨胀(Dilation) [用小元素位移] - 桥接断裂图像的间隙
- 消除连通域的边界,使边界内缩
- 腐蚀(Erosion) [在A内部以小元素位移] - 消除不相关细节
- 边界外扩
- 开闭(Opening&Closing) - 消除指纹噪声
- 开: [先用结构元B腐蚀,在对腐蚀结构用同样结构元膨胀] 开的结果是A的子集,利用对称的结构元B做多次相当于做一次 A`B==(A-B)+B
- 闭运算: [结构元B对A膨胀,再用同样结构元进行腐蚀] A.B=(A+B)-B
- 击中与否(hit or miss) (形状检测的基本工具)
- 应用:
- 边界抽取: 先腐蚀后减去腐蚀结果
- 区域填充: 迭代膨胀
- 连通分量提取
- 灰度膨胀/腐蚀
- 灰度开/闭
- 开: 去除小而亮的细节(先腐蚀消除小细节同时图像变暗)
- 闭: 去除小而暗的
图像描述
- 简单几何: 面积/周长/位置(中心点为物体质心)/方向/投影
- 周长:
- 交界线长度:外围一圈方格的轮廓长度
- 链码:每个像素一个点
- 边界点数:边界方格数
- 距离:
- 正规距离: (图像中点p到集S距离最小值)
- 曼哈顿
- 欧式距离
- 拓扑特性:
- 邻接: 4/8邻域
- 连通: S是图像1个自己,PQ是S中的点,若PQ之间存在一个全部点都在S中的路径,则PQ连通
- 连通分量: S中任意Q,S中所有与P连通的点构成的集合
- 背景: S补连通到图像边缘的点的集合,是S的背景B,S中其他连通分量使孔
- 包围,若S到达边缘一定与T相遇,则T包围S
- 形状表述:
- 分散度: S=P(周长)^2/A(面积),有二义性
- 伸长度: A/W(宽度)^2
- 欧拉数: (描述连通性)区域内部连通组员个数与孔数之差
- 凹凸: (连线重点在体内/外)
- 矩不变量:
- 中轴变换/收缩/膨胀/细化
- 边界描述: 四/八邻域; 傅里叶形状描述子
- 纹理描述
- 灰度共生矩阵(指图像中有特定空间联系的一对像素)
- 功率谱
- 模式识别: 数据获取-与初期-特征提取和选择-决策分类
- 线性决策
- 距离函数
- 似然函数
题目
- 椒盐噪声,中值滤波 Better 均值滤波
- 椒盐噪声均值不为0,所以不能用均值滤波
- 直方图均衡的思想: 对像素个数多的灰度级展宽,像素个数少的灰度进行削减,以清晰图像
- 直方图分布越均匀,对比度大
- 数据压缩利用了数据的冗余,不相干; 包含编码冗余,视觉认知冗余,时空冗余
- 中值滤波: 将窗(邻域)内的数据从小到大排列并取中间
- 4 邻域 8邻域
- 对椒盐噪声效果好,非线性滤波,能在滤波同时不让边缘模糊
- 中点滤波: max和min的中点
- 直方图规定化: 用于匹配
- 图像增强: 改善图像的视觉效果,将图像清晰
- 图像增强主观,图像复原客观,需要了解降质模型
- 平滑: LPF, 锐化: HPF
- 梯度算子 [-1,1] [1;-1] || 拉普拉斯算子 (都能用于边缘提取,都对噪声敏感)
[ 1 ] [1,-4,1] [ 1 ]
- 图像分割: 把图像分割为互不重叠的区域,并提取ROI
- Hough变换的原理: 从直线上的点的坐标变换为过点的直线的系数域,利用共线与直线相交的关系,是直线提取转化为计数
- 假彩色增强: 彩色 - 另一个彩色; 伪彩色: 黑白 - 彩色
- 如何利用Hough变换检测
- Hough变换是对图像进行某种形式的映射,将原空间给定形状的曲线,变换为变换空间中的一个点,转化为求峰值
- 圆的方程 (x-a)^2+(y-b)^2=1与空间中的点(x,y)对应
- (x,y)中的共圆点,在新空间中对应曲线相交与(x,y),将新空间量化为许多小格,累加并找出峰值(a0,b0就是拟合参数)
- 二义性 矩不变量不具有,直方图具有
- 逆滤波复原基本原理与不足
- 已知降质函数H(u,v)和降质图像的傅里叶变换G(u,v)后,恢复复原图像的F(u,v)=G(u,v)/H(u,v),复原图像由Fourier反变换
- 噪声(只能复原SNR高的区域), H(u,v)衰减,传递函数存在零点,复原局限于离原点不太远的有线区域
- 算术编码:
- 用0到1的线段上的一个区间定义一个符号,区间长度等于序列概率
- 序列数目增加,描述序列的间隔变小,二进制数目变多
- 解码是一个逆过程,按Qe接近0,Pe靠近1侧分割成两个区间,并判断落在哪个子区
- 归一化中心距
- 平移 旋转 缩放不变性 都不具有
- 连通:
- 自反/互换/传递 (没有对称(?))
- 解释”图”和”像”
-
图:物体投射反射光的分布 像: 人的视觉系统对图的接受在大脑中的意识
-
- DPCM的原理
- 基于图像之间相邻像素的强相关性,每个像素依据已知像素来预测.
- 编码的不是实际值,而是与预测的差值
- 区域增长:
- 把两个连接像素看做图中的一个节点,与相邻的像素对比,衡量是否足够相似(比如灰度之差,或是像素矢量差的膜)
- 图像增强和复原
- 改善图像的质量,输入为图像,输出为图像
- 图像增强改善图像视感,突出感兴趣部分,提高”可懂性”;
- 图像恢复提高图像的保真度,客观
- 二维最大熵:
-
以原始图像各个像素的四邻域为一个区域,计算区域灰度均值,得出图像的灰度均值二维直方图,用区域AB的后验概率表示并归一化定义二维熵,并选取能让熵最大的分割
-
- 一阶微分:
- 边缘取0
- 像卷积核一样挪
- 直方图均衡
- 计算各灰度级的累积概率
- 做舍如处理(类似于量化) 依据原图像灰度级
- Huffman编码
- 膨胀腐蚀运算
- 结构元取左上角的元素,在原图上滚,扩散
- 在原图的范围内看能fit几个结构元
- 均值中值滤波
- 同样边缘不变
- 灰度范围线性变化
- 就是一个线性映射
- 腐蚀操作符合容斥原理,与补集
- 求灰度共生矩阵 (距离(指两个像素之间相差几个), 角度)
- 统计元素的个数: 比如(0,0)处就是统计按照规则的(0,0)在图像中有多少个
- 矩阵的大小为图像中有多少种元素65
- 顺序无关, 矩阵对称
- 区域增长
- 一般是8邻域
- 是<阈值
- 边缘提取
- 梯度与拉普拉斯算子到了边缘上补0