GY
中华人民共和国广播电视和网络视听行业标准
GY/T 412—2024
超高清视频图像质量客观评价方法
Objective assessment methods for ultra high-definition video image quality
2024 - 12 - 30发布
2024 - 12 - 30实施
国家广播电视总局 发布
GY/T 412—2024
I
目 次
前言 ............................................................................... III
引言 ................................................................................. V
1 范围 .............................................................................. 1
2 规范性引用文件 .................................................................... 1
3 术语和定义 ........................................................................ 1
4 缩略语 ............................................................................ 1
5 图像质量客观评价方法通则 .......................................................... 2
6 全参考图像质量客观评价方法 ........................................................ 2
6.1 概述 .......................................................................... 2
6.2 PSNR测试方法 .................................................................. 3
6.3 ΔEITP测试方法 .................................................................. 3
7 无参考图像质量客观评价方法 ........................................................ 6
7.1 概述 .......................................................................... 6
7.2 UHD-VTQ测试方法 ............................................................... 7
附录A(资料性) 视频图像质量客观评价方法的选用原则 .................................. 9
A.1 全参考图像质量客观评价方法的选用原则 .......................................... 9
A.2 无参考图像质量客观评价方法的选用原则 .......................................... 9
附录B(资料性) 基于机器学习的全参考图像质量客观评价方法 ........................... 10
B.1 MFF-VQA测试方法 .............................................................. 10
B.2 DL-VQA测试方法 ............................................................... 12
B.3 RF-VQA测试方法 ............................................................... 15
附录C(资料性) 基于机器学习的无参考图像质量客观评价方法 ........................... 18
C.1 UHD-QM测试方法 ............................................................... 18
C.2 DRL-VQA测试方法 .............................................................. 21
C.3 NR-VQA测试方法 ............................................................... 23
附录D(资料性) UHD-VTQ方法检测结果的评分及加权计算方法 ........................... 26
参考文献 ............................................................................ 27
GY/T 412—2024
III
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
本文件由全国广播电视和网络视听标准化技术委员会(SAC/TC 239)归口。
本文件起草单位:国家广播电视总局广播电视规划院、中国传媒大学、上海交通大学、中央广播电视总台、鹏城实验室、北京市广播电视局、北京广播电视台、湖南快乐阳光互动娱乐传媒有限公司、广东广播电视台、上海广播电视台、四川国创新视超高清视频科技有限公司、成都索贝数码科技股份有限公司、新奥特(北京)视频技术有限公司、北京中科大洋科技发展股份有限公司、工业和信息化部电子第五研究所、优酷信息技术(北京)有限公司。
本文件主要起草人:王惠明、邓向冬、宁金辉、李岩、史萍、闵雄阔、张乾、崔俊生、许帅、刘汉源、潘达、应泽峰、朱文瀚、翟广涛、杨小康、王振中、宋小民、刘斌、秦旭东、刘康淋、贺文林、唐晓宇、何莹、甄占京、潘波、周立、林海峰、卢海波、刘芸江、李云龙、郑欣、邢卫东、黄永洪、刘汉武、尚峰、盛轶骏、汪芮、孙琳、戴霖、姚仕元、褚震宇、张金沙、张婷、王威、张晓波、邹双泽、刘征、王雪婷、耿仪、费凌云、贾子恒、韦胜钰、李静、张家斌。
GY/T 412—2024
V
引 言
本文件的发布机构提请注意,声明符合本文件时,可能涉及到7.2中相关专利的使用。
本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。
该专利持有人已向本文件的发布机构承诺,他愿意同任何申请人在合理且无歧视的条款和条件下,就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案。相关信息可以通过以下联系方式获得:
专利持有人姓名:国家广播电视总局广播电视规划院
地址:北京市复兴门外大街2号
请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别专利的责任。
GY/T 412—2024
1
超高清视频图像质量客观评价方法
1 范围
本文件规定了超高清视频的全参考图像质量客观评价方法和无参考图像质量客观评价方法。
本文件适用于超高清视频的图像质量客观评价。对于能够达到或超过本文件客观评价方法的准确度的任何等效评价方法也可以应用。有争议时以本文件为准。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 41808—2022 高动态范围电视节目制作和交换图像参数值
GB/T 41809—2022 超高清晰度电视系统节目制作和交换参数值
3 术语和定义
下列术语和定义适用于本文件。
3.1
自然场景图像统计特征 natural scene images statistical characteristics
一种表征自然场景图像所具有的高阶数学统计量(如方差、峰度、散度等)的图像质量数学模型。
注:
该统计量的分布参数与图像内容紧密相关,可反映图像之间的质量差异。
3.2
Adam优化算法 adam optimizer
一种深度神经网络训练中常用的,通过优化模型参数使神经网络的损失函数达到最小值的参数优化算法。
4 缩略语
下列缩略语适用于本文件。
CIE 国际照明委员会(International Commission on Illumination)
DCT 离散余弦变换(Discrete Cosine Transform)
DDPG 深度确定性策略梯度算法(Deep Deterministic Policy Gradient)
DL-VQA 基于深度学习的视频质量评价(Deep Learning based Video Quality Assessment)
DRL-VQA 基于深度强化学习的视频质量评价(Deep Reinforcement Learning based Video Quality Assessment)
HDR 高动态范围(High Dynamic Range)
HLG 混合对数伽马(Hybrid Log Gamma)
GY/T 412—2024
2
MFF-VQA 基于多特征融合的视频质量评价( Multi Feature Fusion based Video Quality
Assessment)
MOS 平均主观得分(Mean Opinion Score)
NR-VQA 无参考视频质量评价(No Reference Video Quality Assessment)
PQ 感知量化(Perceptual Quantization)
PSNR 峰值信噪比(Peak Signal to Noise Ratio)
RBF 径向基函数(Radial Basis Function)
RF-VQA 基于残差的全参考视频质量评价(Residual-based Full-reference Video Quality
Assessment)
SDR 标准动态范围(Standard Dynamic Range)
SSIM 结构相似度指标测量(Structural Similarity Index Measurement)
SVR 支持向量回归(Support Vector Regression)
UHD-QM 超高清质量测量(Ultra High Definition Quality Measure)
UHD-VTQ 超高清视频技术质量(Ultra High Definition Video Technical Quality)
5 图像质量客观评价方法通则
本文件规定的超高清视频图像质量客观评价方法包括两大类:全参考图像质量客观评价方法和无参
考图像质量客观评价方法。
全参考图像质量客观评价方法是指评价时具有源视频可以参考,通过对源视频和被测视频进行对比
计算分析,评估被测视频相对于源视频的感知质量损伤,其评价示意图见图1。
被测系统或设备
全参考图像质量
被测视频客观评价系统源视频
(参考)
客观质量
评分
图1 全参考图像质量客观评价示意图
无参考图像质量客观评价方法是指评价时没有源视频可以参考,直接对被测视频进行计算分析,评
估被测视频的感知质量,其评价示意图见图2。
被测系统或设备
无参考图像质量
客观评价系统
被测视频客观质量
评分
图2 无参考图像质量客观评价示意图
6 全参考图像质量客观评价方法
6.1 概述
全参考图像质量客观评价可采用表1 规定的方法,相关方法的选用原则见A.1。
GY/T 412—2024
3
表
1 全参考图像质量客观评价方法
序号
方法名称
简介
计算过程
1
PSNR
对源视频和被测视频的对应图像帧进行逐像素的比较计算,通过最大信号量与噪声强度的比值来反映两个图像之间的差异。PSNR值越大,表明被测视频与源视频差异越小
见6.2
2
ΔEITP
ΔEITP用于评估被测视频相对于源视频的色彩偏差。ΔEITP等于1时,表示色彩偏差恰好可察觉,值越大表示偏差越明显
见6.3
3
MFF-VQA
分别提取源视频和对应的被测视频的亮度特征、色度特征、时间特征、多尺度特征等,采用支持向量回归模型将上述特征回归得到客观质量评分,满分为100分,分值越大,表示被测视频与源视频的质量差异越小
见B.1
4
DL-VQA
采用ResNet18网络提取源视频和对应的被测视频的特征,并对这些特征进行合并,通过全连接层回归得到客观质量评分,满分为100分,分值越大,表示被测视频与源视频的质量差异越小
见B.2
5
RF-VQA
对源视频和被测视频求差值后,采用ResNet50网络提差值图像的特征,经过通道和区域注意力机制学习特征信息,最后通过池化和全连接层回归得到客观质量评分,满分为100分,分值越大,表示被测视频与源视频的质量差异越小
见B.3
注
1:MFF-VQA、DL-VQA和RF-VQA均存在机器学习机制,评测结果与训练用数据集密切相关。
注
2:ResNet是一种当前应用相对广泛的深度神经网络结构,主要由多个残差模块构成,用于提取具体任务所需的相关深度特征。网络深度为18层时,简称ResNet18;网络深度为50层时,简称ResNet50。
6.2 PSNR测试方法
PSNR测试步骤如下。
a
) 对源视频和被测视频进行时间和空间对齐,保证两个视频的图像帧对齐,且图像内容无空间位移或缩放。
b
) 按公式(1)逐帧计算每帧图像Y、U、V分量的PSNR值。根据需要,可对三个分量的计算结果进行加权平均,基于图像处理和视频压缩中的实际经验与人眼感知特性,加权系数可为6:1:1。
????=10×???10?×???? ................................... (1)
式中,?根据视频信号样值的比特数(bitdepth)计算,计算方法为2bitdepth-1。???的计算见公式(2)。
???=1?×?ΣΣ(?ij−?ij′)2N−1j=0M−1i=0 .............................. (2)
式中:
? ——视频图像帧的水平像素数;
? ——视频图像帧的垂直像素数;
?ij ——源视频图像帧第i列第j行像素的分量样值(例如YUV中的Y、U或V);
?ij′ ——被测视频图像帧第i列第j行像素的分量样值(例如YUV中的Y、U或V)。
c
) 对每帧(或所有帧)的PSNR计算结果进行算术平均,作为被测视频的最终PSNR结果。
6.3 ΔEITP测试方法
6.3.1 通则
GY/T 412—2024
4
ΔEITP指标测试应基于显示参考线性RGB值进行计算,计算源视频和被测视频的ΔEITP时,需要先将视频信号值转化为显示参考线性RGB值,再按6.3.2的相关步骤进行计算。
6.3.2 显示参考线性RGB值的ΔEITP计算
显示参考线性RGB值的ΔEITP计算包括以下5个步骤。
a
) 采用公式(3),将显示参考线性?、?、?转换为线性?、?、?。
?=(1688?+2146?+262?)/4096
?=(683?+2951?+462?)/4096 ......................... (3)
?=(99?+309?+3688?)/4096
b
) 采用公式(4)将线性?、?、?转换为非线性?′、?′、?′。
{?′,?′,?′}=????−1(?) ............................. (4)
式中:
?={?,?,?} ????−1(?)=(?1+?2??11+?3??1)?2
其中,?=?/10000 ?1=2610/16384=0.1593017578125 ?2=2523/4096×128=78.84375 ?1=3424/4096=0.8359375=?3−?2+1 ?2=2413/4096×32=18.8515625 ?3=2392/4096×32=18.6875
c
) 采用公式(5)将非线性?′、?′、?′转换为GB/T 41808—2022表7中定义的?、??、??。
?=0.5?′+0.5?′
??=(6610?′−13613?′+7003?′)/4096 ......................... (5)
??=(17933?′−17390?′−543?′)/4096
d
) 采用公式(6)缩放ICTCP以创建ITP。
?=?
?=0.5×?? ...................................... (6)
?=??
e
) 采用公式(7)计算Δ????。
Δ????=720×√(?1−?2)2+(?1−?2)2+(?1−?2)2 ...................... (7)
式中,I、T和P是视频信号颜色分量的缩放版;下标1和下标2表示要比较的两组信号值。?1、?1、?1为源视频信号的ITP值,?2、?2、?2为被测视频信号的ITP值。
6.3.3 HDR ICTCP分量视频的ΔEITP计算
当源视频和被测视频采用HDR ICTCP分量表示时,ΔEITP的计算应以源视频和被测视频的ICTCP数字样值作为计算基础,先按公式(8)或公式(9)进行归一化,然后再按照6.3.2步骤d)和步骤e)计算ΔEITP。
——
对于全范围信号。
?=?D/(2?−1)
??=(???−2?−1)/(2?−1) ............................ (8)
??=(???−2?−1)/(2?−1)
——
对于窄范围信号。
GY/T 412—2024
5
?=((?D/2?−8)−16)/219
??=((???/2?−8)−128)/224 ........................... (9)
??=((???/2?−8)−128)/224
式中:
?为量化比特数;
{?D,???, ???}为ICTCP的数字样值。
6.3.4 HDR PQ RGB分量视频的ΔEITP计算
当源视频和被测视频采用HDR PQ RGB分量表示时,ΔEITP的计算应以源视频和被测视频的PQ RGB数字样值作为计算基础,先采用公式(10)~公式(12)将RGB数字样值转换为显示参考线性RGB值,然后按照6.3.2步骤a)~步骤e)计算ΔEITP。
?′={?′?(2?−1)⁄((?′?2?−8⁄)−16)219 ⁄ 全范围窄范围} ......................... (10)
式中:
?为量化比特数;
?′?={?′?,?′?,?′?},为RGB的数字信号样值。
{?,?,?}=????(?′) ................................. (11)
式中:
?′={?′,?′,?′},为归一化的非线性信号。
????(?′)=10000×(max [?′1?2⁄−?1,0]?2−?3?′1?2⁄)1?1⁄ ......................... (12)
式中: ?1=2610/16384=0.1593017578125 ?2=2523/4096×128=78.84375 ?1=3424/4096=0.8359375=?3−?2+1 ?2=2413/4096×32=18.8515625 ?3=2392/4096×32=18.6875
6.3.5 HDR HLG RGB分量视频的ΔEITP计算
当源视频和被测视频采用HDR HLG RGB分量表示时,ΔEITP的计算应以源视频和被测视频的HLG RGB数字样值作为计算基础,先采用公式(13)~公式(15)将RGB数字样值转换为显示参考线性RGB值,然后按照6.3.2步骤a)~步骤e)计算ΔEITP。公式(13)的计算,通常假设显示器为1000cd/m2峰值亮度,用户增益设置为1.0,用户黑电平提升设置为0.0。
?′={?′?(2?−1)⁄((?′?2?−8⁄)−16)219 ⁄全范围窄范围} .......................... (13)
式中:
?为量化比特数;
?′?={?′?,?′?,?′?},为RGB的数字信号样值。
{?,?,?}=????(?′) ................................. (14)
式中:
GY/T 412—2024
6
?′={?′,?′,?′},为归一化的非线性信号。
????(?′)=????(????−1(?′))
????−1(?)={?23⁄{exp((?−?)?⁄)+?)}/120≤?≤12⁄12⁄≤1} .................. (15)
????(?)=??.???−1?
式中:
?=0.17883277;
?=1–4?; ?=0.5–?(ln(4?)); ??=1000cd/m2;
??=0.2627??+0.6780??+0.0593??,{??,??,??}=????−1(?′);
?=1.2。
6.3.6 SDR RGB分量视频的ΔEITP的计算方法
当源视频和被测视频采用SDR/BT.2020 RGB分量表示时,ΔEITP的计算应以源视频和被测视频的RGB数字样值作为计算基础,以窄范围信号为例,先采用公式(16)将RGB数字样值转换为显示参考线性RGB信号,然后按照6.3.2步骤a)~步骤e)计算ΔEITP。计算时,通常使用LW = 100cd/m2,黑电平值“b”设置为0.0。 {?,?,?}=????(?′) =?W?′2.4
?′=((?′?2?−8⁄)−16)219 ⁄ ........................ (16)
式中:
?′={?′,?′,?′},为归一化的非线性信号;
?为量化比特数;
?′?={?′?,?′?,?′?},为RGB的数字信号样值。
7 无参考图像质量客观评价方法
7.1 概述
无参考图像质量客观评价可采用表2规定的方法,相关方法的选用原则见A.2。
表
2 无参考图像质量客观评价方法
序号
方法名称
简介
计算过程
1
UHD-VTQ
一种基于视频清晰度、帧率、色域、高动态范围特性和量化特性等特征的无参考图像质量客观评价方法,满分为100分,分值越大,表示被测视频的技术指标越好
见7.2
2
UHD-QM
一种基于图像频域能量特征、自然场景图像统计特征以及图像复杂度特征的无参考视频感知质量客观评价方法,满分为100分,分值越大,表示被测视频的感知质量越好
见C.1
3
DRL-VQA
一种基于深度强化学习的无参考视频感知质量客观评价方法,满分为100分,分值越大,表示被测视频的感知质量越好
见C.2
4
NR-VQA
一种基于深度自注意力变换神经网络的无参考视频感知质量客观评价方法,满分为100分,分值越大,表示被测视频的感知质量越好
见C.3
GY/T 412—2024
7
7.2 UHD-VTQ测试方法
7.2.1 测试内容
UHD-VTQ的测试主要包括:视频感知质量客观评价、视频有效帧率检测、宽色域特性检测、高动态范围检测、帧间亮度差检测和高位深特性检测。各项目检测完成后,可按照附录D对各项目结果进行量化评分并加权后得到最终视频UHD-VTQ评分。
7.2.2 视频感知质量客观评价
可采用附录C中的测试方法计算被测视频图像的感知质量评分,记为SP。
7.2.3 视频有效帧率检测
检测步骤如下。
a
) 采用计算帧差的方法将被测视频中的连续静止画面(静帧3帧及以上)标记出来,不作为计算对象,以剩下的视频帧作为计算对象。
b
) 对步骤a)中计算对象进行内插图像检测。
1) 从被测对象的第一帧开始到最后一帧,依次计算相邻两帧图像内容是否相同,若相同,则记为重复帧。
2) 从被测对象的第一帧开始到最后一帧,依次选取相邻的三帧图像,以其中最早和最晚的两帧图像作为参考图像,采用均值法对两帧参考图像进行内插运算,获取第一中间图像,采用双线性内插法对两帧参考图像进行内插运算,获取第二中间图像。
3) 计算所选三帧图像的中间帧图像与第一中间图像的图像相似度,获取第一图像相似度,计算中间帧图像与第二中间图像的图像相似度,获取第二图像相似度。
4) 分别将第一图像相似度和第二图像相似度与预设相似度阈值进行比较,如达到阈值要求,则判定上述中间帧图像为内插帧。按此方式,检测出被测视频对象中的所有内插帧。
5) 将视频中不包含内插帧的片段定义为原生帧率画面,统计原生帧率画面时长与被测视频总时长之比,记为PNativeFr。
7.2.4 宽色域特性检测
从被测视频的第一帧开始到最后一帧,依次对每帧图像进行检测。检测时,首先根据被测视频的“色域”和“非线性转换函数”参数,将被测图像帧每个像素的样值转换为相应的显示光信号值,并计算得到相应的CIE 1931 xy色度坐标值。对于HDR HLG视频,按照GB/T 41808—2022中表5的规定进行样值转换;对于HDR PQ视频,按照GB/T 41808—2022中表4的规定进行样值转换;对于SDR/BT.2020视频,按照GB/T 41809—2022中表4的规定进行样值转换。统计该帧图像内色度坐标值超出BT.709色域的像素数量,并计算其与一帧图像像素总数的占比,当占比达到1%时,定义该图像帧为BT.2020图像帧。所有帧计算完毕后,统计被测视频中BT.2020图像帧的占比,记为P2020。
7.2.5 高动态范围检测
从被测视频的第一帧开始到最后一帧,依次对每帧图像进行检测。检测时,首先根据被测视频的“色域”和“非线性转换函数”参数,将被测图像帧每个像素的样值转换为相应的显示光信号值,得到相应的显示亮度值,并计算帧内对比度(最高显示亮度除以最低显示亮度)。对于HDR HLG视频,按照GB/T 41808—2022中表5的规定进行样值转换;对于HDR PQ视频,按照GB/T 41808—2022中表4的规定进行样值转换;对于SDR/BT.2020视频,PHDR记为0分。统计该帧图像内超过203cd/m2的像素数量,并计算其与一帧图像像
GY/T 412—2024
8
素总数的占比,当占比达到1%,且帧内对比度达到10000:1时,定义该图像帧为HDR图像帧。所有帧计算完毕后,统计被测视频中HDR图像帧的占比,记为PHDR。
7.2.6 帧间亮度差检测
从被测视频的第一帧开始到最后一帧,依次对每帧图像进行检测。检测时,首先根据被测视频的“色域”和“非线性转换函数”参数,将被测图像帧每个像素的样值转换为相应的显示光信号值,并计算得到当前帧的平均显示亮度。对于HDR HLG视频,按照GB/T 41808—2022中表5的规定进行样值转换;对于HDR PQ视频,按照GB/T 41808—2022中表4的规定进行样值转换;对于SDR/BT.2020视频,PHDR记为0分。所有帧计算完毕后,从第一帧开始,依次计算相邻两帧图像的平均显示亮度之间的差值(简称“帧间亮度差”)。最后,分别统计帧间亮度差属于[160cd/m2,320cd/m2)的次数以及帧间亮度差大于等于320cd/m2的次数,记为C160和C320。
7.2.7 高位深特性检测
从被测视频的第一帧开始到最后一帧,依次对每帧图像进行检测。检测时,对被测图像帧中每个像素的信号分量样值(例如Y、U、V)进行检测,如果像素精度为10bit,并且不同像素间的信号分量样值2个最低有效比特位始终相同,则定义该帧图像为非高位深图像帧,反之,则定义为高位深图像帧。所有帧计算完毕后,统计被测视频中高位深图像帧的占比,记为PActBit。
GY/T 412—2024
9
附 录 A (资料性) 视频图像质量客观评价方法的选用原则
A.1 全参考图像质量客观评价方法的选用原则
在评估超高清编解码图像质量或视频处理质量时,如果可以获得参考的源视频,建议根据评估目的,从表1中选取一种或多种全参考图像质量客观评价方法进行测量。各方法的选用原则如下:
a) PSNR可以反映被测视频相对于源视频的像素差异,计算复杂度最低,但与人眼主观感知的一致性不高,适合于快速评价以及不同被测对象之间的横向对比测试;
b) ΔEITP可以反映被测视频相对于源视频的色彩偏差可见性,但对压缩编码损伤不太敏感,适合于评估视频处理过程的色彩保真度;
c) MFF-VQA可以反映被测视频相对于源视频的感知质量差异,计算复杂度高于PSNR,与人眼主观感知的一致性也高于PSNR,适合于对视频感知质量损伤定量评估及横向对比测试;
d) DL-VQA和RF-VQA方法均基于深度学习模型,可以反映被测视频相对于源视频的感知质量差异,计算复杂度相对最高,与人眼主观感知的一致性也相对最高,适合于时效性要求不高的视频感知质量损伤定量评估及横向对比测试。
A.2 无参考图像质量客观评价方法的选用原则
在评估超高清编解码图像质量或视频处理质量却无法获得参考的源视频时,建议根据评估目的,从表2中选取一种或多种无参考图像质量客观评价方法进行测量。各方法的选用原则如下:
a) UHD-VTQ可以反映被测视频在清晰度、帧率、色域、高动态范围和量化等超高清技术指标的统计特征,适合于评估节目源端的视频制作技术质量,即评估视频制作过程中是否充分利用了超高清的技术特性;
b) UHD-QM基于图像频域能量特征和自然场景图像统计特征,可以反映被测视频的感知质量,适合于评估节目源端的视频清晰度和整体质量;
c) DRL-VQA和NR-VQA方法均基于深度学习模型,对视频压缩编码损伤和视频处理损伤具有较强的敏感性,适合于评估节目源端制作质量和用户接收端的视频整体质量。
GY/T 412—2024
10
附 录 B
(资料性)
基于机器学习的全参考图像质量客观评价方法
B.1 MFF-VQA 测试方法
MFF-VQA 的测试流程见图B.1。
图B.1 MFF-VQA 测试流程
具体包括以下步骤。
a) 建立训练用图像质量评价数据集,具体说明如下。
1) 选取超高清视频图像质量评价数据库。数据库由源视频(即参考视频)及失真视频构成。
源视频为无失真的超高清视频,不少于20 段,每段时长不少于10s,帧频??不低于50Hz。
失真视频是对源视频进行压缩、加噪等处理后得到的,每个失真视频有主观评价MOS 值。
视频内容宜尽可能包括室内、室外、建筑物、人物、自然景物、体育比赛、文艺表演、
大型群众活动等典型场景。
2) 对源视频和失真视频进行抽帧。对每个源视频及其对应的失真视频进行抽帧,抽帧率1)??宜
为1:1 到1:50,得到源视频及对应失真视频的抽帧图像序列。
3) 计算 Y、U、V 分量。基于GB/T 41808—2022 计算源视频抽帧图像序列及对应失真视频抽
帧图像序列中每一帧的Y、U、V 分量,计算方法见公式(B.1)(如视频本身为YUV 格式,
则无需此步骤)。
[
?
?
?
] = [
0.2627 0.6780 0.0593
−0.1396 −0.3604 0.5000
0.5000 −0.4598 −0.0402
] [
?
?
?
] ...................... (B.1)
4) 计算亮度梯度相似度特征。计算源视频抽帧图像序列和失真视频抽帧图像序列中每一帧
的亮度梯度幅度??(?, ?),该值代表了图像的对比度信息,采用Scharr 算子计算,计算
方法见公式(B.2)和公式(B.3)。
1) 抽取的帧数与原始帧数之比。
被测视频
抽帧计算YUV分量 SVR
计算亮度梯度
相似度特征
特征
组合
计算视觉感知
特征
计算色度
相似度特征
源视频
各帧
质量
分数
平均
池化
被测
视频
图像
质量
分数
GY/T 412—2024
11
??(?,?)=116[30−3100−1030−3]∗?(?,?),
??(?,?)=116[3103000−3−10−3]∗?(?,?) ........................ (B.2)
式中:
G?(?,?)——图像的水平梯度;
G?(?,?)——图像的垂直梯度;
?(?,?) ——图像的亮度矩阵,即Y矩阵;
* ——卷积符号。
??(?,?)=√??2(?,?)+??2(?,?) .......................... (B.3)
计算源视频抽帧图像序列中每一帧与失真视频抽帧图像序列中对应帧之间的亮度梯度相似度特征???,计算方法见公式(B.4)。
???=1??ΣΣ2???(?,?)∙???(?,?)+?1???2(?,?)+???2(?,?)+?1??=1??=1 ....................... (B.4)
式中:
???(?,?)——源视频中抽帧图像在(?,?)处的亮度梯度幅度;
???(?,?)——失真视频中抽帧图像在(?,?)处的亮度梯度幅度;
?1 ——常数,取值160;
? ——图像的水平像素数;
? ——图像的垂直像素数;
· ——矩阵对应元素相乘。
5) 计算视觉感知特征。
计算源视频视觉感知特征??,该值代表源视频抽帧图像序列中每一帧图像与人眼感知到的该帧图像之间的互信息,计算方法见公式(B.5)。
??=ΣΣ???2(1+??(?,?)??2)??=1??=1 ......................... (B.5)
式中:
σ?2 为视觉噪声方差,取值为2。??(?,?)的计算方法见公式(B.6)。
??(?,?)=?17×17∗??2(?,?)−(?17×17∗??(?,?))2 .................. (B.6)
式中:
?17×17 ——方差取2.56时的17×17高斯滤波器模板,具体见公式(B.7);
??(?,?)——源视频抽帧图像的亮度矩阵。
?(?, ?) = 12πσ2 exp(−?2 + ?22σ2) .......................... (B.7)
式中:
?——标准差,取值为2.56;
?——模板横坐标;
?——模板纵坐标。
计算失真视频视觉感知特征??,该值代表失真视频抽帧图像序列中每一帧图像与人眼感知到的该帧图像之间的互信息,计算方法见公式(B.8)。
GY/T 412—2024
12
??=ΣΣ???2(1+?2·??(?,?)??2+??2)??=1??=1 ........................... (B.8)
式中:
?的计算方法见公式(B.9),失真方差σ?2 的计算方法见公式(B.10)。
?=??,?(?,?)??(?,?) ..................................... (B.9)
σ?2=??(?,?)−?·??,?(?,?)) ............................. (B.10)
公式(B.9)和公式(B.10)中,??,?(?,?)和??(?,?)的计算方法分别见公式(B.11)和公式(B.12),其中??(?,?)为失真视频抽帧图像的亮度矩阵。
??,?(?,?)=?17×17∗[??(?,?)·??(?,?)]−[?17×17∗??(?,?)]·[?17×17∗??(?,?)] …(B.11)
??(?,?)=?17×17∗??2(?,?)−(?17×17∗??(?,?))2 .................. (B.12)
计算视觉感知特征比?,计算方法见公式(B.13)。
?=???? ....................................... (B.13)
6) 计算色度相似度特征。分别计算源视频抽帧图像序列中每一帧与失真视频抽帧图像序列中对应帧之间的U分量和V分量的相似度特征??(?,?)和??(?,?),计算方法见公式(B.14)和公式(B.15)。
??(?,?)= 2??(?,?)∙??(?,?)+?2??2(?,?)+??2(?,?)+?2 ............................ (B.14)
??(?,?)= 2??(?,?)∙??(?,?)+?3??2(?,?)+??2(?,?)+?3 ............................ (B.15)
公式(B.14)和公式(B.15)中,??(?,?)、??(?,?)分别为源视频抽帧图像的U分量和V分量矩阵,??(?,?)、??(?,?)分别为失真视频抽帧图像的U分量和V分量矩阵;?2和?3为常数,取值为200。
计算色度相似度特征??,计算方法见公式(B.16)。
??=1??ΣΣ??(?,?)∙??=1??=1??(?,?) ........................... (B.16)
7) 特征组合。将步骤4)~步骤6)获取的每一帧的4个特征???、??、?、??组合成一个一维特征向量?,即?={???、??、?、??}。每一帧的特征向量?及与之对应的失真视频MOS值一起构成了图像质量评价数据集,用于对SVR模型进行训练。
b
) 训练SVR模型。
用各帧的特征向量?及与之对应的失真视频MOS值对SVR模型进行训练,利用SVR对特征向量?中的4个特征进行融合并回归得到各帧分数。SVR模型的核函数为RBF,gamma值为0.05,惩罚系数C为8。
c
) 对被测超高清视频进行全参考图像质量评价。
按照步骤a)中的第2)步~第7)步,对被测超高清视频及其源视频进行抽帧、特征计算及特征组合,得到特征向量?。将各帧的特征向量?送入训练好的SVR模型,由SVR模型预测出各帧的质量分数。
将各帧的质量分数进行平均池化,即求各帧分数的平均值,获得最终的视频图像质量分数。实际使用中,可根据需要将视频图像质量分数换算成百分制。
B.2 DL-VQA测试方法
DL-VQA测试流程见图B.2。
GY/T 412—2024
13
被测视频
源视频
抽帧
图像块
裁剪
图像质量
评价网络
空域池化
时域池化
失真视频
图像质量分数
图B.2 DL-VQA 测试流程
具体步骤如下。
a) 建立训练用图像质量评价数据集,具体说明如下。
1) 选取超高清视频图像质量评价数据库。数据库包含无失真的超高清视频作为源视频,以
及由源视频经压缩、加噪等处理的失真视频。每个失真视频有主观评价MOS 值。源视频
不少于20 个,每个时长不少于10s,帧频??不低于50Hz。每个源视频产生不少于5 个不
同损伤程度的失真视频。视频内容宜尽可能包括室内、室外、建筑物、人物、自然景物、
体育比赛、文艺表演、大型群众活动等典型场景。
2) 对每个源视频及其对应的失真视频进行抽帧处理,抽帧率??宜为1:1 到1:50,得到源视
频和失真视频的抽帧图像序列。
3) 对抽帧图像序列中的每一帧图像进行图像块裁剪,每帧图像裁剪出5 个图像块,分别位
于帧图像的中心,以及与中心图像块相邻的左上、左下、右上、右下四个区域,每个图
像块的大小为帧图像的1/16,即图像块在水平和垂直方向的像素数均为帧图像的1/4,
见图B.3。
图B.3 超高清视频帧图像的图像块裁剪位置示意图
4) 将每个失真视频的主观评价MOS 值赋予由该视频经抽帧和图像块裁剪得到的图像块,即
每个失真视频图像块的MOS 值就是该图像块所属的失真视频的MOS 值。每个失真视频图
像块及其MOS 值以及对应的源视频图像块一起构成图像质量评价数据集,用于训练基于
深度学习的图像质量评价网络。
b) 训练基于深度学习的图像质量评价网络,具体说明如下。
1) 搭建基于ResNet18 的图像质量评价网络,该网络由特征提取模块和质量回归模块组成。
特征提取模块由两个独立的ResNet18 网络和一个特征合并层(Concat 层)构成。每个
ResNet18 网络的输入为一个R、G、B 三通道彩色图像,输出为对应的特征向量。特征合
并层将两个ResNet18 网络输出的特征向量合并为一个特征向量。质量回归模块由两个全
连接层级联而成,输入为特征向量,输出为对应的质量分数。具体结构图见图B.4。
GY/T 412—2024
14
图B.4 基于深度学习的图像质量评价网络结构图
2) 将图像质量评价数据集中的失真视频图像块和对应的源视频图像块成对输入到图像质量评价网络,将对应的主观评价MOS值作为标签,使用Adam优化算法和L1损失函数对网络进行训练。
c
) 对被测超高清视频进行全参考图像质量评价。
对被测超高清视频及对应的源视频进行抽帧和图像块裁剪,将裁剪得到的被测视频图像块及对应的源视频图像块成对输入到训练好的图像质量评价网络,得到每一个被测视频图像块的客观质量分数。最后将每个图像块的客观质量分数进行空域池化和时域池化,即得到被测视频的客观质量分数。具体说明如下。
1) 按照步骤a)的方法对被测超高清视频及对应的源视频进行抽帧,得到被测视频及源视频的抽帧图像序列,设抽帧图像序列的帧数为?。
2) 按照步骤a)的方法对抽帧图像序列中的每一帧图像进行图像块裁剪,得到被测视频图像块序列和源视频图像块序列。
3) 将被测视频图像块和对应的源视频图像块成对输入到训练好的图像质量评价网络,得到每个被测视频图像块的质量分数??(?),其中?表示被测视频抽帧图像序列的帧序号(?=1,2,⋯,?),?表示一帧图像中的图像块序号,?=0,1,2,3,4分别表示中心块、左上块、右上块、左下块、右下块。
4) 将属于同一帧图像的5个图像块的质量分数进行空域池化,即对5个图像块的质量分数进行加权平均,得到该帧图像的质量分数??。具体计算方法见公式(B.17)。
??=0.4??(0)+0.15Σ??(?)4?=1 ........................... (B.17)
5) 对每帧图像的质量分数进行时域局部池化操作,包括前向最小池化和后向平均池化。其中前向最小池化是将当前帧的质量分数设置为当前帧之前?帧(不含当前帧)质量分数的最小值,后向平均池化是将当前帧的质量分数设置为当前帧及当前帧之后?帧的质量分数的平均值。?的大小由视频的帧频??和抽帧率??确定,具体计算方法见公式(B.18)。前向最小池化值???和后向平均池化值???的计算方法见公式(B.19)和公式(B.20)。
?=⌊????⌋ .................................... (B.18)
???={min[??−1,??−2,⋯,??−?], ?>?min[??−1,??−2,⋯,?1], 1≤???, ?=1 ....................... (B.19)
???={1?+1Σ???+??=?,?≤?−?1?−?+1Σ????=?,?>?−? .......................... (B.20)
GY/T 412—2024
15
计算前向最小池化值??
?和后向平均池化值??
?的平均,即得到当前帧的最终质量分数??
′,
见公式(B.21)。
??
′ =
1
2
(??
? + ??
?) ............................... (B.21)
6) 对被测视频抽帧图像序列中所有帧的质量分数进行时域全局平均池化,即计算各帧图像
质量分数的平均值,得到被测视频的客观质量分数?,见公式(B.22)。实际使用中,可根
据需要将?值换算成百分制。
? =
1
?
Σ ??
′ ??
=1 ................................ (B.22)
B.3 RF-VQA 测试方法
RF-VQA 测试方法的流程见图B.5。
源视频
被测视频
图像帧
抽帧图像裁切
图像块(YUV)
图像帧
抽帧图像裁切
图像块(YUV)
求差值
残差图像块
(YUV) 质量评价
网络
图像质量预
测分数
图B.5 RF-VQA测试流程图
具体步骤如下。
a) 建立预训练数据集和微调数据集。
1) 数据集视频内容的场景类型宜尽量多,宜包含10 种以上典型场景。
2) 预训练数据集包含预训练用源视频、预训练用失真视频,以及预训练用失真视频相对于预
训练用源视频的客观指标标签,宜包括但不限于PSNR、SSIM 等,数据集的视频数量宜尽
可能多,宜大于10000 个。
3) 微调数据集包含微调训练用源视频、微调训练用失真视频,以及微调训练用失真视频相对
于微调训练用源视频的主观评价MOS 标签,数据集的视频数量宜大于300 个。
b) 搭建网络模型。
本方法建立的模型为基于注意力机制的神经网络图像质量评价模型,结构图见图B.6,该模型
通过ResNet50 提取特征图,经过通道和区域注意力机制学习特征信息,最后通过池化和全连接层
回归质量分数。具体说明如下。
1) 搭建基于ResNet50 的图像质量评价网络特征提取模块。ResNet50 网络的输入为YUV 三通
道图像,获取最后一个卷积层的特征图。特征图按序经过通道注意力机制和区域注意力机
制进行参数调整,使得网络关注到有判别力信息的通道和区域。质量回归模块由平均池化
层、两个全连接层级联而成,输入为特征图,输出为对应的质量分数。
GY/T 412—2024
16
图B.6 RF-VQA图像质量评价网络结构图
2) 源视频和被测视频计算得到的残差YUV图像通过Fcp操作,经过ResNet50网络的4个卷积层的卷积得到特征图A,通道数为2048,尺寸变为输入尺寸的三十二分之一。通过全局平均池化对特征图A进行下采样(Fcg),尺寸变为2048×1×1,再经过两个全连接层(2048维度变成128维度;128维度变回2048维度)和softmax激活函数(Fcr)来计算每个通道的注意力权重。然后通道注意力权重和原始特征图相乘得到通道加权后的特征图B。计算特征图B每个位置上的各个通道的参数和,并通过2维softmax函数激活(Ffa),从而得到通道和区域共同作用的权重。然后和原始的特征图相乘得到通道和区域注意力加权后的特征图D。特征图D通过自适应平均池化(Ftc),尺寸变为2048×1×1,最终通过两个全连接层(Fcl操作,2048维度变成512维度,512维度变成1维度)回归质量分数。
c) 预训练。
1) 对预训练集中的每个预训练用源视频及其对应的预训练用失真视频进行抽帧处理(抽帧率宜为1:1到1:50),作为预训练集图片。
2) 对抽帧图像序列中的每一帧图像进行图像块裁剪,通过中心裁剪的方式裁剪得到H×W大小的图片。
3) 将每个预训练用失真视频的客观指标标签赋予由该视频经抽帧和图像块裁剪得到的图像块,即每个预训练用失真视频图像块的标签值就是该图像块所属的失真视频的标签值。每个预训练用失真视频图像块及其标签值以及对应的预训练用源视频图像块一起构成图像质量评价训练数据集。
4) 模型预训练:将预训练数据集中的预训练用失真视频图像块和对应的预训练用源视频图像块成对输入到图像质量评价网络,将对应的客观指标作为标签,可使用Adam优化算法和L1损失函数对网络进行训练,学习率可采用梯度衰减的方式,特征提取和注意力机制模块的初始学习率可为0.1,分类器的学习率可为0.01。
d) 微调。
1) 对微调数据集中的每个微调训练用源视频及其对应的微调训练用失真视频进行抽帧处理(抽帧率宜为1:1到1:50),作为预训练集图片。
2) 对抽帧图像序列中的每一帧图像进行图像块裁剪,通过中心裁剪的方式裁剪得到H×W大小的图片。
3) 将每个微调训练用失真视频的主观MOS标签赋予由该视频经抽帧和图像块裁剪得到的图像块,即每个微调训练用失真视频图像块的MOS值就是该图像块所属的失真视频的MOS值。每个微调训练用失真视频图像块及其MOS值以及对应的微调训练用源视频图像块一起构成训练数据集。
GY/T 412—2024
17
4) 模型微调:首先加载预训练的模型参数,将微调数据集中的微调训练用失真视频图像块和对应的微调训练用源视频图像块成对输入到图像质量评价网络,对应的主观MOS分数作为标签,可使用Adam优化算法和L1损失函数对网络进行训练,学习率可采用梯度衰减的方式,特征提取和注意力机制模块的初始学习率可为0.01,分类器的学习率可为0.001。
e) 被测视频预测。
对被测视频及对应的源视频进行抽帧和图像块裁剪,将裁剪得到的被测视频图像块及对应的源视频图像块求残差后,输入到训练好的图像质量评价网络,得到每一个被测视频图像块的客观质量分数。同一个视频的图像块分数取均值即得到被测视频的客观质量分数。具体说明如下。
1) 对被测视频及对应的源视频进行抽帧(抽帧率宜为1:1到1:50),得到被测视频及源视频的抽帧图像序列。
2) 每帧图片从左上角开始,以滑动窗口的方式将4K图片裁剪为N张H×W图片。
3) 将裁剪后的被测视频图像块和对应的源视频图像块求差值,将残差图像块输入到训练好的图像质量评价网络,得到当前帧下当前图像块的分数。当前帧下N个图像块的平均分数即当前帧的分数。
4) 视频序列的所有抽帧的平均分即为该视频序列的最终分数。
GY/T 412—2024
18
附 录 C
(资料性)
基于机器学习的无参考图像质量客观评价方法
C.1 UHD-QM 测试方法
UHD-QM 整体测试流程见图C.1。
DCT变换
频域能量
特征提取
图像分块
自然统计学
特征提取
局部方差
逐帧提取
单帧图像
超高清视频
序列
图像质量
特征集
支持向量机
特征融合
质量分数
结果输出
图C.1 UHD-QM 整体测试流程
UHD-QM 具体测试步骤如下。
a) 将超高清视频序列V 逐帧提取出图像序列,后续每一步以任意一帧图像??为例。
b) 使用公式(C.1)将图像从彩色图??转变成灰度图?。
? = 0.2627? + 0.6780? + 0.0593? ............................ (C.1)
式中:
?、?、?分别为彩色图??的三个通道分量。
c) 按照图C.2,将图像?分成? × ?个块(对于4K 超高清视频,?和?的取值均为16;对于8K 超高
清视频,?和?的取值均为32),并标号为{?(?,?)},然后使用公式(C.2)计算每一分块的局部方
差?(?,?)
2 ,选取局部方差最大的一个分块(?, ?)作为后续处理的子图?(?,?),并记录该局部方差
?(?,?)
2 为图像复杂度特征。
?(?, ?) =
1
?×?
Σ Σ ?(?,?)(?, ?) Ll
=1
K k=1
?(?,?)
2 =
1
?×?
Σ Σ [?(?,?)(?, ?) − ?(?, ?)]
2 ??
=1
??
=1 ........................ (C.2)
式中:
?, ?分别代表块的分辨率;
?(?, ?)表示分块(x,y)中的灰度平均值;
?(?,?)(?, ?)表示图像I 的(?, ?)分块中第?行,第?列下的像素值;
?为取值1~?之间的整数;
?为取值1~?之间的整数。
GY/T 412—2024
19
超高清图像图像分块
子图像(1,1)
局部方差
子图像(i,j)
局部方差
子图像(M,N)
局部方差
最大局部
方差子图
步骤 d)、e)
所需子图
图像复杂
度特征
... ...
图C.2 图像复杂度特征计算流程
d) 按照图C.3,对步骤c)中的子图?(?,?)使用公式(C.3)进行DCT 变换,使用公式(C.4)计算DCT
变换后的频域能量?(?,?),使用公式(C.5)将频谱能量归一化至[1,10],得到能量谱直方图,将
直方图的10 个特征(能量谱直方图的第1 个至第10 个离散频率段所对应的幅值)作为频域能
量的第1 部分特征。将频谱能量归一化至[0,100]得到累积能量谱?(?,?),将25%、50%和75%
总能量的截止频率25% 、50% 、75% 3 个特征,作为频域能量的第2 部分特征。总共13
个特征作为频域能量特征。
( , )
T
F = AI X Y A
( 0.5)
( , ) ( )cos
j
A i j c i i
L
+
=
............................ (C.3)
1
, 0
( )
2
, 0
i
L
c i
i
L
=
=
式中:
F 表示为图像( X ,Y ) I 的DCT 系数矩阵;
A 是转换矩阵, T A 表示为A 的转置矩阵;
i 为二维余弦波的水平方向频率,j 为二维余弦波的垂直方向频率,取值范围都是0 至(L-1),
L 是图像块的大小。
( , ) 10 log ( ) X Y P = F F .................................. (C.4)
pˆ = round (( ymax − ymin)( p − xmin) / ( xmax − xmin) + ymin) ................ (C.5)
式中:
p 表示归一化前的数值;
pˆ 表示归一化后的数值;
xmax, xmin分别表示数据中的最大值和最小值;
ymax, ymin分别表示要归一的范围的上确界和下确界;
round()表示四舍五入。
GY/T 412—2024
20
分块后选取
的子图
DCT变换
DCT频谱
能量
归一化
累计频
谱能量
归一化
频谱能量
直方图
截止频率
图C.3 频域能量特征计算流程
e) 按照图C.4,对步骤c)中的子图( X ,Y ) I ,计算其自然场景图像统计特征。首先对于子图( X ,Y ) I 按
照公式(C.6)处理得到( , )
ˆ
X Y I ,拟合广义高斯分布得到其方差特征,然后按照公式(C.7)对于
子图进行偏移操作,得到4 对偏移后的子图( X ,Y ) H 、( X ,Y ) V 、( , ) 1 X Y D 和( , ) 2 X Y D ,分别用非对称
高斯分布拟合子图和偏移后的子图得到其左方差和右方差,总共9 个参数作为自然场景图像统
计特征。
( , ) ( , )
( , )
( , )
ˆ X Y X Y
X Y
X Y
I
I
C
−
=
+
( , ) * X Y =W I ................................. (C.6)
2
( , ) *( ) X Y = W I −
式中:
( , )
ˆ
X Y I 为子图
(X ,Y ) I 处理后的结果;
(X ,Y ) 和
(X ,Y ) 表示子图
(X ,Y ) I 的局部平均值和局部标准差;
C 为一个常数,防止分母为0;
W 为高斯模糊滑窗,滤波器大小为11×11,标准差为1.5;
*表示卷积操作。
( , ) ( , ) ( , 1)
ˆ ˆ
i j i j i j H I I + =
( , ) ( , ) ( 1, )
ˆ ˆ
i j i j i j V I I + = ................................. (C.7)
( , ) ( , ) ( 1, 1)
1 ˆ ˆ i j i j i j D I I + + =
( , ) ( , ) ( 1, 1)
2 ˆ ˆ i j i j i j D I I + − =
式中:
( , )
ˆ
i j I ——子图
(X ,Y ) I 处理后的结果( , )
ˆ
X Y I
中位置为(i,j)的图像强度值;
(i , j ) H ——垂直偏移子图( X ,Y ) H 中位置为(i,j)的图像强度值;
(i, j ) V ——水平偏移子图( X ,Y ) V 中位置为(i,j)的图像强度值;
( , ) 1 i j D ——对角偏移子图( , ) 1 X Y D 中位置为(i,j)的图像强度值;
( , ) 2 i j D ——对角偏移子图( , ) 2 X Y D 中位置为(i,j)的图像强度值。
GY/T 412—2024
21
分块后选取的
子图
减去局部
均值
除以局部
标准差
标准化子图
垂直偏移
子图
水平偏移
子图
对角偏移
子图1
对角偏移
子图2
非对称高斯分
布左,右方差
非对称高斯分
布左,右方差
非对称高斯分
布左,右方差
非对称高斯分
布左,右方差
广义高斯分布
方差
图C.4 自然场景图像统计特征计算流程
f) 将总共23 个特征(1 个图像复杂度特征、13 个频域能量特征、9 个自然场景图像统计特征),
放入SVR 和在主观评价结果训练集上训练好的模型,得到最终的质量分数(百分制)。
C.2 DRL-VQA 测试方法
DRL-VQA 的测试流程见图C.5。
被测视频抽帧下采样
基于深度学习的
空域失真特征提取网络
基于深度强化学习的
超高清视频图像质量评价网络
质量分数
图 C.5 DRL-VQA 测试流程
具体步骤如下。
a) 建立超高清视频图像质量评价数据集,具体说明如下。
1) 选取无失真的、视频图像质量无参考主观评价得分为满分的超高清视频作为参考视频,参
考视频不少于20 段,每段时长不少于10s,视频内容宜尽可能包括室内、室外、建筑物、
人物、自然景物、体育比赛、文艺表演、大型群众活动等典型场景。对每个参考视频进行
压缩、加噪等处理,得到对应的失真视频。
2) 对失真视频进行抽帧处理,抽帧率宜为1:1 到1:10,得到帧图像序列??,?代表帧序号。
3) 采用全参考客观测试方法(如附录B 的测试方法)计算失真视频帧图像序列??中每一帧的
图像质量分数?? (?),以及每一帧对应的视频图像质量分数?? (?)。其中?? (?)是指该帧及
该帧之前所有帧的图像质量分数的平均值,见公式(C.8)。
GY/T 412—2024
22
??(?)=1?Σ????=1(?) ................................ (C.8)
4) 对帧图像序列??中的每一帧进行Lanczos插值下采样处理(也可使用其他等效的下采样方法),水平和垂直方向的采样率均为1:4,得到低分辨率的帧图像序列????。
5) 所有失真视频的低分辨率帧图像序列????和每帧的图像质量分数??(?)、每帧对应的视频图像质量分数??(?)一起构成超高清视频图像质量评价数据集。
b
) 训练基于深度学习的空域失真特征提取网络,具体说明如下。
1) 搭建基于MobileNet的空域失真特征提取网络,该网络由特征提取模块和质量回归模块构成。特征提取模块的输入为一个R、G、B三通道的彩色帧图像,输出为帧图像的空域失真特征。质量回归模块输入为帧图像的空域失真特征,输出为网络预测的帧图像的质量分数。
2) 将超高清视频图像质量评价数据集中的低分辨率帧图像序列????逐帧输入到特征提取模块,得到每帧图像的空域失真特征??,见公式(C.9),式中???表示空域失真特征提取网络。
??=???(????) ................................... (C.9)
3) 将空域失真特征??输入到质量回归模块,得到预测的质量分数。同时将超高清视频图像质量评价数据集中每帧的图像质量分数??(?)作为标签,对整个网络进行训练。
4) 网络训练完成之后,可由其中的特征提取模块直接输出每帧图像的空域失真特征??。
c
) 训练基于深度强化学习的超高清视频图像质量评价网络,具体说明如下。
1) 搭建基于DDPG的超高清视频图像质量评价网络,该网络包括动作网络和估值网络,均由三个全连接层组成。动作网络负责输出最佳动作策略,估值网络负责输出策略价值,该策略价值用于评估并优化动作网络的策略,奖赏函数用于评估并优化估值网络的准确性。网络的状态空间即网络的输入是空域失真特征提取网络的特征提取模块输出的空域失真特征;动作空间是对应于每帧的视频图像质量分数的调整值范围,设定为[-1.5,1.5]。每输入一帧空域失真特征,网络就从动作空间中选择一个特定值作为视频图像质量分数的调整值,用于对当前质量分数进行调整。调整后的质量分数与超高清视频图像质量评价数据集中的视频图像质量分数的差值作为奖赏函数,用于对网络进行训练,使其对质量分数的调整与估计更精确。
2) 将低分辨率帧图像序列????逐帧输入到已训练好的空域失真特征提取网络???,由其中的特征提取模块输出每帧图像的空域失真特征??。
3) 将每帧图像的空域失真特征??以及与之对应的历史帧特征??−1、历史质量分数??−1逐帧输入到超高清视频图像质量评价网络。历史帧特征是指由当前帧之前的所有帧累积的空域失真特征,历史质量分数是指由网络预测的截止到前一帧的视频图像质量分数。第一帧输入时,可将历史帧特征设置为与第一帧特征相同,将历史质量分数(即初始质量分数)设置为1。超高清视频图像质量评价网络对当前帧的空域失真特征??和历史帧特征??−1进行融合,输出新的历史帧特征??,用于下一时刻的输入,同时还输出质量分数调整值Δ??,见公式(C.10),式中Δ??,??表示当前帧的失真情况对视频图像质量分数造成的变化幅度,????_???代表超高清视频图像质量评价网络。
Δ??,??=????_???(??,??−1,??−1) ......................... (C.10)
将质量分数调整值Δ??累加到历史质量分数??−1上,得到当前质量分数??,见公式(C.11)。
??=??−1+Δ?? ................................. (C.11)
4) 计算当前质量分数??与超高清视频图像质量评价数据集中与当前帧对应的视频图像质量分数??(?)的差值,并将该差值作为奖赏函数回传给深度强化学习网络进行训练。同时,当前质量分数??还将作为下一时刻的历史质量分数,与下一帧的空域失真特征??+1及历史帧特征??一起对网络进行训练,见图C.6。网络训练完成后,可对被测超高清视频进行无
GY/T 412—2024
23
参考图像质量评价。当被测视频的最后一帧输入到网络后,网络计算的当前质量分数即为
被测视频的质量分数。
d) 对被测超高清视频进行无参考图像质量评价。
将被测超高清视频按照步骤a)的方法进行抽帧和下采样处理,得到低分辨率的帧图像序列??
??。
将??
??逐帧输入到训练好的空域失真特征提取网络???,得到每一帧的空域失真特征??。将??输入到
训练好的超高清视频图像质量评价网络????_???,当最后一帧输入后得到的当前质量分数即为被测
视频的质量分数(可根据实际应用需要换算成百分制)。
图C.6 基于深度强化学习的超高清视频图像质量评价网络原理示意图
C.3 NR-VQA 测试方法
NR-VQA 方法的测试流程见图C.7。
被测视频
图像帧
抽帧图像裁切
图像块
电光转换
图像块(Lxy) 质量评价
网络
图像质量预
测分数
图C.7 NR-VQA评价方法测试流程
具体步骤如下。
a) 建立预训练数据集和微调数据集。
1) 数据集视频内容的场景类型宜尽量多,宜不低于10 种以上典型场景。
2) 预训练数据集包含不同质量的视频,视频包含无参考质量客观指标标签,数据集的视频数
量宜尽可能多,宜大于10000 个。
3) 微调数据集包含不同质量的视频,以及视频的无参考主观评价MOS 标签,数据集的视频数
量宜大于300 个。
b) 搭建网络模型。
建立基于深度自注意力变换(Transformer)神经网络图像质量评价模型,结构图见图C.8。该模
型通过ResNet50提取特征图,通过二维卷积进行特征映射,再用深度自注意力变换神经网络编码器
提取特征间的相互关系,最后通过多头注意力模块回归质量分数。具体说明如下:图像像素通道(例
如YUV或RGB)经过电光转换后输入到ResNet50卷积网络中,经过4个block以后输出的特征图的尺寸
基于深度强化学习的超高清视频图像质量评价网络
GY/T 412—2024
24
是原图的三十二分之一,通道数是2048。然后通过二维卷积进行特征映射,卷积的输出通道设置为32个,卷积核尺寸设置为1×1。特征图上每个点的位置信息和所有通道信息输入到深度自注意力变换神经网络编码器中。深度自注意力变换神经网络编码器层数设置为1,多头注意力模块头数设置为4,隐藏层数设置为128,最终输出质量分数。
图C.8 图像质量评价网络结构图
c) 预训练。
1) 对预训练集中的每个预训练用失真视频进行抽帧处理(抽帧率宜为1:1到1:50),作为预训练集图片。
2) 对抽帧图像序列中的每一帧图像进行图像块裁剪,通过中心裁剪的方式裁剪得到H×W大小的图片(对于4K超高清视频,H×W宜大于等于1920×1080;对于8K超高清视频,H×W宜大于等于2560×1440)。
3) 根据视频格式对裁切后的图片进行相应的电光转换。电光转换要根据不同视频的格式选择不同的转换公式,例如,对于HDR/BT.2020格式的视频,需要采用GB/T 41808—2022规定的EOTF公式进行转换。
4) 将每个预训练用失真视频的客观指标标签赋予由该视频经抽帧和图像块裁剪得到的图像块,即每个预训练用失真视频图像块的标签值就是该图像块所属的视频的标签值。每个预训练用失真视频图像块及其标签值一起构成图像质量评价训练数据集。
5) 模型预训练:将预训练数据集中的失真视频图像块输入到图像质量评价网络,将对应的客观指标值作为标签,可使用Adam优化算法和L1损失函数对网络进行训练,学习率可采用梯度衰减的方式,ResNet50网络的初始学习率可为0.01,深度自注意力变换神经网络结构初始学习率可为0.0001。
d) 微调。
1) 对微调数据集中的每个微调用失真视频进行抽帧处理(抽帧率宜为1:1到1:50),作为预训练集图片。
2) 对抽帧图像序列中的每一帧图像进行图像块裁剪,通过中心裁剪的方式裁剪得到H×W大小的图片。
GY/T 412—2024
25
3) 根据视频格式对裁切后的图片进行相应的电光转换。
4) 将每个微调用失真视频的主观MOS标签赋予由该视频经抽帧和图像块裁剪得到的图像块,即每个微调用失真视频图像块的MOS值就是该图像块所属的视频的MOS值。每个微调用失真视频图像块及其MOS值一起构成图像质量评价训练数据集。
5) 模型微调:首先加载预训练的模型参数,将微调数据集中的失真视频图像块对输入到图像质量评价网络,对应的主观MOS分数作为标签,可使用Adam优化算法和L1损失函数对网络进行训练,学习率可采用梯度衰减的方式,ResNet50的参数梯度可保持不变,深度自注意力变换神经网络结构的初始学习率可为0.00001。
e) 被测视频图像质量预测。
对被测视频进行抽帧和图像块裁剪,将裁剪得到的被测视频图像块输入到训练好的图像质量评价网络,得到每一个被测视频图像块的客观质量分数。同一个视频的图像块分数取均值即得到被测视频的客观质量分数。具体说明如下。
1) 被测视频进行抽帧(抽帧率宜为1:1到1:50),得到被测视频的抽帧图像序列。
2) 每帧图片从左上角开始,以滑动窗口的方式将图片裁剪为多张H×W的图像块。
3) 将裁剪后的被测视频图像块进行电光信号转换,输入到训练好的图像质量评价网络,得到当前帧下当前图像块的分数。当前帧下多个图像块的平均分数即当前帧的分数。
4) 视频序列的所有抽帧的平均分即为该视频序列的最终分数。
GY/T 412—2024
26
附 录 D (资料性) UHD-VTQ方法检测结果的评分及加权计算方法
UHD-VTQ检测结果评分及加权计算可采用表D.1中的方法。
表D.1 UHD-VTQ方法检测结果的评分及加权计算方法
序号
检测项目
检测结果评分方法
权重系数
1
视频感知质量客观评价
取被测视频各图像帧的感知质量平均分SP作为评分结果(百分制)
0.4
2
视频有效帧率
根据原生帧率视频片段时长占比PNativeFr进行量化评分:
——
PNativeFr∈[70%,100%]:100分;
——
PNativeFr∈[50%,70%):60分;
——
PNativeFr∈[0%,50%):0分
0.2
3
宽色域特性
根据BT.2020图像帧占比P2020进行量化评分:
——
P2020∈[5%,100%]:100分;
——
P2020∈(0%,5%):60分;
——
P2020 = 0% :0分
0.1
4
高动态范围
根据HDR图像帧占比PHDR进行量化评分:
——
PHDR∈[5%,100%]:100分;
——
PHDR∈(0%,5%):60分;
——
PHDR = 0% :0分
0.1
5
帧间亮度差
根据帧间亮度差统计结果C160和C320进行量化评分:
100 - C160 – 5×C320(最小得分为0分)
0.1
6
高位深特性
当被测视频标称的量化比特数小于等于8bit时,本项目得分为0分;
当被测视频标称的量化比特数大于8bit时,根据高位深图像帧占比PActBit进行量化评分:
——
PActBit∈[70%,100%]:100分;
——
PActBit∈[50%,70%):60分;
——
PActBit∈[0%,50%):0分
0.1
GY/T 412—2024
27
参考 文 献
[
1] GY/T 313—2017 高清晰度电视节目录制规范
[
2] ITU-R BT.500 Methodologies for the subjective assessment of the quality of television images
[
3] ITU-R BT.709 Parameter values for the HDTV standards for production and international programme exchange
[
4] ITU-R BT.1907 Objective perceptual video quality measurement techniques for broadcasting applications using HDTV in the presence of a full reference signal
[
5] ITU-R BT.2020 Parameter values for ultra-high definition television systems for production and international programme exchange
[
6] ITU-R BT.2124 Objective metric for the assessment of the potential visibility of colour differences in television
[
7] ITU-R BT.2408-7 Guidance for operational practices in HDR television production
[
8] ITU-T J.144 Objective perceptual video quality measurement techniques for digital cable television in the presence of a full reference
[
9] ITU-T J.340 Reference algorithm for computing peak signal to noise ratio of a processed video sequence with compensation for constant spatial shifts, constant temporal shift, and constant luminance gain and offset
[
10] Kingma, Diederik P. , and J. Ba . "Adam: A Method for Stochastic Optimization." arXiv e-prints (2014).
[
11] Drucker, H. , Burges, C. J. C. , Kaufman, L. , Chris, J. C. , Kaufman, B. L. , & Smola, A. , et al. (1997). Support Vector Regression Machines. (Vol.28, pp.779-784).
[
12] He K , Zhang X , Ren S ,et al.Deep Residual Learning for Image Recognition[J].IEEE, 2016.DOI:10.1109/CVPR.2016.90.
[
13] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, Apr. 2017. [Online]. Available: https://arxiv.org/abs/1704.04861.