视频相关术语

今天在人人影视上找资源的时候,突然对文件名上的HEVC、10bit等感到疑惑,就花了一下午时间研究了一下视频相关的术语,在下面分享一下。

1 分辨率

分辨率(Resolution)指影像的尺寸大小。衡量视频分辨率的基本单位为像素(Pixel,px)。

1
2
3
4
5
6
┌-------------┐┄┄┄┄┄
| | ↑
| Video | Height
| | ↓
└-------------┘┄┄┄┄┄
┆← Width →┆

分辨率一般用宽(Width) * 高(Height)来表示。

常见分辨率
720P 1280px * 720px
1080P 1920px * 1080px
4K 3840px * 2160px

对于宽/宽为16:9的分辨率,通常可以用720P、1080P等简称来表示。其中,P(Progressive)表示逐行扫描。1080P即表示每一次刷新都需要对1080行像素进行刷新(当然,最新的屏幕刷新技术已经可以对局部进行更新,以实现更高的刷新率)。

2 宽高比

宽高比(Aspect Ratio)表示为宽(Width)和高(Height)的比例。

2.1 影像宽高比

常见的影像宽高比(Video Aspect Ratio)有16:9、4:3、21:9、16:10。不同的使用场景和需求需要不同的宽高比,比如电视、电影或“带鱼屏”等。

2.2 像素宽高比

像素宽高比(Pixel Aspect Ratio)与影像宽高比类似,表示像素的宽高之比。

目前,方形像素(Square Pixel)比较常用。但是,非方形像素(Non-Square Pixel)仍然存在于某些场合中,并且发挥着一定的作用。我们需要能够辨别这些非方形像素,否则,图像显示会出现扭曲,信息传达会出现错误。

3 帧率

帧率(Frame Rate)是视频实现影像从静止到运动转变的关键。

在视频中,一幅静止的画面被称为帧(Frame)。视频播放实质上就是许多帧连续展示在屏幕上,当帧展示的间隔不断缩小,也就是每秒展示的帧不断增加,人眼看到的图案就变得连续起来(原理可自行搜索视觉暂留)。

帧率就是视频在一秒内展示的帧的数量。帧率单位是fps(frame pre second)。一般来说,电影的帧率为24fps,当然最近也有120fps拍的电影(片名忘记了,只记得是李安导演的);流媒体的帧率则需要根据你的网速和你的会员级别确定了;而电视的帧率则有所在地区的视频制式决定。

3.1 视频制式(PAL&NTSC)

这是一个存在于传统的电视广播行业的问题。

NTSC普遍用于北美和南美,每秒30帧隔行;而其他地区,比如中国、欧洲,则使用每秒25帧隔行的PAL。在电视广播行业中工作,就需要考虑到这个问题;如果是上传到网站的视频,就可以忽略这个问题。

4 位深

位深(Bit Depth)可以表示图像或者影像系统中可以使用的独立色彩的个数。如果系统的位深为10,那么需要三个10bit数码来分别表示R、G、B(当然还有其他色彩表示方式),那么,系统就可以使用30bit的数码表示混合后的颜色,共有2^30=1.07*10^9种。

位深越多的系统,色彩就越丰富,图像或影像的色彩表现力就越强。目前,8位和10位的位深常见于各种场合中。当然,在部分对色彩显示要求不高的场合中,使用8位或10位RGB码来表示颜色也屡见不鲜。

5 编码

编码(CODEC)可以看做编码器(Coder) + 解码器(DeCoder)。

首先,来看一下编码出现的原因。

对于一段无压缩的、8bitRGB、4K、24fps的视频,暂且不考虑音频,它的码率 = 3840 * 2160 * 8 * 3 * 24 bps = 4777574400bps = 570MB/s,即如果要实现24fps播放这段视频,硬盘或网络需要传输570MB数据,GPU每秒需要处理570MB数据。以目前主流的硬件状况来看,5400rpm机械硬盘最高读取速度为130MB/s,(虽然m.2 NVME的固态硬盘的最高读取速度远超这个码率,但每秒视频至少需要570MB的存储空间,反正我是没有这么多钱),IEEE 802.11 ac(WiFi 5)能实现的最高无线传输速度在300-400MBPS之间,硬盘和网络都完全无法承受无压缩4K视频的码率。也因此,视频的压制和编码就应运而生。

一般我们看见的视频文件后缀名MOV、MP4、MKV是是视频的封装格式(Format),可以理解为一个容器,里面包含了视频的帧信息、音频信息、媒体信息、字幕及其他信息。

目前,常见编码有H.264、H.265/HEVC等,编码信息记录着帧与帧之间的变化,虽然有效地压缩了视频体积,但却大大增加了处理器压力。

在视频处理过程中,编码通常有拍摄编码、剪辑编码、输出编码三种使用场景。

拍摄编码,顾名思义,是指使用相机进行拍摄时所使用的的编码,索尼、松下等相机在存储获取的影像时就会使用帧间编码对每一帧进行存储。

剪辑编码,指对素材进行剪辑时使用的编码。举个栗子,由于帧间编码需要强大的处理能力,如果剪辑使用的设备性能欠缺,剪辑时素材的播放就会出现卡顿,使用体验极差;这时就可以将素材重编码为低分辨率视频进行编辑,再用源素材进行输出。

输出编码,指剪辑软件根据需求输出的视频的编码。对于网络视频来说,网络平台会对码率过高的视频进行二次压缩。为了解决这个问题,要么将上传的视频压制到平台限定码率之下;要么尽量减少复杂移动画面的拍摄、调整曝光减少噪点等。