📙
音视频开发技术手册
  • 《音视频开发技术:原理与实践》©
    • =[>> 关于作者© <<]=
    • =[>> 版权申明© <<]=
    • =[>> 难度向导© <<]=
    • =[>> 赞助本作© <<]=
  • 一、音频的保存与还原
    • 1.1 音频基础
    • 1.2 声波三要素(Three Elements of Acoustics)
    • 1.3 声音三要素(Three Elements of Sounds)
      • 1.3.1 音高(Pitch)
      • 1.3.2 响度(Loudness)
      • 1.3.3 音色(Timbre)
    • 1.4 声音的解构
      • 1.4.1 乐理:音调(Notes) & 五度圈(Circle of Fifths)
      • 1.4.2 乐理:和声(Harmony) & 和弦(Chord)& 调性网络(Tonnetz)
      • 1.4.3 感观:等响曲线(ELLC [Equal Loudness-Level Contour])
      • 1.4.4 感观:频响曲线(FRC [Frequency Response Contour])
      • 1.4.5 工程:频谱图(Spectrum)
    • 1.5 声音数字化
      • 1.5.1 数字信号(Digital Signal)& 模拟信号(Analog Signal)& 真实波源(Original Source)
      • 1.5.2 模数转换(A/D [Analog-to-Digital])
      • 1.5.3 数模转换(D/A [Digital-to-Analog])
      • 1.5.4 脉冲编码调制(PCM)& 脉冲密度调制(PDM)
    • 1.6 音频的存储
      • 1.6.1 音频格式(Audio Format)
      • 1.6.2 无压缩编码格式(Uncompressed Encode)
      • 1.6.3 无损压缩编码格式(Lossless Encode)
      • 1.6.4 有损压缩编码格式(Uncompressed Encode)
    • 【参考文献】
  • 二、色彩的运用与存储
    • 2.1 色彩基础
    • 2.2 颜色三要素(Three Elements of Color)
      • 2.2.1 色调(Hue)
      • 2.2.2 饱和度(Saturation)
      • 2.2.3 光亮度(Luminance)
    • 2.3 色彩的衡量
      • 2.3.1 辐射亮度(Radiance)& 色温(Color Temperature)& 颜色的量化
      • 2.3.2 配色函数(Color Matching Functions)& 色彩空间(Color Space)
      • 2.3.3 经典三原色函数(Trichromatic Primaries Functions)
      • 2.3.4 经典三刺激函数(Tristimulus Values Functions)
      • 2.3.5 现代色彩体系(Modern Color System)
    • 2.4 色彩的对比
      • 2.4.1 色域(Color Gamut )
      • 2.4.2 色度(Chroma)& 色度平面(Chroma Plane)& 色度图(Chroma Diagram)
      • 2.4.3 色差(Chromatic Aberration)
      • 2.4.4 色温(Color Temperature)& 相关色温(Correlated Color Temperature)
      • 2.4.5 标准光源(Standard Illuminants)& 白点(White Point)
      • 2.4.6 显色指数(Color Rendering Index)
    • 2.5 经典色彩空间(Classical Color Space)
      • 2.5.1 光学三原色色彩空间(RGB)
      • 2.5.2 颜料三原色色彩空间(CMY / CMYK )
      • 2.5.3 CIE RGB 色彩空间(CIE 1931 RGB Color Space)
      • 2.5.4 CIE XYZ 色彩空间(CIE 1931 XYZ Color Space)
      • 2.5.5 CIE LAB 色彩空间(CIE 1976 L*, a*, b* Color Space)
      • 2.5.6 CIE LUV 色彩空间(CIE 1976 L*, u*, v* Color Space)
      • 2.5.7 颜色三要素色彩空间(HSV / HSI / HSL)
    • 2.6 色彩的存储
      • 2.6.1 色彩格式(Color Format)与色彩存储
      • 2.6.2 RGB 体系色彩格式
      • 2.6.3 YUV 体系色彩格式
    • 【参考文献】
  • 三、音视频常用基础算法
    • 3.1 信号分析的核心算法 - 傅立叶变换
      • 3.1.1 一维傅立叶(1D-FT)与一维离散傅立叶变换(1D-DFT)
      • 3.1.2 二维傅立叶(2D-FT)与二维离散傅立叶变换(2D-DFT)
      • 3.1.3 傅立叶变化的经典 - 快速傅立叶变换(FFT)
      • 3.1.4 傅里叶的硬件优化 - 多常数乘法矩阵逼近(Matrix-MCM Approach)
    • 3.2 频率信息提取 - 常用滤波算法
      • 3.2.1 高斯滤波(Gauss Filter)
      • 3.2.2 双边滤波(Bilateral Filter)
      • 3.2.3 拉普拉斯滤波(Laplacian Filter)
      • 3.2.4 马尔滤波(Marr Filter)
      • 3.2.5 索贝尔滤波(Sobel Filter)
      • 3.2.6 各向异性扩散(Anisotropic Diffusion)
    • 3.3 时间冗余控制 - 常用特征提取与朴素阈值处理
      • 3.3.1 方向梯度直方图(HOG [Histogram of Oriented Gradient])
      • 3.3.2 朴素目标检测结果度量 - IoU & GIoU
      • 3.3.3 朴素目标检测物体锁定 - 分步滑动窗口(Simple Sliding Window)
    • 3.4 空域冗余控制 - 基础光流算法与色度压缩
      • 3.4.1 传统光流法(Classic Optical Flow Methods)
      • 3.4.2 双向光流预测(BDOF [Bi-Directional Optical Flow])
      • 3.4.3 光流仿射修正(PROF [Affine Prediction Refinement With Optical Flow])
      • 3.4.4 色度缩放亮度映射(LMCS [Luma Mapping with Chroma Scaling])
    • 3.5 频域冗余控制 - 基础变换编码
      • 3.5.1 整数离散正余弦变换(DST/DCT)
      • 3.5.2 哈达玛变换(WHT [Walsh-Hadamard Transform])
      • 3.5.3 低频不可分变换(LFNST [Low-Frequency Non-Separable Transform])
    • 【在线展示】
    • 【参考文献】
  • 四、音视频机器学习基础
    • 4.1 发展概览
    • 4.2 模型工程基础
      • 4.2.1 算子(Operator)& 层(Layer)
      • 4.2.2 神经元(Neuron)
      • 4.2.3 神经网络(NN [Neural Network])
      • 4.2.4 特征选择(Feature Selection)
    • 4.3 经典激活函数(Classic Activation Function)
      • 4.3.1 Sigmoid
      • 4.3.2 Tanh
      • 4.3.3 Softplus
      • 4.3.4 ReLU 族
      • 4.3.5 ELU & SELU
      • 4.3.6 Mish
      • 4.3.7 Swish 族
    • 4.4 连接函数/衰减函数(Connection/Attenuation Function)
      • 4.4.1 Dropout
      • 4.4.2 Maxout
      • 4.4.3 SoftMax
    • 4.5 损失函数(Loss Function)
      • 4.5.1 回归项-平均绝对误差(MAE [Mean Absolute Error])
      • 4.5.2 回归项-均方误差(MSE [Mean Squared Error])
      • 4.5.3 回归项-休伯损失(Huber Loss)
      • 4.5.4 回归项-分位数损失(Quantile Loss)
      • 4.5.5 分类项-对数损失(Log Loss)
      • 4.5.6 分类项-交叉熵损失(Cross Entropy Loss)
      • 4.5.7 分类项-合页损失(Hinge Loss)
      • 4.5.8 分类项-对比损失(Contrastive Loss)
      • 4.5.9 分类项-三元损失(Triplet Loss)
      • 4.5.10 分类项-对组排异损失(N-Pair Loss)
      • 4.5.11 正则项-L1 惩罚
      • 4.5.12 正则项-L2 惩罚
    • 4.6 常用最优化算法(Optimizer Operator)
      • 4.6.1 基础优化算法
      • 4.6.2 优化算法的优化-应对震荡
      • 4.6.3 优化算法的优化-应对重点强(弱)化更新
      • 4.6.4 自适应实时评估算法(Adam [Adaptive Moment Estimation])
      • 4.6.5 优化算法对比与使用建议
    • 4.7 模型结构速览
      • 4.7.1 卷积神经网络(CNN [Convolutional Neural Network])
      • 4.7.2 循环神经网络(RNN [Recurrent Neural Network])
      • 4.7.3 自注意力网络(Transformer)
    • 【参考文献】
  • 五、音视频帧分析与数据处理
    • 5.1 音视频帧与环境准备
      • 5.1.1 常用数学库(Numpy、Pandas、Mateplotlib)
      • 5.1.2 音频分析库(SoundFile、PyAudio、Librosa、Aubio)
      • 5.1.3 视频分析库(PyOpenCV、Color-Science)
      • 5.1.4 其他分析软件
    • 【参考文献】
Powered by GitBook
On this page

Was this helpful?

  1. 三、音视频常用基础算法

【在线展示】

  • 在线演示

Previous3.5.3 低频不可分变换(LFNST [Low-Frequency Non-Separable Transform])Next【参考文献】

Last updated 1 year ago

Was this helpful?