x264 arm64汇编分析 quant8x8_neon分析

一 C语言实现

#define QUANT_ONE( coef, mf, f ) \

{ \

    if( (coef) > 0 ) \

        (coef) = (f + (coef)) * (mf) >> 16; \

    else \

        (coef) = - ((f - (coef)) * (mf) >> 16); \

    nz |= (coef); \

}

static int quant_8x8( dctcoef dct[64], udctcoef mf[64], udctcoef bias[64] )

{

    int nz = 0;

    for( int i = 0; i < 64; i++ )

        QUANT_ONE( dct[i], mf[i], bias[i] );

    return !!nz;

}

二 汇编实现

//quant_8x8(int16_t dct[64], uint16_t mf[64], uint16_t bias[64])

function quant_8x8_neon, export=1

     ld1 {v16.8h, v17.8h}, [x0] //从地址x0加载数据到neon寄存器v16和v17

     abs v18.8h, v16.8h //对v16中的数据进行绝对值操作,并将结果存储在v18中

     abs v19.8h, v17.8h //对v17中的数据进行绝对值操作,并将结果存储在v19中

     ld1 {v0.8h, v1.8h}, [x2], #32 //从地址x2加载数据到neon寄存v0和v1,并跳过

     ld1 {v2.8h, v3.8h}, [x1], #32 //从地址x1加载数据到neon寄存器v2和v3,并跳过

     QUANT_TWO v0.8h, v1.8h, v2, v3, v4.16b//调用自定义的QUANT_TWO函数进行量化处理

.rept 3

//重复以下操作3次

    ld1 {v16.8h, v17.8h}, [x0] //v16, v17 dct系数

    abs v18.8h, v16.8h //求绝对值

    abs v19.8h, v17.8h //求绝对值

    ld1 {v0.8h, v1.8h}, [x2], #32

    ld1 {v2.8h, v3.8h}, [x1], #32

    QUANT_TWO v0.8h, v1.8h, v2, v3, v5.16b//再次强调QUANT_TWO函数进行量化处理

//v0.8h, v1.8h 存储偏移 数据64bits

//v2.8h,v3.8h 存储mf 量化因子64bits

    orr v4.16b, v4.16b, v5.16b //将每次量化处理的结果进行或操作,并存储在x4中

.endr

    uqxtn  v0.8b, v4.8h //对v4进行位转换操作

    QUANT_END d0 //量化处理结束

endfunc

// QUANT_TWO   v0.8h,  v1.8h,  v2,  v3,  v4.16b

//QUANT_TWO   v0.8h,  v1.8h,  v2,  v3,  v5.16b

// v0 v1存储偏移数组, v2,v3 量化因子mask用来输出结果

.macro QUANT_TWO bias0 bias1 mf0_1 mf2_3 mask

   add v18.8h, v18.8h, bias0 //绝对值v18.8h 相加bias0

   add v19.8h, v19.8h, bias1 //绝对值v19.8h 相加bias1

   umull v20.4s, v18.4h, mf0_1().4h //这里的h表示 harfword, 4half word量化因子4存入 v20.4s s表示s word, 32bits ,这个也是一致

   umull2 v21.4s, v18.8h, mf0_1().8h //这里h表示harfword, 4half word, 量化因子4存入v21.4s ,v18.8h 64位4个系数 和这个乘以mf量化因子4halfword

//意思乘以之后存入v21.4s

   umull v22.4s, v19.4h, mf2_3().4h

/*mf2_3().4h 的含义是4个half word,  乘以 v19.4h 存入 v22.4s */

   umull2 v23.4s, v19.8h, mf2_3().8h

/*高4个halfword 和 系数相乘 存入 v23.4s 4个sword 32bits的数据中*/

   sshr v16.8h, v16.8h, #15

/*v16以8个16bits 为单位,向右移位15位*/

   sshr v17.8h, v17.8h, #15

/*v17也是这样操作,看起来是取符号位, 取的低64bits*/

   shrn v18.4h, v20.4s, #16

/*对寄存器 v20 进行右移操作,移动 16 位,结果的低 16 位存储在寄存器 v18 中。*/

   shrn2 v18.8h, v21.4s, #16

//上面两句话,一句话写了v18的低64bits,一句话写了高64bits,组合成一个完整的v18寄存器的值

/*对寄存器 v21 进行右移操作,移动 16 位,结果的低 16 位存储在寄存器 v18 中。*/

   shrn v19.4h, v22.4s, #16

/*对寄存器 v22 进行右移操作,移动 16 位,结果的低 16 位存储在寄存器 v19 中。*/

   shrn2 v19.8h, v23.4s, #16

/*对寄存器 v23 进行右移操作,移动 16 位,结果的低 16 位存储在寄存器 v19 中。*/

   eor v18.16b, v18.16b, v16.16b

/*对寄存器 v18 v16 进行异或操作,结果存储在寄存器 v18字节 */

   eor v19.16b, v19.16b, v17.16b

/*对寄存器 v19 v17 进行异或操作,结果存储在寄存器 v19 字节中*/

   sub v18.8h, v19.8h, v16.8h

/*v16.8h 和 v19.8h 寄存器,相减 存入 18.8h */

   sub 19.8h, v19.8h, v17.8h

/*v7.8h 和 v19.8h 寄存器,相减 存入 19.8h*/

   orr mask, v18.16b, v19.16b

/*对寄存器 v18 v19 进行或操作,结果存储在寄存器 mask */

   st1 {v18.8h, v19.8h}, [x0], #32

/*把最终的结果存入,x0的内存位置,dct 数组*/

.endm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/787064.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Qt】常用控件(输入类)

目录 一、Line Edit二、Text Edit三、ComBo四、DateTimeEdit五、Slider 一、Line Edit QLineEdit 用来表示单行输入框&#xff0c;可以输入一段文本&#xff0c;但是不能换行。 属性说明test输入框中的文本inputMask输入内容格式约束maxLength最大长度frame是否添加边框echoM…

harbor api v2.0

harbor api v2.0 v2.0 v2.0 “harbor api v2.0”与v1区别较大&#xff0c;此处harbor也做了https。另外&#xff0c;通过接口拿到的数据也是只能默认1页10个&#xff0c;所以脚本根据实际情况一页页的循环抓取数据 脚本主要用于统计repo(仓库)、image&#xff0c;以及所有镜像…

东方财富网股票数据爬虫

废话不多说 , 直接上源码 import csv # 用于读写 CSV 文件 import json # 用于解析 JSON 数据 import requests # 用于发送 HTTP 请求 from lxml import etree # 用于解析 HTML 文档# 定义 DataScraper 类&#xff0c;实现数据抓取功能 class DataScraper:# 初始化函数def…

腾讯云2023: 容器与函数计算实践精选,引领Serverless与Docker容器新趋势

引言 在云计算领域&#xff0c;容器和函数计算技术的迅猛发展正引领着企业架构的新变革。尤其是在2023年&#xff0c;随着技术的成熟和应用场景的拓展&#xff0c;腾讯云发布的《2023腾讯云容器和函数计算技术实践精选集》为我们提供了一窗口&#xff0c;深入了解这一领域的最…

C#多线程编程详细教学

在C#中&#xff0c;多线程编程是一种非常重要的技术&#xff0c;它允许程序同时执行多个任务&#xff0c;从而提高了应用程序的响应性和整体性能。本文将详细介绍C#中的多线程编程&#xff0c;包括基本概念、线程创建、线程同步以及相关的代码示例。 一、基本概念 线程是操作…

【新手适用】手把手教你从零开始实现一个基于Pytorch的卷积神经网络CNN二: 如何训练模型,内附详细损失、准确率、均值计算

手把手教你从零开始实现一个基于Pytorch的卷积神经网络CNN&#xff08;新手适用&#xff09;一&#xff1a; model.py&#xff1a;创建模块-CSDN博客 从零开始实现一个基于Pytorch的卷积神经网络 - 知乎 目录 1 设备device定义 2 训练模型定义 3 开始训练 3.1 step、batch…

4.机器学习-十大算法之一线性回归算法(LinearRegression)案例讲解

机器学习-十大算法之一线性回归算法案例讲解 一摘要二个人简介三什么是线性回归四LinearRegression使用方法五糖尿病数据线性回归预测1.数据说明2.导包3.导入数据4.脱敏处理5.抽取训练数据和预测数据6.创建模型7.预测8.线性回归评估指标9.研究每个特征和标记结果之间的关系.来分…

职场成功的关键:提升软实力,成就非凡事业

在竞争激烈的职场中&#xff0c;专业技能固然重要&#xff0c;但软实力同样不可或缺。要想在职场中脱颖而出&#xff0c;实现事业上的成功&#xff0c;我们需要在提升软实力上下功夫。本文将探讨职场软实力的内涵及其在职场成功中的作用&#xff0c;并提供一些建议&#xff0c;…

解决Quartus与modelsim联合仿真问题:# Error loading design解决,是tb文件中没加:`timescale 1ns/1ns

解决Quartus与modelsim联合仿真问题&#xff1a;# Error loading design解决&#xff0c;是tb文件中没加&#xff1a;timescale 1&#xff0c;一直走下来&#xff0c;在modelsim中出现了下面问题2&#xff0c;rtl文件、tb文件2.1&#xff0c;rtl代码2.2&#xff0c;tb测试2.3&a…

java Web实现用户登录功能

文章目录 一、纯JSP方式实现用户登录功能&#xff08;一&#xff09;实现思路1、创建Web项目2、创建登录页面3、创建登录处理页面4、创建登录成功页面5、创建登录失败页面6、编辑项目首页 &#xff08;三&#xff09;测试结果 二、JSPServlet方式实现用户登录功能&#xff08;一…

校园通勤车可视化系统的设计与实现

1.需求分析&#xff1a; 校园通勤车可视化系统的设计与实现&#xff0c;不用管什么可视化&#xff0c;就是一个小程序就是可以知道校园车的路线&#xff0c;然后往简单了弄就可以。 校园通勤车可视化系统的设计与实现&#xff0c;不用管什么可视化&#xff0c;就是一个小程序…

【C/C++】C++学籍信息管理系统(源码+报告)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

【threejs】较大物体或shape的贴图较小问题处理方法

问题 有的场景内相对体型差距过大的物体&#xff08;如山地 海洋等&#xff09;由于尺寸问题&#xff0c;加载贴图过于小&#xff0c;同时shader也无法完全展示&#xff0c;如图 我们可以获取物体的uv&#xff0c;进行缩放使得贴图可以完全展开 如果uv是乱的 可以用xyz坐标最…

【Redis】MISCONF Redis is configured to save RDB snapshots报错解决方案

【Redis】MISCONF Redis is configured to save RDB snapshots报错解决方案 大家好 我是寸铁&#x1f44a; 总结了一篇【Redis】MISCONF Redis is configured to save RDB snapshots报错解决方案✨ 喜欢的小伙伴可以点点关注 &#x1f49d; 前言 今天在登录redis时&#xff0c…

matlab函数化简和函数极限

文章目录 化简求函数极限泰勒公式泰勒公式求解 化简 simplify 函数是MATLAB中符号计算工具箱提供的一个函数&#xff0c;用于简化数学表达式。它可以根据预定义的简化规则&#xff0c;对给定的数学表达式进行简化和转化。 以下是simplify 函数的一些常用用法&#xff1a; 简…

[蓝桥杯 2022 省 B] 李白打酒加强版

题目链接 [蓝桥杯 2022 省 B] 李白打酒加强版 题目描述 话说大诗人李白&#xff0c;一生好饮。幸好他从不开车。 一天&#xff0c;他提着酒壶&#xff0c;从家里出来&#xff0c;酒壶中有酒 2 2 2 斗。他边走边唱&#xff1a; 无事街上走&#xff0c;提壶去打酒。 逢店加一倍…

python_绘图_多条折线图绘制_显示与隐藏

1. 需求 给定一个二维数组 100行, 5列, 每一列绘制一条折线, 横轴为行索引, 纵轴为对应位置的值, 绘制在一个子图里面, 使用python plot, 使用随机颜色进行区别添加显示和隐藏按钮, 可以对每条折线进行显示和隐藏 2. 代码 import numpy as np import matplotlib.pyplot as p…

为什么说FMEA是最主要的可靠性设计工具?——FMEA软件

免费试用FMEA软件-免费版-SunFMEA FMEA&#xff0c;即故障模式与影响分析&#xff08;Failure Modes and Effects Analysis&#xff09;&#xff0c;是一种预防性的质量工具&#xff0c;广泛应用于各种工程领域&#xff0c;特别是在产品设计和制造过程中。它通过对产品或过程中…

工具_git提交时忽略某些文件或者目录,git提交排除某些文件或目录

git 提交时如果想忽略某些文件或者目录&#xff1a; 1.在根目录下创建 .gitignore 文件 2.在该文件中直接添加内容&#xff0c;如&#xff1a; 忽略.mdb、.sln、.sln,.config 文件&#xff0c;不忽视 .txt 文件 *.mdb *.ldb *.sln .config !.txt 忽略Debug目录及文件&#…

4月2日 qt密码生成小程序(可选择生成密码的格式),基于Python框架下的pyqt6

4月2日 密码生成小程序 代码展示&#xff1a; import stringfrom PyQt6.QtWidgets import (QApplication, QDialog,QMessageBox ) from untitled import Ui_PasswordGender import sys import string # py模块含有字符 import randomclass MyPasswordGenerate(Ui_Password…