Assembly x64 Intro - SSE2 4x4D Transpose
2015-12-16 10:21
155 查看
; in: xmm1, xmm2, xmm3, xmm4, xmm5 pOut: xmm1, xmm4, xmm5, mm3
%macro SSE2_Trans4x4D 5
SSE2_XSawp dq, %1, %2, %5
SSE2_XSawp dq, %3, %4, %2
SSE2_XSawp qdq, %1, %3, %4
SSE2_XSawp qdq, %5, %2, %3
%endmacro
;for TRANSPOSE
%macro SSE2_XSawp 4
movdqa %4, %2
punpckl%1 %2, %3
punpckh%1 %4, %3
%endmacro
SSE2_Trans4x4D xmm4, xmm2, xmm1, xmm3, xmm5 ; pOut: xmm4,xmm3,xmm5,xmm1
类似 MMX_Trans4x4W, MMX_Trans4x4W操作的是16bit的字, 而SSE2_Trans4x4D 操作的是双字。
%macro SSE2_Trans4x4D 5
SSE2_XSawp dq, %1, %2, %5
SSE2_XSawp dq, %3, %4, %2
SSE2_XSawp qdq, %1, %3, %4
SSE2_XSawp qdq, %5, %2, %3
%endmacro
;for TRANSPOSE
%macro SSE2_XSawp 4
movdqa %4, %2
punpckl%1 %2, %3
punpckh%1 %4, %3
%endmacro
SSE2_Trans4x4D xmm4, xmm2, xmm1, xmm3, xmm5 ; pOut: xmm4,xmm3,xmm5,xmm1
类似 MMX_Trans4x4W, MMX_Trans4x4W操作的是16bit的字, 而SSE2_Trans4x4D 操作的是双字。
相关文章推荐
- 性能评估
- 代码编辑器Sublime Text 3 免费使用方法与简体中文汉化包下载
- Ming Rpc
- .top域名总量15强:14家净增长 西数涨幅第五
- 数据库读写分离的性能分析
- [LeetCode]112. Maximum Subarray最大和连续子序列
- JS 跳转到指定链接
- linux下QT初试
- 属性动画Animator学习
- OC学习篇之---Foundation框架中的其他类(NSNumber,NSDate,NSExcetion)
- [LeetCode]112. Maximum Subarray最大和连续子序列
- 理解GRUB2工作原理及配置选项与方法
- 一个经典例子让你彻彻底底理解java回调机制
- 机器学习--岭回归与偏最小二乘
- 调用一个UITableview的一个代理的方法,实现UITableview重载
- java线上调试小结
- MYSQL 环境变量添加
- 利用mmSeg4j分词实现网页文本倾向性分析
- java 包装类
- Android摄像头 怎么搞?