Home | History | Annotate | Download | only in x86

Lines Matching refs:m_temp_reg_31

151     __m128i m_temp_reg_31;
1151 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1153 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1171 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1173 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1187 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff4);
1192 m_temp_reg_92 = _mm_sub_epi32(m_temp_reg_34, m_temp_reg_31);
1193 m_temp_reg_95 = _mm_add_epi32(m_temp_reg_35, m_temp_reg_31);
1201 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff4);
1206 m_temp_reg_93 = _mm_sub_epi32(m_temp_reg_34, m_temp_reg_31);
1207 m_temp_reg_94 = _mm_add_epi32(m_temp_reg_35, m_temp_reg_31);
1219 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff4);
1227 temp1 = _mm_add_epi32(m_temp_reg_34, m_temp_reg_31);
1228 temp7 = _mm_sub_epi32(m_temp_reg_35, m_temp_reg_31);
1236 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff4);
1244 temp2 = _mm_add_epi32(m_temp_reg_34, m_temp_reg_31);
1245 temp6 = _mm_sub_epi32(m_temp_reg_35, m_temp_reg_31);
1256 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff4);
1264 temp3 = _mm_add_epi32(m_temp_reg_34, m_temp_reg_31);
1265 temp5 = _mm_sub_epi32(m_temp_reg_35, m_temp_reg_31);
1274 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff4);
1281 temp4 = _mm_add_epi32(m_temp_reg_34, m_temp_reg_31);
1282 temp8 = _mm_sub_epi32(m_temp_reg_35, m_temp_reg_31);
1319 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1321 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1347 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1349 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1377 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1379 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1401 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1403 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1430 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1432 m_temp_reg_30 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_31);
1456 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1458 m_temp_reg_30 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_31);
1486 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1488 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1511 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1513 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1541 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1543 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1566 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1568 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1597 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1599 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1622 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1624 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1652 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1654 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1677 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1679 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1707 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
1709 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1733 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_15, m_coeff2);
1735 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
1827 m_temp_reg_31 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_20);
1835 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
1837 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
1840 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
1857 m_temp_reg_31 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_20);
1865 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
1867 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
1870 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
1887 m_temp_reg_31 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_20);
1895 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
1897 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
1900 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
1916 m_temp_reg_31 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_20);
1924 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
1926 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
1929 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
1945 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
1953 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
1955 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
1958 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
1975 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
1983 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
1985 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
1988 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2004 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2012 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2014 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2017 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2034 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2042 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2044 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2047 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2063 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2071 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2073 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2076 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2091 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2099 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2101 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2104 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2119 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2127 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2129 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2132 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2147 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2155 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2157 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2160 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2176 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2184 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2186 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2189 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2205 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2213 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2215 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2218 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2233 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2241 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2243 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2246 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2262 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2270 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2272 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2275 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2323 m_temp_reg_31 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_20);
2331 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2333 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2336 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2356 m_temp_reg_31 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_20);
2364 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2366 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2369 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2389 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2397 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2399 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2402 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2422 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2430 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2432 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2435 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2455 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2463 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2465 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2468 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2488 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2496 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2498 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2501 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2521 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2529 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2531 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2534 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2554 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2562 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2564 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2567 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2587 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2595 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2597 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2600 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2619 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2627 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2629 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2632 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2651 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2659 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2661 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2664 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2684 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2692 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2694 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2697 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2717 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2725 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2727 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2730 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2750 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2758 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2760 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2763 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2782 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2790 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2792 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2795 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2815 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2823 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2825 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2828 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2919 m_temp_reg_31 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_20);
2927 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2929 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2932 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
2976 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
2984 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
2986 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
2989 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3032 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3040 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3042 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3045 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3089 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3097 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3099 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3102 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3145 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3153 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3155 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3158 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3202 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3210 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3212 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3215 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3259 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3267 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3269 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3272 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3315 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3323 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3325 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3328 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3373 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3381 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3383 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3386 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3429 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3437 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3439 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3442 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3484 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3492 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3494 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3497 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3539 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3547 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3549 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3552 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3596 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3604 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3606 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3609 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3653 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3661 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3663 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3666 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3709 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3717 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3719 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3722 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3765 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_20);
3773 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
3775 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
3778 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
3797 m_temp_reg_31 = _mm_load_si128((__m128i *)pi2_src_scratch);
3830 m_temp_reg_40 = _mm_unpacklo_epi16(m_temp_reg_30, m_temp_reg_31);
3831 m_temp_reg_41 = _mm_unpackhi_epi16(m_temp_reg_31, m_temp_reg_30);
3883 m_temp_reg_31 = _mm_unpackhi_epi64(m_temp_reg_0, m_temp_reg_2);
3911 _mm_storeu_si128((__m128i *)(pi2_dst_scratch + 1 * trans_size), m_temp_reg_31);
4107 m_temp_reg_31 = _mm_sub_epi32(temp1, m_temp_reg_20);
4115 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4117 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4120 m_temp_reg_31);
4133 m_temp_reg_31 = _mm_sub_epi32(temp3, m_temp_reg_20);
4141 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4143 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4146 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4159 m_temp_reg_31 = _mm_sub_epi32(temp5, m_temp_reg_20);
4167 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4169 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4172 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4185 m_temp_reg_31 = _mm_sub_epi32(temp7, m_temp_reg_20);
4193 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4195 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4198 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4211 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_90, m_temp_reg_20);
4219 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4221 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4224 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4237 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_92, m_temp_reg_20);
4245 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4247 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4250 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4263 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_94, m_temp_reg_20);
4271 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4273 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4276 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4289 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_96, m_temp_reg_20);
4297 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4299 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4302 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4315 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_97, m_temp_reg_20);
4323 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4325 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4328 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4340 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_95, m_temp_reg_20);
4348 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4350 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4353 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4366 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_93, m_temp_reg_20);
4374 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4376 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4379 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4391 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_91, m_temp_reg_20);
4399 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4401 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4404 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4417 m_temp_reg_31 = _mm_add_epi32(temp8, m_temp_reg_20);
4425 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4427 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4430 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4443 m_temp_reg_31 = _mm_add_epi32(temp6, m_temp_reg_20);
4451 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4453 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4456 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4468 m_temp_reg_31 = _mm_add_epi32(temp4, m_temp_reg_20);
4476 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4478 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4481 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4494 m_temp_reg_31 = _mm_add_epi32(temp2, m_temp_reg_20);
4502 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4504 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4507 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4701 m_temp_reg_31 = _mm_sub_epi32(temp1, m_temp_reg_20);
4709 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4711 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4714 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4732 m_temp_reg_31 = _mm_sub_epi32(temp3, m_temp_reg_20);
4740 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4742 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4745 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4762 m_temp_reg_31 = _mm_add_epi32(temp5, m_temp_reg_20);
4770 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4772 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4775 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4792 m_temp_reg_31 = _mm_add_epi32(temp7, m_temp_reg_20);
4800 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4802 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4805 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4822 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_90, m_temp_reg_20);
4830 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4832 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4835 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4852 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_92, m_temp_reg_20);
4860 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4862 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4865 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4882 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_94, m_temp_reg_20);
4890 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4892 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4895 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4912 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_96, m_temp_reg_20);
4920 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4922 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4925 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4942 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_97, m_temp_reg_20);
4950 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4952 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4955 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
4971 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_95, m_temp_reg_20);
4979 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
4981 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
4984 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5000 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_93, m_temp_reg_20);
5008 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5010 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5013 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5029 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_91, m_temp_reg_20);
5037 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5039 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5042 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5059 m_temp_reg_31 = _mm_add_epi32(temp8, m_temp_reg_20);
5067 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5069 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5072 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5089 m_temp_reg_31 = _mm_add_epi32(temp6, m_temp_reg_20);
5097 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5099 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5102 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5118 m_temp_reg_31 = _mm_add_epi32(temp4, m_temp_reg_20);
5126 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5128 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5131 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5147 m_temp_reg_31 = _mm_add_epi32(temp2, m_temp_reg_20);
5155 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5157 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5160 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5196 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5198 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5217 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5219 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5238 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5240 m_temp_reg_30 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_31);
5259 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5261 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5281 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5283 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5302 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5304 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5322 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5324 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5343 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5345 m_temp_reg_30 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5376 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff2);
5378 temp1 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5388 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff4);
5390 temp2 = _mm_sub_epi32(m_temp_reg_30, m_temp_reg_31);
5400 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff4);
5402 temp3 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5412 m_temp_reg_31 = _mm_madd_epi16(m_temp_reg_11, m_coeff4);
5414 temp4 = _mm_add_epi32(m_temp_reg_30, m_temp_reg_31);
5565 m_temp_reg_31 = _mm_sub_epi32(temp1, m_temp_reg_20);
5573 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5575 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5578 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5618 m_temp_reg_31 = _mm_add_epi32(temp3, m_temp_reg_20);
5626 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5628 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5631 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5671 m_temp_reg_31 = _mm_add_epi32(temp5, m_temp_reg_20);
5679 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5681 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5684 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5724 m_temp_reg_31 = _mm_add_epi32(temp7, m_temp_reg_20);
5732 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5734 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5737 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5777 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_90, m_temp_reg_20);
5784 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5786 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5789 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5829 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_92, m_temp_reg_20);
5837 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5839 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5842 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5882 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_94, m_temp_reg_20);
5890 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5892 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5895 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5935 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_96, m_temp_reg_20);
5943 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5945 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
5948 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
5988 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_97, m_temp_reg_20);
5996 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
5998 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
6001 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
6040 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_95, m_temp_reg_20);
6048 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
6050 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
6053 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
6092 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_93, m_temp_reg_20);
6100 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
6102 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
6105 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
6145 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_91, m_temp_reg_20);
6153 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
6155 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
6158 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
6198 m_temp_reg_31 = _mm_add_epi32(temp8, m_temp_reg_20);
6206 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
6208 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
6211 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
6251 m_temp_reg_31 = _mm_add_epi32(temp6, m_temp_reg_20);
6259 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
6261 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
6264 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
6303 m_temp_reg_31 = _mm_add_epi32(temp4, m_temp_reg_20);
6311 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
6313 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
6316 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
6356 m_temp_reg_31 = _mm_add_epi32(temp2, m_temp_reg_20);
6364 m_temp_reg_31 = _mm_add_epi32(m_temp_reg_31, m_rdng_factor);
6366 m_temp_reg_31 = _mm_sra_epi32(m_temp_reg_31, m_count);
6369 m_temp_reg_30 = _mm_packs_epi32(m_temp_reg_30, m_temp_reg_31);
6387 m_temp_reg_31 = _mm_load_si128((__m128i *)pi2_src_scratch);
6420 m_temp_reg_40 = _mm_unpacklo_epi16(m_temp_reg_30, m_temp_reg_31);
6421 m_temp_reg_41 = _mm_unpackhi_epi16(m_temp_reg_31, m_temp_reg_30);
6471 m_temp_reg_31 = _mm_unpackhi_epi64(m_temp_reg_0, m_temp_reg_2); // row1 = 0-7
6534 m_temp_reg_40 = _mm_add_epi16(m_temp_reg_31, m_temp_reg_0);