Cross Reference: /external/llvm/test/CodeGen/AArch64/arm64-vmul.ll

Lines Matching full:tmp1
7   %tmp1 = load <8 x i8>, <8 x i8>* %A
9   %tmp3 = call <8 x i16> @llvm.aarch64.neon.smull.v8i16(<8 x i8> %tmp1, <8 x i8> %tmp2)
16   %tmp1 = load <4 x i16>, <4 x i16>* %A
18   %tmp3 = call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
25   %tmp1 = load <2 x i32>, <2 x i32>* %A
27   %tmp3 = call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
38   %tmp1 = load <8 x i8>, <8 x i8>* %A
40   %tmp3 = call <8 x i16> @llvm.aarch64.neon.umull.v8i16(<8 x i8> %tmp1, <8 x i8> %tmp2)
47   %tmp1 = load <4 x i16>, <4 x i16>* %A
49   %tmp3 = call <4 x i32> @llvm.aarch64.neon.umull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
56   %tmp1 = load <2 x i32>, <2 x i32>* %A
58   %tmp3 = call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
69   %tmp1 = load <4 x i16>, <4 x i16>* %A
71   %tmp3 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
78   %tmp1 = load <2 x i32>, <2 x i32>* %A
80   %tmp3 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
89   %tmp1 = shufflevector <8 x i16> %load1, <8 x i16> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
91   %tmp3 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
100   %tmp1 = shufflevector <4 x i32> %load1, <4 x i32> undef, <2 x i32> <i32 2, i32 3>
102   %tmp3 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
113   %tmp1 = load <8 x i8>, <8 x i8>* %A
115   %tmp3 = call <8 x i16> @llvm.aarch64.neon.pmull.v8i16(<8 x i8> %tmp1, <8 x i8> %tmp2)
124   %tmp1 = load <4 x i16>, <4 x i16>* %A
126   %tmp3 = call <4 x i16> @llvm.aarch64.neon.sqdmulh.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
133   %tmp1 = load <8 x i16>, <8 x i16>* %A
135   %tmp3 = call <8 x i16> @llvm.aarch64.neon.sqdmulh.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
142   %tmp1 = load <2 x i32>, <2 x i32>* %A
144   %tmp3 = call <2 x i32> @llvm.aarch64.neon.sqdmulh.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
151   %tmp1 = load <4 x i32>, <4 x i32>* %A
153   %tmp3 = call <4 x i32> @llvm.aarch64.neon.sqdmulh.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
160   %tmp1 = load i32, i32* %A
162   %tmp3 = call i32 @llvm.aarch64.neon.sqdmulh.i32(i32 %tmp1, i32 %tmp2)
175   %tmp1 = load <4 x i16>, <4 x i16>* %A
177   %tmp3 = call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp2)
184   %tmp1 = load <8 x i16>, <8 x i16>* %A
186   %tmp3 = call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp2)
193   %tmp1 = load <2 x i32>, <2 x i32>* %A
195   %tmp3 = call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp2)
202   %tmp1 = load <4 x i32>, <4 x i32>* %A
204   %tmp3 = call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp2)
211   %tmp1 = load i32, i32* %A
213   %tmp3 = call i32 @llvm.aarch64.neon.sqrdmulh.i32(i32 %tmp1, i32 %tmp2)
226   %tmp1 = load <2 x float>, <2 x float>* %A
228   %tmp3 = call <2 x float> @llvm.aarch64.neon.fmulx.v2f32(<2 x float> %tmp1, <2 x float> %tmp2)
235   %tmp1 = load <4 x float>, <4 x float>* %A
237   %tmp3 = call <4 x float> @llvm.aarch64.neon.fmulx.v4f32(<4 x float> %tmp1, <4 x float> %tmp2)
244   %tmp1 = load <2 x double>, <2 x double>* %A
246   %tmp3 = call <2 x double> @llvm.aarch64.neon.fmulx.v2f64(<2 x double> %tmp1, <2 x double> %tmp2)
257   %tmp1 = load <4 x i16>, <4 x i16>* %A
260   %tmp4 = call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
268   %tmp1 = load <2 x i32>, <2 x i32>* %A
271   %tmp4 = call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
279   %tmp1 = load <4 x i16>, <4 x i16>* %A
282   %tmp4 = call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
290   %tmp1 = load <2 x i32>, <2 x i32>* %A
293   %tmp4 = call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
306   %tmp1 = load <4 x i16>, <4 x i16>* %A
309   %tmp4 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
317   %tmp1 = load <2 x i32>, <2 x i32>* %A
320   %tmp4 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
331   %tmp1 = shufflevector <8 x i16> %load1, <8 x i16> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
333   %tmp4 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
344   %tmp1 = shufflevector <4 x i32> %load1, <4 x i32> undef, <2 x i32> <i32 2, i32 3>
346   %tmp4 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
354   %tmp1 = load <4 x i16>, <4 x i16>* %A
357   %tmp4 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
365   %tmp1 = load <2 x i32>, <2 x i32>* %A
368   %tmp4 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
379   %tmp1 = shufflevector <8 x i16> %load1, <8 x i16> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
381   %tmp4 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
392   %tmp1 = shufflevector <4 x i32> %load1, <4 x i32> undef, <2 x i32> <i32 2, i32 3>
394   %tmp4 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
402   %tmp1 = load <4 x i16>, <4 x i16>* %A
405 tmp1, <4 x i16> %tmp2)
413   %tmp1 = load <2 x i32>, <2 x i32>* %A
416   %tmp4 = call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
424   %tmp1 = load <4 x i16>, <4 x i16>* %A
427   %tmp4 = call <4 x i32> @llvm.aarch64.neon.umull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
435   %tmp1 = load <2 x i32>, <2 x i32>* %A
438   %tmp4 = call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
446   %tmp1 = load <2 x float>, <2 x float>* %A
449   %tmp4 = call <2 x float> @llvm.fma.v2f32(<2 x float> %tmp1, <2 x float> %tmp2, <2 x float> %tmp3)
456   %tmp1 = load <4 x float>, <4 x float>* %A
459   %tmp4 = call <4 x float> @llvm.fma.v4f32(<4 x float> %tmp1, <4 x float> %tmp2, <4 x float> %tmp3)
466   %tmp1 = load <2 x double>, <2 x double>* %A
469   %tmp4 = call <2 x double> @llvm.fma.v2f64(<2 x double> %tmp1, <2 x double> %tmp2, <2 x double> %tmp3)
480   %tmp1 = load <2 x float>, <2 x float>* %A
484   %tmp5 = call <2 x float> @llvm.fma.v2f32(<2 x float> %tmp1, <2 x float> %tmp4, <2 x float> %tmp3)
491   %tmp1 = load <4 x float>, <4 x float>* %A
495   %tmp5 = call <4 x float> @llvm.fma.v4f32(<4 x float> %tmp1, <4 x float> %tmp4, <4 x float> %tmp3)
502   %tmp1 = load <2 x double>, <2 x double>* %A
506   %tmp5 = call <2 x double> @llvm.fma.v2f64(<2 x double> %tmp1, <2 x double> %tmp4, <2 x double> %tmp3)
513   %tmp1 = load <2 x float>, <2 x float>* %A
517   %tmp5 = call <2 x float> @llvm.fma.v2f32(<2 x float> %tmp4, <2 x float> %tmp1, <2 x float> %tmp3)
524   %tmp1 = load <4 x float>, <4 x float>* %A
528   %tmp5 = call <4 x float> @llvm.fma.v4f32(<4 x float> %tmp4, <4 x float> %tmp1, <4 x float> %tmp3)
535   %tmp1 = load <2 x double>, <2 x double>* %A
539   %tmp5 = call <2 x double> @llvm.fma.v2f64(<2 x double> %tmp4, <2 x double> %tmp1, <2 x double> %tmp3)
612   %tmp1 = load <4 x i16>, <4 x i16>* %A
615   %tmp4 = mul <4 x i16> %tmp1, %tmp3
623   %tmp1 = load <8 x i16>, <8 x i16>* %A
626   %tmp4 = mul <8 x i16> %tmp1, %tmp3
634   %tmp1 = load <2 x i32>, <2 x i32>* %A
637   %tmp4 = mul <2 x i32> %tmp1, %tmp3
645   %tmp1 = load <4 x i32>, <4 x i32>* %A
648   %tmp4 = mul <4 x i32> %tmp1, %tmp3
656   %tmp1 = mul <2 x i64> %A, %B
657   ret <2 x i64> %tmp1
664   %tmp1 = load <2 x float>, <2 x float>* %A
667   %tmp4 = fmul <2 x float> %tmp1, %tmp3
675   %tmp1 = load <4 x float>, <4 x float>* %A
678   %tmp4 = fmul <4 x float> %tmp1, %tmp3
686   %tmp1 = load <2 x double>, <2 x double>* %A
689   %tmp4 = fmul <2 x double> %tmp1, %tmp3
717   %tmp1 = load <2 x float>, <2 x float>* %A
720   %tmp4 = call <2 x float> @llvm.aarch64.neon.fmulx.v2f32(<2 x float> %tmp1, <2 x float> %tmp3)
728   %tmp1 = load <4 x float>, <4 x float>* %A
731   %tmp4 = call <4 x float> @llvm.aarch64.neon.fmulx.v4f32(<4 x float> %tmp1, <4 x float> %tmp3)
739   %tmp1 = load <2 x double>, <2 x double>* %A
742   %tmp4 = call <2 x double> @llvm.aarch64.neon.fmulx.v2f64(<2 x double> %tmp1, <2 x double> %tmp3)
750   %tmp1 = load <4 x i16>, <4 x i16>* %A
753   %tmp4 = call <4 x i16> @llvm.aarch64.neon.sqdmulh.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp3)
761   %tmp1 = load <8 x i16>, <8 x i16>* %A
764   %tmp4 = call <8 x i16> @llvm.aarch64.neon.sqdmulh.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp3)
772   %tmp1 = load <2 x i32>, <2 x i32>* %A
775   %tmp4 = call <2 x i32> @llvm.aarch64.neon.sqdmulh.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp3)
783   %tmp1 = load <4 x i32>, <4 x i32>* %A
786   %tmp4 = call <4 x i32> @llvm.aarch64.neon.sqdmulh.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp3)
794   %tmp1 = extractelement <4 x i32> %B, i32 1
795   %tmp2 = call i32 @llvm.aarch64.neon.sqdmulh.i32(i32 %A, i32 %tmp1)
803   %tmp1 = load <4 x i16>, <4 x i16>* %A
806   %tmp4 = call <4 x i16> @llvm.aarch64.neon.sqrdmulh.v4i16(<4 x i16> %tmp1, <4 x i16> %tmp3)
814   %tmp1 = load <8 x i16>, <8 x i16>* %A
817   %tmp4 = call <8 x i16> @llvm.aarch64.neon.sqrdmulh.v8i16(<8 x i16> %tmp1, <8 x i16> %tmp3)
825   %tmp1 = load <2 x i32>, <2 x i32>* %A
828   %tmp4 = call <2 x i32> @llvm.aarch64.neon.sqrdmulh.v2i32(<2 x i32> %tmp1, <2 x i32> %tmp3)
836   %tmp1 = load <4 x i32>, <4 x i32>* %A
839   %tmp4 = call <4 x i32> @llvm.aarch64.neon.sqrdmulh.v4i32(<4 x i32> %tmp1, <4 x i32> %tmp3)
847   %tmp1 = extractelement <4 x i32> %B, i32 1
848   %tmp2 = call i32 @llvm.aarch64.neon.sqrdmulh.i32(i32 %A, i32 %tmp1)
856   %tmp1 = load <4 x i16>, <4 x i16>* %A
859   %tmp4 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3)
867   %tmp1 = load <2 x i32>, <2 x i32>* %A
870   %tmp4 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3)
880   %tmp1 = shufflevector <8 x i16> %load1, <8 x i16> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
882   %tmp4 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
892   %tmp1 = shufflevector <4 x i32> %load1, <4 x i32> undef, <2 x i32> <i32 2, i32 3>
894   %tmp4 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
902   %tmp1 = load <4 x i16>, <4 x i16>* %A
905   %tmp4 = call <4 x i32> @llvm.aarch64.neon.umull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3)
913   %tmp1 = load <2 x i32>, <2 x i32>* %A
916   %tmp4 = call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3)
924   %tmp1 = load <4 x i16>, <4 x i16>* %A
927   %tmp4 = call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3)
935   %tmp1 = load <2 x i32>, <2 x i32>* %A
938   %tmp4 = call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3)
946   %tmp1 = load <4 x i16>, <4 x i16>* %A
950   %tmp5 = call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp4)
959   %tmp1 = load <2 x i32>, <2 x i32>* %A
963   %tmp5 = call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp4)
972   %tmp1 = load <4 x i16>, <4 x i16>* %A
976   %tmp5 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp4)
985   %tmp1 = load <2 x i32>, <2 x i32>* %A
989   %tmp5 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp4)
1001   %tmp1 = shufflevector <8 x i16> %load1, <8 x i16> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
1003   %tmp5 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
1015   %tmp1 = shufflevector <4 x i32> %load1, <4 x i32> undef, <2 x i32> <i32 2, i32 3>
1017   %tmp5 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
1072   %tmp1 = load <4 x i16>, <4 x i16>* %A
1076   %tmp5 = call <4 x i32> @llvm.aarch64.neon.umull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp4)
1085   %tmp1 = load <2 x i32>, <2 x i32>* %A
1089   %tmp5 = call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp4)
1099   %tmp1 = load <4 x i16>, <4 x i16>* %A
1103   %tmp5 = call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp4)
1112   %tmp1 = load <2 x i32>, <2 x i32>* %A
1116   %tmp5 = call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp4)
1125   %tmp1 = load <4 x i16>, <4 x i16>* %A
1129   %tmp5 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp4)
1138   %tmp1 = load <2 x i32>, <2 x i32>* %A
1142   %tmp5 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp4)
1154   %tmp1 = shufflevector <8 x i16> %load1, <8 x i16> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
1156   %tmp5 = call <4 x i32> @llvm.aarch64.neon.sqdmull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp2)
1168   %tmp1 = shufflevector <4 x i32> %load1, <4 x i32> undef, <2 x i32> <i32 2, i32 3>
1170   %tmp5 = call <2 x i64> @llvm.aarch64.neon.sqdmull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp2)
1179   %tmp1 = load <4 x i16>, <4 x i16>* %A
1183   %tmp5 = call <4 x i32> @llvm.aarch64.neon.umull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp4)
1192   %tmp1 = load <2 x i32>, <2 x i32>* %A
1196   %tmp5 = call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp4)
1255   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <8 x i8>
1259   %vmull.i.i = tail call <8 x i16> @llvm.aarch64.neon.smull.v8i16(<8 x i8> %tmp1, <8 x i8> %tmp3) nounwind
1268   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <4 x i16>
1272   %vmull2.i.i = tail call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3) nounwind
1281   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <2 x i32>
1285   %vmull2.i.i = tail call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3) nounwind
1294   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <8 x i8>
1298   %vmull.i.i = tail call <8 x i16> @llvm.aarch64.neon.umull.v8i16(<8 x i8> %tmp1, <8 x i8> %tmp3) nounwind
1307   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <4 x i16>
1311   %vmull2.i.i = tail call <4 x i32> @llvm.aarch64.neon.umull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3) nounwind
1320   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <2 x i32>
1324   %vmull2.i.i = tail call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3) nounwind
1387   %tmp1 = bitcast <1 x i64> %shuffle.i.i.i to <8 x i8>
1391   %vmull.i.i.i = tail call <8 x i16> @llvm.aarch64.neon.smull.v8i16(<8 x i8> %tmp1, <8 x i8> %tmp3) nounwind
1403   %tmp1 = bitcast <1 x i64> %shuffle.i.i.i to <4 x i16>
1407   %vmull2.i.i.i = tail call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3) nounwind
1419   %tmp1 = bitcast <1 x i64> %shuffle.i.i.i to <2 x i32>
1423   %vmull2.i.i.i = tail call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3) nounwind
1435   %tmp1 = bitcast <1 x i64> %shuffle.i.i.i to <8 x i8>
1439   %vmull.i.i.i = tail call <8 x i16> @llvm.aarch64.neon.umull.v8i16(<8 x i8> %tmp1, <8 x i8> %tmp3) nounwind
1451   %tmp1 = bitcast <1 x i64> %shuffle.i.i.i to <4 x i16>
1455   %vmull2.i.i.i = tail call <4 x i32> @llvm.aarch64.neon.umull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3) nounwind
1467   %tmp1 = bitcast <1 x i64> %shuffle.i.i.i to <2 x i32>
1471   %vmull2.i.i.i = tail call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3) nounwind
1483   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <4 x i16>
1487   %vmull2.i.i = tail call <4 x i32> @llvm.aarch64.neon.smull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3) nounwind
1499   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <2 x i32>
1503   %vmull2.i.i = tail call <2 x i64> @llvm.aarch64.neon.smull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3) nounwind
1516   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <4 x i16>
1520   %vmull2.i.i = tail call <4 x i32> @llvm.aarch64.neon.umull.v4i32(<4 x i16> %tmp1, <4 x i16> %tmp3) nounwind
1532   %tmp1 = bitcast <1 x i64> %shuffle.i.i to <2 x i32>
1536   %vmull2.i.i = tail call <2 x i64> @llvm.aarch64.neon.umull.v2i64(<2 x i32> %tmp1, <2 x i32> %tmp3) nounwind
OpenGrok