[X86] Add test case for unfolding broadcast load from vpternlog.

2025-01-31 20:51:52 +01:00 · 2020-07-02 13:29:30 -07:00 · 2020-07-02 13:29:30 -07:00 · 64cb7dfab8
commit 64cb7dfab8
parent 50ec534a2c
1 changed files with 48 additions and 0 deletions
--- a/test/CodeGen/X86/avx512-broadcast-unfold.ll
+++ b/test/CodeGen/X86/avx512-broadcast-unfold.ll
@ -4633,3 +4633,51 @@ bb1:                                              ; preds = %bb1, %bb
 bb10:                                             ; preds = %bb1
  ret void
 }
 ; The or/and pattern here should be turned into vpternlog. The multiply is
 ; there to increase the use count of the loads so they can't fold. We want to
 ; unfold the broadcast and pull it out of the loop.
 define void @bcast_unfold_vpternlog_v16i32(i32* %arg, i32* %arg1) {
 ; CHECK-LABEL: bcast_unfold_vpternlog_v16i32:
 ; CHECK:       # %bb.0: # %bb
 ; CHECK-NEXT:    movq $-4096, %rax # imm = 0xF000
 ; CHECK-NEXT:    .p2align 4, 0x90
 ; CHECK-NEXT:  .LBB131_1: # %bb2
 ; CHECK-NEXT:    # =>This Inner Loop Header: Depth=1
 ; CHECK-NEXT:    vmovdqu64 4096(%rdi,%rax), %zmm0
 ; CHECK-NEXT:    vmovdqu64 4096(%rsi,%rax), %zmm1
 ; CHECK-NEXT:    vpmulld %zmm1, %zmm0, %zmm2
 ; CHECK-NEXT:    vpternlogd $216, {{.*}}(%rip){1to16}, %zmm0, %zmm1
 ; CHECK-NEXT:    vpmulld %zmm2, %zmm1, %zmm0
 ; CHECK-NEXT:    vmovdqu64 %zmm0, 4096(%rdi,%rax)
 ; CHECK-NEXT:    addq $64, %rax
 ; CHECK-NEXT:    jne .LBB131_1
 ; CHECK-NEXT:  # %bb.2: # %bb20
 ; CHECK-NEXT:    vzeroupper
 ; CHECK-NEXT:    retq
 bb:
  br label %bb2
 bb2:                                              ; preds = %bb2, %bb
  %tmp = phi i64 [ 0, %bb ], [ %tmp18, %bb2 ]
  %tmp3 = getelementptr inbounds i32, i32* %arg, i64 %tmp
  %tmp4 = bitcast i32* %tmp3 to <16 x i32>*
  %tmp5 = load <16 x i32>, <16 x i32>* %tmp4, align 4
  %tmp6 = getelementptr inbounds i32, i32* %arg1, i64 %tmp
  %tmp10 = bitcast i32* %tmp6 to <16 x i32>*
  %tmp11 = load <16 x i32>, <16 x i32>* %tmp10, align 4
  %tmp12 = and <16 x i32> %tmp5, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
  %tmp13 = and <16 x i32> %tmp11, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
  %tmp14 = or <16 x i32> %tmp12, %tmp13
  %tmp15 = mul <16 x i32> %tmp14, %tmp5
  %tmp16 = mul <16 x i32> %tmp15, %tmp11
  %tmp17 = bitcast i32* %tmp3 to <16 x i32>*
  store <16 x i32> %tmp16, <16 x i32>* %tmp17, align 4
  %tmp18 = add i64 %tmp, 16
  %tmp19 = icmp eq i64 %tmp18, 1024
  br i1 %tmp19, label %bb20, label %bb2
 bb20:                                             ; preds = %bb2
  ret void
 }