svml_s_powf16_core_avx512.S source code [glibc/sysdeps/x86_64/fpu/multiarch/svml_s_powf16_core_avx512.S]

1	/ Function powf vectorized with AVX-512. KNL and SKX versions.*
2	Copyright (C) 2014-2024 Free Software Foundation, Inc.
3	This file is part of the GNU C Library.
4
5	The GNU C Library is free software; you can redistribute it and/or
6	modify it under the terms of the GNU Lesser General Public
7	License as published by the Free Software Foundation; either
8	version 2.1 of the License, or (at your option) any later version.
9
10	The GNU C Library is distributed in the hope that it will be useful,
11	but WITHOUT ANY WARRANTY; without even the implied warranty of
12	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
13	Lesser General Public License for more details.
14
15	You should have received a copy of the GNU Lesser General Public
16	License along with the GNU C Library; if not, see
17	<https://www.gnu.org/licenses/>. /*
18
19	#include <sysdep.h>
20	#include "svml_s_powf_data.h"
21	#include "svml_s_wrapper_impl.h"
22
23	/*
24	ALGORITHM DESCRIPTION:
25
26	We are using the next identity : pow(x,y) = 2^(y log2(x)).*
27
28	1) log2(x) calculation
29	Here we use the following formula.
30	Let \|x\|=2^k1X1, where k1 is integer, 1<=X1<2.*
31	Let C ~= 1/ln(2),
32	Rcp1 ~= 1/X1, X2=Rcp1X1,*
33	Rcp2 ~= 1/X2, X3=Rcp2X2,*
34	Rcp3 ~= 1/X3, Rcp3C ~= C/X3.
35	Then
36	log2\|x\| = k1 + log2(1/Rcp1) + log2(1/Rcp2) + log2(C/Rcp3C) +
37	log2(X1Rcp1Rcp2Rcp3C/C),*
38	where X1Rcp1Rcp2Rcp3C = C(1+q), q is very small.
39
40	The values of Rcp1, log2(1/Rcp1), Rcp2, log2(1/Rcp2),
41	Rcp3C, log2(C/Rcp3C) are taken from tables.
42	Values of Rcp1, Rcp2, Rcp3C are such that RcpC=Rcp1Rcp2Rcp3C
43	is exactly represented in target precision.
44
45	log2(X1Rcp1Rcp2Rcp3C/C) = log2(1+q) = ln(1+q)/ln2 =*
46	= 1/(ln2)q - 1/(2ln2)q^2 + 1/(3ln2)q^3 - ... =*
47	= 1/(Cln2)cq - 1/(2C^2ln2)cq^2 + 1/(3C^3ln2)cq^3 - ... =
48	= (1 + a1)cq + a2cq^2 + a3cq^3 + ...,*
49	where
50	cq=X1Rcp1Rcp2Rcp3C-C,*
51	a1=1/(Cln(2))-1 is small,*
52	a2=1/(2C^2ln2),
53	a3=1/(3C^3ln2),
54	...
55	Log2 result is split by three parts: HH+HL+HLL
56
57	2) Calculation of ylog2(x)*
58	Split y into YHi+YLo.
59	Get high PH and medium PL parts of ylog2\|x\|.*
60	Get low PLL part of ylog2\|x\|.*
61	Now we have PH+PL+PLL ~= ylog2\|x\|.*
62
63	3) Calculation of 2^(ylog2(x))*
64	Let's represent PH+PL+PLL in the form N + j/2^expK + Z,
65	where expK=7 in this implementation, N and j are integers,
66	0<=j<=2^expK-1, \|Z\|<2^(-expK-1). Hence
67	2^(PH+PL+PLL) ~= 2^N 2^(j/2^expK) * 2^Z,*
68	where 2^(j/2^expK) is stored in a table, and
69	2^Z ~= 1 + B1Z + B2Z^2 ... + B5Z^5.*
70	We compute 2^(PH+PL+PLL) as follows:
71	Break PH into PHH + PHL, where PHH = N + j/2^expK.
72	Z = PHL + PL + PLL
73	Exp2Poly = B1Z + B2Z^2 ... + B5Z^5*
74	Get 2^(j/2^expK) from table in the form THI+TLO.
75	Now we have 2^(PH+PL+PLL) ~= 2^N (THI + TLO) * (1 + Exp2Poly).*
76	Get significand of 2^(PH+PL+PLL) in the form ResHi+ResLo:
77	ResHi := THI
78	ResLo := THI Exp2Poly + TLO*
79	Get exponent ERes of the result:
80	Res := ResHi + ResLo:
81	Result := ex(Res) + N. /*
82
83	.section .text.evex512, "ax", @progbits
84	ENTRY (_ZGVeN16vv_powf_knl)
85	pushq %rbp
86	cfi_adjust_cfa_offset (`8`)
87	cfi_rel_offset (%rbp, `0`)
88	movq %rsp, %rbp
89	cfi_def_cfa_register (%rbp)
90	andq $-`64`, %rsp
91	subq $`1344`, %rsp
92	movq __svml_spow_data@GOTPCREL(%rip), %rdx
93	vmovaps %zmm1, %zmm9
94	vshuff32x4 $`238`, %zmm0, %zmm0, %zmm7
95	kxnorw %k3, %k3, %k3
96	vcvtps2pd %ymm0, %zmm14
97	vcvtps2pd %ymm7, %zmm10
98	movl $-`1`, %eax
99	movq $-`1`, %rcx
100	vpandd _ABSMASK(%rdx), %zmm9, %zmm4
101	vmovups _ExpMask(%rdx), %zmm6
102
103	/ exponent bits selection /
104	vpsrlq $`20`, %zmm14, %zmm13
105	vshuff32x4 $`238`, %zmm9, %zmm9, %zmm8
106	vpcmpd $`5`, _INF(%rdx), %zmm4, %k2
107	vpsrlq $`32`, %zmm13, %zmm15
108	vcvtps2pd %ymm8, %zmm2
109	vmovups _Two10(%rdx), %zmm4
110	vpmovqd %zmm15, %ymm12
111	vcvtps2pd %ymm9, %zmm1
112	vpsubd _NMINNORM(%rdx), %zmm0, %zmm3
113	vpbroadcastd %eax, %zmm8{%k2}{z}
114	vpcmpd $`5`, _NMAXVAL(%rdx), %zmm3, %k1
115
116	/ preserve mantissa, set input exponent to 2^(-10) /
117	vmovaps %zmm6, %zmm3
118	vpternlogq $`248`, %zmm6, %zmm10, %zmm4
119	vpsrlq $`20`, %zmm10, %zmm10
120	vpternlogq $`234`, _Two10(%rdx), %zmm14, %zmm3
121
122	/ reciprocal approximation good to at least 11 bits /
123	vrcp28pd %zmm4, %zmm11
124	vpsrlq $`32`, %zmm10, %zmm14
125	vpbroadcastd %eax, %zmm7{%k1}{z}
126	kxnorw %k1, %k1, %k1
127	vrcp28pd %zmm3, %zmm5
128	vpmovqd %zmm14, %ymm6
129	vshufi32x4 $`68`, %zmm6, %zmm12, %zmm13
130	vmovups _One(%rdx), %zmm6
131
132	/ round reciprocal to nearest integer, will have 1+9 mantissa bits /
133	vrndscalepd $`8`, %zmm5, %zmm14
134
135	/ biased exponent in DP format /
136	vshuff32x4 $`238`, %zmm13, %zmm13, %zmm5
137	vrndscalepd $`8`, %zmm11, %zmm11
138	vcmppd $`30`, _Threshold(%rdx), %zmm14, %k2
139	vcvtdq2pd %ymm13, %zmm10
140	vcvtdq2pd %ymm5, %zmm15
141
142	/ table lookup /
143	vpsrlq $`40`, %zmm14, %zmm13
144	vpxord %zmm5, %zmm5, %zmm5
145	vgatherqpd _Log2Rcp_lookup(%rdx,%zmm13), %zmm5{%k3}
146	vfmsub213pd %zmm6, %zmm14, %zmm3
147	vfmsub213pd %zmm6, %zmm11, %zmm4
148	vcmppd $`30`, _Threshold(%rdx), %zmm11, %k3
149	vpbroadcastq %rcx, %zmm14{%k2}{z}
150
151	/ dpP= _dbT+lJT_ITEM_GRAN /*
152	kxnorw %k2, %k2, %k2
153	vpsrlq $`40`, %zmm11, %zmm12
154	vpxord %zmm6, %zmm6, %zmm6
155	vpbroadcastq %rcx, %zmm11{%k3}{z}
156	kxnorw %k3, %k3, %k3
157	vgatherqpd _Log2Rcp_lookup(%rdx,%zmm12), %zmm6{%k1}
158	vmovups _Bias1(%rdx), %zmm12
159	vpternlogq $`236`, _Bias(%rdx), %zmm12, %zmm14
160	vpternlogq $`248`, _Bias(%rdx), %zmm11, %zmm12
161	vsubpd %zmm14, %zmm10, %zmm13
162	vsubpd %zmm12, %zmm15, %zmm10
163	vmovups _poly_coeff_3(%rdx), %zmm11
164	vmovups _poly_coeff_4(%rdx), %zmm15
165	vfmadd213pd %zmm15, %zmm4, %zmm11
166	vmulpd %zmm4, %zmm4, %zmm12
167	vmovaps %zmm15, %zmm14
168	vmulpd %zmm3, %zmm3, %zmm15
169	vfmadd231pd _poly_coeff_3(%rdx), %zmm3, %zmm14
170
171	/ reconstruction /
172	vfmadd213pd %zmm4, %zmm12, %zmm11
173	vfmadd213pd %zmm3, %zmm15, %zmm14
174	vaddpd %zmm6, %zmm11, %zmm11
175	vaddpd %zmm5, %zmm14, %zmm3
176	vfmadd231pd _L2(%rdx), %zmm10, %zmm11
177	vfmadd132pd _L2(%rdx), %zmm3, %zmm13
178	vmulpd %zmm2, %zmm11, %zmm12
179	vmulpd %zmm1, %zmm13, %zmm10
180	vmulpd __dbInvLn2(%rdx), %zmm12, %zmm6
181
182	/ hi bits /
183	vpsrlq $`32`, %zmm12, %zmm12
184	vmulpd __dbInvLn2(%rdx), %zmm10, %zmm1
185
186	/ to round down; if dR is an integer we will get R = 1, which is ok /
187	vsubpd __dbHALF(%rdx), %zmm6, %zmm4
188	vpsrlq $`32`, %zmm10, %zmm11
189	vpmovqd %zmm11, %ymm3
190	vsubpd __dbHALF(%rdx), %zmm1, %zmm2
191	vaddpd __dbShifter(%rdx), %zmm4, %zmm14
192	vpmovqd %zmm12, %ymm4
193	vshufi32x4 $`68`, %zmm4, %zmm3, %zmm5
194	vpxord %zmm4, %zmm4, %zmm4
195	vaddpd __dbShifter(%rdx), %zmm2, %zmm2
196
197	/ iAbsX = iAbsX&iAbsMask; /
198	vpandd __iAbsMask(%rdx), %zmm5, %zmm11
199	vpxord %zmm5, %zmm5, %zmm5
200	vsubpd __dbShifter(%rdx), %zmm14, %zmm13
201
202	/ iRangeMask = (iAbsX>iDomainRange) /
203	vpcmpgtd __iDomainRange(%rdx), %zmm11, %k1
204	vsubpd __dbShifter(%rdx), %zmm2, %zmm15
205	vpbroadcastd %eax, %zmm10{%k1}{z}
206	vpternlogd $`254`, %zmm8, %zmm7, %zmm10
207
208	/ [0..1) /
209	vsubpd %zmm15, %zmm1, %zmm1
210
211	/ low K bits /
212	vpandq __lbLOWKBITS(%rdx), %zmm14, %zmm11
213	vgatherqpd `13952`(%rdx,%zmm11,`8`), %zmm5{%k3}
214	vsubpd %zmm13, %zmm6, %zmm7
215	vptestmd %zmm10, %zmm10, %k0
216	vpandq __lbLOWKBITS(%rdx), %zmm2, %zmm10
217	vmulpd __dbC1(%rdx), %zmm1, %zmm1
218	vmulpd __dbC1(%rdx), %zmm7, %zmm3
219	vpsrlq $`11`, %zmm2, %zmm8
220	vpsrlq $`11`, %zmm14, %zmm2
221
222	/ NB : including +/- sign for the exponent!! /
223	vpsllq $`52`, %zmm8, %zmm8
224	kmovw %k0, %ecx
225	vpsllq $`52`, %zmm2, %zmm6
226	vfmadd213pd %zmm5, %zmm3, %zmm5
227	vgatherqpd `13952`(%rdx,%zmm10,`8`), %zmm4{%k2}
228	vfmadd213pd %zmm4, %zmm1, %zmm4
229	vpaddq %zmm6, %zmm5, %zmm10
230	vcvtpd2ps %zmm10, %ymm12
231	vpaddq %zmm8, %zmm4, %zmm7
232	vcvtpd2ps %zmm7, %ymm11
233	vshuff32x4 $`68`, %zmm12, %zmm11, %zmm1
234	testl %ecx, %ecx
235	jne .LBL_1_3
236
237	.LBL_1_2:
238	cfi_remember_state
239	vmovaps %zmm1, %zmm0
240	movq %rbp, %rsp
241	cfi_def_cfa_register (%rsp)
242	popq %rbp
243	cfi_adjust_cfa_offset (-`8`)
244	cfi_restore (%rbp)
245	ret
246
247	.LBL_1_3:
248	cfi_restore_state
249	vmovups %zmm0, `1152`(%rsp)
250	vmovups %zmm9, `1216`(%rsp)
251	vmovups %zmm1, `1280`(%rsp)
252	je .LBL_1_2
253
254	xorb %dl, %dl
255	kmovw %k4, `1048`(%rsp)
256	xorl %eax, %eax
257	kmovw %k5, `1040`(%rsp)
258	kmovw %k6, `1032`(%rsp)
259	kmovw %k7, `1024`(%rsp)
260	vmovups %zmm16, `960`(%rsp)
261	vmovups %zmm17, `896`(%rsp)
262	vmovups %zmm18, `832`(%rsp)
263	vmovups %zmm19, `768`(%rsp)
264	vmovups %zmm20, `704`(%rsp)
265	vmovups %zmm21, `640`(%rsp)
266	vmovups %zmm22, `576`(%rsp)
267	vmovups %zmm23, `512`(%rsp)
268	vmovups %zmm24, `448`(%rsp)
269	vmovups %zmm25, `384`(%rsp)
270	vmovups %zmm26, `320`(%rsp)
271	vmovups %zmm27, `256`(%rsp)
272	vmovups %zmm28, `192`(%rsp)
273	vmovups %zmm29, `128`(%rsp)
274	vmovups %zmm30, `64`(%rsp)
275	vmovups %zmm31, (%rsp)
276	movq %rsi, `1064`(%rsp)
277	movq %rdi, `1056`(%rsp)
278	movq %r12, `1096`(%rsp)
279	cfi_offset_rel_rsp (`12`, `1096`)
280	movb %dl, %r12b
281	movq %r13, `1088`(%rsp)
282	cfi_offset_rel_rsp (`13`, `1088`)
283	movl %ecx, %r13d
284	movq %r14, `1080`(%rsp)
285	cfi_offset_rel_rsp (`14`, `1080`)
286	movl %eax, %r14d
287	movq %r15, `1072`(%rsp)
288	cfi_offset_rel_rsp (`15`, `1072`)
289	cfi_remember_state
290
291	.LBL_1_6:
292	btl %r14d, %r13d
293	jc .LBL_1_12
294
295	.LBL_1_7:
296	lea `1`(%r14), %esi
297	btl %esi, %r13d
298	jc .LBL_1_10
299
300	.LBL_1_8:
301	addb $`1`, %r12b
302	addl $`2`, %r14d
303	cmpb $`16`, %r12b
304	jb .LBL_1_6
305
306	kmovw `1048`(%rsp), %k4
307	movq `1064`(%rsp), %rsi
308	kmovw `1040`(%rsp), %k5
309	movq `1056`(%rsp), %rdi
310	kmovw `1032`(%rsp), %k6
311	movq `1096`(%rsp), %r12
312	cfi_restore (%r12)
313	movq `1088`(%rsp), %r13
314	cfi_restore (%r13)
315	kmovw `1024`(%rsp), %k7
316	vmovups `960`(%rsp), %zmm16
317	vmovups `896`(%rsp), %zmm17
318	vmovups `832`(%rsp), %zmm18
319	vmovups `768`(%rsp), %zmm19
320	vmovups `704`(%rsp), %zmm20
321	vmovups `640`(%rsp), %zmm21
322	vmovups `576`(%rsp), %zmm22
323	vmovups `512`(%rsp), %zmm23
324	vmovups `448`(%rsp), %zmm24
325	vmovups `384`(%rsp), %zmm25
326	vmovups `320`(%rsp), %zmm26
327	vmovups `256`(%rsp), %zmm27
328	vmovups `192`(%rsp), %zmm28
329	vmovups `128`(%rsp), %zmm29
330	vmovups `64`(%rsp), %zmm30
331	vmovups (%rsp), %zmm31
332	movq `1080`(%rsp), %r14
333	cfi_restore (%r14)
334	movq `1072`(%rsp), %r15
335	cfi_restore (%r15)
336	vmovups `1280`(%rsp), %zmm1
337	jmp .LBL_1_2
338
339	.LBL_1_10:
340	cfi_restore_state
341	movzbl %r12b, %r15d
342	vmovss `1156`(%rsp,%r15,`8`), %xmm0
343	vmovss `1220`(%rsp,%r15,`8`), %xmm1
344	call JUMPTARGET(powf)
345	vmovss %xmm0, `1284`(%rsp,%r15,`8`)
346	jmp .LBL_1_8
347
348	.LBL_1_12:
349	movzbl %r12b, %r15d
350	vmovss `1152`(%rsp,%r15,`8`), %xmm0
351	vmovss `1216`(%rsp,%r15,`8`), %xmm1
352	call JUMPTARGET(powf)
353	vmovss %xmm0, `1280`(%rsp,%r15,`8`)
354	jmp .LBL_1_7
355	END (_ZGVeN16vv_powf_knl)
356
357	ENTRY (_ZGVeN16vv_powf_skx)
358	pushq %rbp
359	cfi_adjust_cfa_offset (`8`)
360	cfi_rel_offset (%rbp, `0`)
361	movq %rsp, %rbp
362	cfi_def_cfa_register (%rbp)
363	andq $-`64`, %rsp
364	subq $`1344`, %rsp
365	movq __svml_spow_data@GOTPCREL(%rip), %rax
366	vextractf32x8 $`1`, %zmm1, %ymm14
367	vextractf32x8 $`1`, %zmm0, %ymm15
368	vpsubd _NMINNORM(%rax), %zmm0, %zmm9
369	vmovups %zmm26, `1280`(%rsp)
370	vmovups _ExpMask(%rax), %zmm6
371	vpcmpd $`1`, _NMAXVAL(%rax), %zmm9, %k1
372	vcvtps2pd %ymm0, %zmm5
373	vcvtps2pd %ymm1, %zmm12
374	kxnorw %k3, %k3, %k3
375
376	/ exponent bits selection /
377	vpsrlq $`20`, %zmm5, %zmm3
378	vpsrlq $`32`, %zmm3, %zmm2
379	vpmovqd %zmm2, %ymm11
380	vcvtps2pd %ymm14, %zmm13
381	vpternlogd $`0xff`, %zmm14, %zmm14, %zmm14
382	vmovaps %zmm14, %zmm26
383	vpandd _ABSMASK(%rax), %zmm1, %zmm8
384	vpcmpd $`1`, _INF(%rax), %zmm8, %k2
385	vpandnd %zmm9, %zmm9, %zmm26{%k1}
386	vmovups _Two10(%rax), %zmm9
387	kxnorw %k1, %k1, %k1
388	vcvtps2pd %ymm15, %zmm4
389	vmovaps %zmm14, %zmm15
390
391	/ preserve mantissa, set input exponent to 2^(-10) /
392	vpternlogq $`248`, %zmm6, %zmm4, %zmm9
393	vpsrlq $`20`, %zmm4, %zmm4
394
395	/ reciprocal approximation good to at least 11 bits /
396	vrcp14pd %zmm9, %zmm10
397
398	/ round reciprocal to nearest integer, will have 1+9 mantissa bits /
399	vrndscalepd $`8`, %zmm10, %zmm3
400	vmovups _One(%rax), %zmm10
401	vfmsub213pd %zmm10, %zmm3, %zmm9
402	vpandnd %zmm8, %zmm8, %zmm15{%k2}
403	vmovaps %zmm6, %zmm8
404	vpternlogq $`234`, _Two10(%rax), %zmm5, %zmm8
405	vpsrlq $`32`, %zmm4, %zmm5
406	vrcp14pd %zmm8, %zmm7
407	vpmovqd %zmm5, %ymm6
408	vrndscalepd $`8`, %zmm7, %zmm2
409	vfmsub213pd %zmm10, %zmm2, %zmm8
410
411	/ table lookup /
412	vpsrlq $`40`, %zmm2, %zmm10
413	vinserti32x8 $`1`, %ymm6, %zmm11, %zmm4
414	vpsrlq $`40`, %zmm3, %zmm11
415
416	/ biased exponent in DP format /
417	vextracti32x8 $`1`, %zmm4, %ymm7
418	vcvtdq2pd %ymm4, %zmm6
419	vpmovqd %zmm10, %ymm4
420	vpmovqd %zmm11, %ymm5
421	vpxord %zmm10, %zmm10, %zmm10
422	vgatherdpd _Log2Rcp_lookup(%rax,%ymm4), %zmm10{%k3}
423	vpternlogd $`0xff`, %zmm4, %zmm4, %zmm4
424	vpxord %zmm11, %zmm11, %zmm11
425	vcvtdq2pd %ymm7, %zmm7
426	vgatherdpd _Log2Rcp_lookup(%rax,%ymm5), %zmm11{%k1}
427	vmovups _Threshold(%rax), %zmm5
428	vcmppd $`21`, %zmm2, %zmm5, %k2
429	vcmppd $`21`, %zmm3, %zmm5, %k3
430	vmovups _Bias1(%rax), %zmm3
431	vmovaps %zmm4, %zmm2
432	vpandnq %zmm5, %zmm5, %zmm2{%k2}
433	vpternlogq $`236`, _Bias(%rax), %zmm3, %zmm2
434
435	/ dpP= _dbT+lJT_ITEM_GRAN /*
436	kxnorw %k2, %k2, %k2
437	vpandnq %zmm5, %zmm5, %zmm4{%k3}
438	vpternlogq $`248`, _Bias(%rax), %zmm4, %zmm3
439	vsubpd %zmm2, %zmm6, %zmm4
440	vmovups _poly_coeff_3(%rax), %zmm6
441	vmovups _poly_coeff_4(%rax), %zmm2
442	vsubpd %zmm3, %zmm7, %zmm5
443	vmulpd %zmm8, %zmm8, %zmm7
444	vfmadd213pd %zmm2, %zmm9, %zmm6
445	kxnorw %k3, %k3, %k3
446	vmovaps %zmm2, %zmm3
447	vmulpd %zmm9, %zmm9, %zmm2
448	vfmadd231pd _poly_coeff_3(%rax), %zmm8, %zmm3
449
450	/ reconstruction /
451	vfmadd213pd %zmm9, %zmm2, %zmm6
452	vfmadd213pd %zmm8, %zmm7, %zmm3
453	vaddpd %zmm11, %zmm6, %zmm8
454	vaddpd %zmm10, %zmm3, %zmm9
455	vfmadd231pd _L2(%rax), %zmm5, %zmm8
456	vfmadd132pd _L2(%rax), %zmm9, %zmm4
457	vmulpd %zmm13, %zmm8, %zmm13
458	vmulpd %zmm12, %zmm4, %zmm3
459	vmulpd __dbInvLn2(%rax), %zmm13, %zmm10
460	vmulpd __dbInvLn2(%rax), %zmm3, %zmm8
461
462	/ hi bits /
463	vpsrlq $`32`, %zmm3, %zmm4
464	vpsrlq $`32`, %zmm13, %zmm13
465
466	/ to round down; if dR is an integer we will get R = 1, which is ok /
467	vsubpd __dbHALF(%rax), %zmm8, %zmm12
468	vpmovqd %zmm4, %ymm5
469	vpmovqd %zmm13, %ymm2
470	vsubpd __dbHALF(%rax), %zmm10, %zmm9
471	vaddpd __dbShifter(%rax), %zmm12, %zmm7
472	vaddpd __dbShifter(%rax), %zmm9, %zmm9
473	vsubpd __dbShifter(%rax), %zmm7, %zmm11
474	vsubpd __dbShifter(%rax), %zmm9, %zmm12
475	vinserti32x8 $`1`, %ymm2, %zmm5, %zmm3
476
477	/ iAbsX = iAbsX&iAbsMask /
478	vpandd __iAbsMask(%rax), %zmm3, %zmm4
479
480	/ iRangeMask = (iAbsX>iDomainRange) /
481	vpcmpd $`2`, __iDomainRange(%rax), %zmm4, %k1
482	vpandnd %zmm4, %zmm4, %zmm14{%k1}
483	vpternlogd $`254`, %zmm15, %zmm26, %zmm14
484
485	/ [0..1) /
486	vsubpd %zmm11, %zmm8, %zmm15
487	vsubpd %zmm12, %zmm10, %zmm26
488	vptestmd %zmm14, %zmm14, %k0
489	vpsrlq $`11`, %zmm7, %zmm8
490	vpsrlq $`11`, %zmm9, %zmm10
491	vmulpd __dbC1(%rax), %zmm26, %zmm26
492	vmulpd __dbC1(%rax), %zmm15, %zmm15
493
494	/ NB : including +/- sign for the exponent!! /
495	vpsllq $`52`, %zmm10, %zmm13
496	vpsllq $`52`, %zmm8, %zmm12
497	kmovw %k0, %ecx
498
499	/ low K bits /
500	vpandq __lbLOWKBITS(%rax), %zmm9, %zmm14
501	vpandq __lbLOWKBITS(%rax), %zmm7, %zmm6
502	vpmovqd %zmm14, %ymm7
503	vpmovqd %zmm6, %ymm9
504	vpxord %zmm2, %zmm2, %zmm2
505	vgatherdpd `13952`(%rax,%ymm7,`8`), %zmm2{%k3}
506	vfmadd213pd %zmm2, %zmm26, %zmm2
507	vpaddq %zmm13, %zmm2, %zmm2
508	vcvtpd2ps %zmm2, %ymm4
509	vpxord %zmm11, %zmm11, %zmm11
510	vgatherdpd `13952`(%rax,%ymm9,`8`), %zmm11{%k2}
511	vfmadd213pd %zmm11, %zmm15, %zmm11
512	vpaddq %zmm12, %zmm11, %zmm3
513	vcvtpd2ps %zmm3, %ymm5
514	vinsertf32x8 $`1`, %ymm4, %zmm5, %zmm2
515	testl %ecx, %ecx
516	jne .LBL_2_3
517
518	.LBL_2_2:
519	cfi_remember_state
520	vmovups `1280`(%rsp), %zmm26
521	vmovaps %zmm2, %zmm0
522	movq %rbp, %rsp
523	cfi_def_cfa_register (%rsp)
524	popq %rbp
525	cfi_adjust_cfa_offset (-`8`)
526	cfi_restore (%rbp)
527	ret
528
529	.LBL_2_3:
530	cfi_restore_state
531	vmovups %zmm0, `1088`(%rsp)
532	vmovups %zmm1, `1152`(%rsp)
533	vmovups %zmm2, `1216`(%rsp)
534	je .LBL_2_2
535
536	xorb %dl, %dl
537	xorl %eax, %eax
538	kmovw %k4, `984`(%rsp)
539	kmovw %k5, `976`(%rsp)
540	kmovw %k6, `968`(%rsp)
541	kmovw %k7, `960`(%rsp)
542	vmovups %zmm16, `896`(%rsp)
543	vmovups %zmm17, `832`(%rsp)
544	vmovups %zmm18, `768`(%rsp)
545	vmovups %zmm19, `704`(%rsp)
546	vmovups %zmm20, `640`(%rsp)
547	vmovups %zmm21, `576`(%rsp)
548	vmovups %zmm22, `512`(%rsp)
549	vmovups %zmm23, `448`(%rsp)
550	vmovups %zmm24, `384`(%rsp)
551	vmovups %zmm25, `320`(%rsp)
552	vmovups %zmm27, `256`(%rsp)
553	vmovups %zmm28, `192`(%rsp)
554	vmovups %zmm29, `128`(%rsp)
555	vmovups %zmm30, `64`(%rsp)
556	vmovups %zmm31, (%rsp)
557	movq %rsi, `1000`(%rsp)
558	movq %rdi, `992`(%rsp)
559	movq %r12, `1032`(%rsp)
560	cfi_offset_rel_rsp (`12`, `1032`)
561	movb %dl, %r12b
562	movq %r13, `1024`(%rsp)
563	cfi_offset_rel_rsp (`13`, `1024`)
564	movl %ecx, %r13d
565	movq %r14, `1016`(%rsp)
566	cfi_offset_rel_rsp (`14`, `1016`)
567	movl %eax, %r14d
568	movq %r15, `1008`(%rsp)
569	cfi_offset_rel_rsp (`15`, `1008`)
570	cfi_remember_state
571
572	.LBL_2_6:
573	btl %r14d, %r13d
574	jc .LBL_2_12
575
576	.LBL_2_7:
577	lea `1`(%r14), %esi
578	btl %esi, %r13d
579	jc .LBL_2_10
580
581	.LBL_2_8:
582	incb %r12b
583	addl $`2`, %r14d
584	cmpb $`16`, %r12b
585	jb .LBL_2_6
586
587	kmovw `984`(%rsp), %k4
588	kmovw `976`(%rsp), %k5
589	kmovw `968`(%rsp), %k6
590	kmovw `960`(%rsp), %k7
591	vmovups `896`(%rsp), %zmm16
592	vmovups `832`(%rsp), %zmm17
593	vmovups `768`(%rsp), %zmm18
594	vmovups `704`(%rsp), %zmm19
595	vmovups `640`(%rsp), %zmm20
596	vmovups `576`(%rsp), %zmm21
597	vmovups `512`(%rsp), %zmm22
598	vmovups `448`(%rsp), %zmm23
599	vmovups `384`(%rsp), %zmm24
600	vmovups `320`(%rsp), %zmm25
601	vmovups `256`(%rsp), %zmm27
602	vmovups `192`(%rsp), %zmm28
603	vmovups `128`(%rsp), %zmm29
604	vmovups `64`(%rsp), %zmm30
605	vmovups (%rsp), %zmm31
606	vmovups `1216`(%rsp), %zmm2
607	movq `1000`(%rsp), %rsi
608	movq `992`(%rsp), %rdi
609	movq `1032`(%rsp), %r12
610	cfi_restore (%r12)
611	movq `1024`(%rsp), %r13
612	cfi_restore (%r13)
613	movq `1016`(%rsp), %r14
614	cfi_restore (%r14)
615	movq `1008`(%rsp), %r15
616	cfi_restore (%r15)
617	jmp .LBL_2_2
618
619	.LBL_2_10:
620	cfi_restore_state
621	movzbl %r12b, %r15d
622	vmovss `1156`(%rsp,%r15,`8`), %xmm1
623	vzeroupper
624	vmovss `1092`(%rsp,%r15,`8`), %xmm0
625	call JUMPTARGET(powf)
626	vmovss %xmm0, `1220`(%rsp,%r15,`8`)
627	jmp .LBL_2_8
628
629	.LBL_2_12:
630	movzbl %r12b, %r15d
631	vmovss `1152`(%rsp,%r15,`8`), %xmm1
632	vzeroupper
633	vmovss `1088`(%rsp,%r15,`8`), %xmm0
634	call JUMPTARGET(powf)
635	vmovss %xmm0, `1216`(%rsp,%r15,`8`)
636	jmp .LBL_2_7
637	END (_ZGVeN16vv_powf_skx)
638

source code of glibc/sysdeps/x86_64/fpu/multiarch/svml_s_powf16_core_avx512.S