memcpy_power7.S source code [linux/arch/powerpc/lib/memcpy_power7.S]

1	/ SPDX-License-Identifier: GPL-2.0-or-later /
2	/*
3	*
4	* Copyright (C) IBM Corporation, 2012
5	*
6	* Author: Anton Blanchard <anton@au.ibm.com>
7	*/
8	#include <asm/ppc_asm.h>
9
10	#ifndef SELFTEST_CASE
11	/ 0 == don't use VMX, 1 == use VMX /
12	#define SELFTEST_CASE 0
13	#endif
14
15	#ifdef __BIG_ENDIAN__
16	#define LVS(VRT,RA,RB) lvsl VRT,RA,RB
17	#define VPERM(VRT,VRA,VRB,VRC) vperm VRT,VRA,VRB,VRC
18	#else
19	#define LVS(VRT,RA,RB) lvsr VRT,RA,RB
20	#define VPERM(VRT,VRA,VRB,VRC) vperm VRT,VRB,VRA,VRC
21	#endif
22
23	_GLOBAL(memcpy_power7)
24	cmpldi r5,`16`
25	cmpldi cr1,r5,`4096`
26	std r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
27	blt .Lshort_copy
28
29	#ifdef CONFIG_ALTIVEC
30	test_feature = SELFTEST_CASE
31	BEGIN_FTR_SECTION
32	bgt cr1, .Lvmx_copy
33	END_FTR_SECTION_IFSET(CPU_FTR_ALTIVEC)
34	#endif
35
36	.Lnonvmx_copy:
37	/ Get the source 8B aligned /
38	neg r6,r4
39	mtocrf `0x01`,r6
40	clrldi r6,r6,(`64`-`3`)
41
42	bf cr7*`4`+`3`,`1f`
43	lbz r0,`0`(r4)
44	addi r4,r4,`1`
45	stb r0,`0`(r3)
46	addi r3,r3,`1`
47
48	`1`: bf cr7*`4`+`2`,`2f`
49	lhz r0,`0`(r4)
50	addi r4,r4,`2`
51	sth r0,`0`(r3)
52	addi r3,r3,`2`
53
54	`2`: bf cr7*`4`+`1`,`3f`
55	lwz r0,`0`(r4)
56	addi r4,r4,`4`
57	stw r0,`0`(r3)
58	addi r3,r3,`4`
59
60	`3`: sub r5,r5,r6
61	cmpldi r5,`128`
62	blt `5f`
63
64	mflr r0
65	stdu r1,-STACKFRAMESIZE(r1)
66	std r14,STK_REG(R14)(r1)
67	std r15,STK_REG(R15)(r1)
68	std r16,STK_REG(R16)(r1)
69	std r17,STK_REG(R17)(r1)
70	std r18,STK_REG(R18)(r1)
71	std r19,STK_REG(R19)(r1)
72	std r20,STK_REG(R20)(r1)
73	std r21,STK_REG(R21)(r1)
74	std r22,STK_REG(R22)(r1)
75	std r0,STACKFRAMESIZE+`16`(r1)
76
77	srdi r6,r5,`7`
78	mtctr r6
79
80	/ Now do cacheline (128B) sized loads and stores. /
81	.align `5`
82	`4`:
83	ld r0,`0`(r4)
84	ld r6,`8`(r4)
85	ld r7,`16`(r4)
86	ld r8,`24`(r4)
87	ld r9,`32`(r4)
88	ld r10,`40`(r4)
89	ld r11,`48`(r4)
90	ld r12,`56`(r4)
91	ld r14,`64`(r4)
92	ld r15,`72`(r4)
93	ld r16,`80`(r4)
94	ld r17,`88`(r4)
95	ld r18,`96`(r4)
96	ld r19,`104`(r4)
97	ld r20,`112`(r4)
98	ld r21,`120`(r4)
99	addi r4,r4,`128`
100	std r0,`0`(r3)
101	std r6,`8`(r3)
102	std r7,`16`(r3)
103	std r8,`24`(r3)
104	std r9,`32`(r3)
105	std r10,`40`(r3)
106	std r11,`48`(r3)
107	std r12,`56`(r3)
108	std r14,`64`(r3)
109	std r15,`72`(r3)
110	std r16,`80`(r3)
111	std r17,`88`(r3)
112	std r18,`96`(r3)
113	std r19,`104`(r3)
114	std r20,`112`(r3)
115	std r21,`120`(r3)
116	addi r3,r3,`128`
117	bdnz `4b`
118
119	clrldi r5,r5,(`64`-`7`)
120
121	ld r14,STK_REG(R14)(r1)
122	ld r15,STK_REG(R15)(r1)
123	ld r16,STK_REG(R16)(r1)
124	ld r17,STK_REG(R17)(r1)
125	ld r18,STK_REG(R18)(r1)
126	ld r19,STK_REG(R19)(r1)
127	ld r20,STK_REG(R20)(r1)
128	ld r21,STK_REG(R21)(r1)
129	ld r22,STK_REG(R22)(r1)
130	addi r1,r1,STACKFRAMESIZE
131
132	/ Up to 127B to go /
133	`5`: srdi r6,r5,`4`
134	mtocrf `0x01`,r6
135
136	`6`: bf cr7*`4`+`1`,`7f`
137	ld r0,`0`(r4)
138	ld r6,`8`(r4)
139	ld r7,`16`(r4)
140	ld r8,`24`(r4)
141	ld r9,`32`(r4)
142	ld r10,`40`(r4)
143	ld r11,`48`(r4)
144	ld r12,`56`(r4)
145	addi r4,r4,`64`
146	std r0,`0`(r3)
147	std r6,`8`(r3)
148	std r7,`16`(r3)
149	std r8,`24`(r3)
150	std r9,`32`(r3)
151	std r10,`40`(r3)
152	std r11,`48`(r3)
153	std r12,`56`(r3)
154	addi r3,r3,`64`
155
156	/ Up to 63B to go /
157	`7`: bf cr7*`4`+`2`,`8f`
158	ld r0,`0`(r4)
159	ld r6,`8`(r4)
160	ld r7,`16`(r4)
161	ld r8,`24`(r4)
162	addi r4,r4,`32`
163	std r0,`0`(r3)
164	std r6,`8`(r3)
165	std r7,`16`(r3)
166	std r8,`24`(r3)
167	addi r3,r3,`32`
168
169	/ Up to 31B to go /
170	`8`: bf cr7*`4`+`3`,`9f`
171	ld r0,`0`(r4)
172	ld r6,`8`(r4)
173	addi r4,r4,`16`
174	std r0,`0`(r3)
175	std r6,`8`(r3)
176	addi r3,r3,`16`
177
178	`9`: clrldi r5,r5,(`64`-`4`)
179
180	/ Up to 15B to go /
181	.Lshort_copy:
182	mtocrf `0x01`,r5
183	bf cr7*`4`+`0`,`12f`
184	lwz r0,`0`(r4) / Less chance of a reject with word ops /
185	lwz r6,`4`(r4)
186	addi r4,r4,`8`
187	stw r0,`0`(r3)
188	stw r6,`4`(r3)
189	addi r3,r3,`8`
190
191	`12`: bf cr7*`4`+`1`,`13f`
192	lwz r0,`0`(r4)
193	addi r4,r4,`4`
194	stw r0,`0`(r3)
195	addi r3,r3,`4`
196
197	`13`: bf cr7*`4`+`2`,`14f`
198	lhz r0,`0`(r4)
199	addi r4,r4,`2`
200	sth r0,`0`(r3)
201	addi r3,r3,`2`
202
203	`14`: bf cr7*`4`+`3`,`15f`
204	lbz r0,`0`(r4)
205	stb r0,`0`(r3)
206
207	`15`: ld r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
208	blr
209
210	.Lunwind_stack_nonvmx_copy:
211	addi r1,r1,STACKFRAMESIZE
212	b .Lnonvmx_copy
213
214	.Lvmx_copy:
215	#ifdef CONFIG_ALTIVEC
216	mflr r0
217	std r4,-STACKFRAMESIZE+STK_REG(R30)(r1)
218	std r5,-STACKFRAMESIZE+STK_REG(R29)(r1)
219	std r0,`16`(r1)
220	stdu r1,-STACKFRAMESIZE(r1)
221	bl CFUNC(enter_vmx_ops)
222	cmpwi cr1,r3,`0`
223	ld r0,STACKFRAMESIZE+`16`(r1)
224	ld r3,STK_REG(R31)(r1)
225	ld r4,STK_REG(R30)(r1)
226	ld r5,STK_REG(R29)(r1)
227	mtlr r0
228
229	/*
230	* We prefetch both the source and destination using enhanced touch
231	* instructions. We use a stream ID of 0 for the load side and
232	* 1 for the store side.
233	*/
234	clrrdi r6,r4,`7`
235	clrrdi r9,r3,`7`
236	ori r9,r9,`1` / stream=1 /
237
238	srdi r7,r5,`7` / length in cachelines, capped at 0x3FF /
239	cmpldi r7,`0x3FF`
240	ble `1f`
241	li r7,`0x3FF`
242	`1`: lis r0,`0x0E00` / depth=7 /
243	sldi r7,r7,`7`
244	or r7,r7,r0
245	ori r10,r7,`1` / stream=1 /
246
247	DCBT_SETUP_STREAMS(r6, r7, r9, r10, r8)
248
249	beq cr1,.Lunwind_stack_nonvmx_copy
250
251	/*
252	* If source and destination are not relatively aligned we use a
253	* slower permute loop.
254	*/
255	xor r6,r4,r3
256	rldicl. r6,r6,`0`,(`64`-`4`)
257	bne .Lvmx_unaligned_copy
258
259	/ Get the destination 16B aligned /
260	neg r6,r3
261	mtocrf `0x01`,r6
262	clrldi r6,r6,(`64`-`4`)
263
264	bf cr7*`4`+`3`,`1f`
265	lbz r0,`0`(r4)
266	addi r4,r4,`1`
267	stb r0,`0`(r3)
268	addi r3,r3,`1`
269
270	`1`: bf cr7*`4`+`2`,`2f`
271	lhz r0,`0`(r4)
272	addi r4,r4,`2`
273	sth r0,`0`(r3)
274	addi r3,r3,`2`
275
276	`2`: bf cr7*`4`+`1`,`3f`
277	lwz r0,`0`(r4)
278	addi r4,r4,`4`
279	stw r0,`0`(r3)
280	addi r3,r3,`4`
281
282	`3`: bf cr7*`4`+`0`,`4f`
283	ld r0,`0`(r4)
284	addi r4,r4,`8`
285	std r0,`0`(r3)
286	addi r3,r3,`8`
287
288	`4`: sub r5,r5,r6
289
290	/ Get the desination 128B aligned /
291	neg r6,r3
292	srdi r7,r6,`4`
293	mtocrf `0x01`,r7
294	clrldi r6,r6,(`64`-`7`)
295
296	li r9,`16`
297	li r10,`32`
298	li r11,`48`
299
300	bf cr7*`4`+`3`,`5f`
301	lvx v1,`0`,r4
302	addi r4,r4,`16`
303	stvx v1,`0`,r3
304	addi r3,r3,`16`
305
306	`5`: bf cr7*`4`+`2`,`6f`
307	lvx v1,`0`,r4
308	lvx v0,r4,r9
309	addi r4,r4,`32`
310	stvx v1,`0`,r3
311	stvx v0,r3,r9
312	addi r3,r3,`32`
313
314	`6`: bf cr7*`4`+`1`,`7f`
315	lvx v3,`0`,r4
316	lvx v2,r4,r9
317	lvx v1,r4,r10
318	lvx v0,r4,r11
319	addi r4,r4,`64`
320	stvx v3,`0`,r3
321	stvx v2,r3,r9
322	stvx v1,r3,r10
323	stvx v0,r3,r11
324	addi r3,r3,`64`
325
326	`7`: sub r5,r5,r6
327	srdi r6,r5,`7`
328
329	std r14,STK_REG(R14)(r1)
330	std r15,STK_REG(R15)(r1)
331	std r16,STK_REG(R16)(r1)
332
333	li r12,`64`
334	li r14,`80`
335	li r15,`96`
336	li r16,`112`
337
338	mtctr r6
339
340	/*
341	* Now do cacheline sized loads and stores. By this stage the
342	* cacheline stores are also cacheline aligned.
343	*/
344	.align `5`
345	`8`:
346	lvx v7,`0`,r4
347	lvx v6,r4,r9
348	lvx v5,r4,r10
349	lvx v4,r4,r11
350	lvx v3,r4,r12
351	lvx v2,r4,r14
352	lvx v1,r4,r15
353	lvx v0,r4,r16
354	addi r4,r4,`128`
355	stvx v7,`0`,r3
356	stvx v6,r3,r9
357	stvx v5,r3,r10
358	stvx v4,r3,r11
359	stvx v3,r3,r12
360	stvx v2,r3,r14
361	stvx v1,r3,r15
362	stvx v0,r3,r16
363	addi r3,r3,`128`
364	bdnz `8b`
365
366	ld r14,STK_REG(R14)(r1)
367	ld r15,STK_REG(R15)(r1)
368	ld r16,STK_REG(R16)(r1)
369
370	/ Up to 127B to go /
371	clrldi r5,r5,(`64`-`7`)
372	srdi r6,r5,`4`
373	mtocrf `0x01`,r6
374
375	bf cr7*`4`+`1`,`9f`
376	lvx v3,`0`,r4
377	lvx v2,r4,r9
378	lvx v1,r4,r10
379	lvx v0,r4,r11
380	addi r4,r4,`64`
381	stvx v3,`0`,r3
382	stvx v2,r3,r9
383	stvx v1,r3,r10
384	stvx v0,r3,r11
385	addi r3,r3,`64`
386
387	`9`: bf cr7*`4`+`2`,`10f`
388	lvx v1,`0`,r4
389	lvx v0,r4,r9
390	addi r4,r4,`32`
391	stvx v1,`0`,r3
392	stvx v0,r3,r9
393	addi r3,r3,`32`
394
395	`10`: bf cr7*`4`+`3`,`11f`
396	lvx v1,`0`,r4
397	addi r4,r4,`16`
398	stvx v1,`0`,r3
399	addi r3,r3,`16`
400
401	/ Up to 15B to go /
402	`11`: clrldi r5,r5,(`64`-`4`)
403	mtocrf `0x01`,r5
404	bf cr7*`4`+`0`,`12f`
405	ld r0,`0`(r4)
406	addi r4,r4,`8`
407	std r0,`0`(r3)
408	addi r3,r3,`8`
409
410	`12`: bf cr7*`4`+`1`,`13f`
411	lwz r0,`0`(r4)
412	addi r4,r4,`4`
413	stw r0,`0`(r3)
414	addi r3,r3,`4`
415
416	`13`: bf cr7*`4`+`2`,`14f`
417	lhz r0,`0`(r4)
418	addi r4,r4,`2`
419	sth r0,`0`(r3)
420	addi r3,r3,`2`
421
422	`14`: bf cr7*`4`+`3`,`15f`
423	lbz r0,`0`(r4)
424	stb r0,`0`(r3)
425
426	`15`: addi r1,r1,STACKFRAMESIZE
427	ld r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
428	b CFUNC(exit_vmx_ops) / tail call optimise /
429
430	.Lvmx_unaligned_copy:
431	/ Get the destination 16B aligned /
432	neg r6,r3
433	mtocrf `0x01`,r6
434	clrldi r6,r6,(`64`-`4`)
435
436	bf cr7*`4`+`3`,`1f`
437	lbz r0,`0`(r4)
438	addi r4,r4,`1`
439	stb r0,`0`(r3)
440	addi r3,r3,`1`
441
442	`1`: bf cr7*`4`+`2`,`2f`
443	lhz r0,`0`(r4)
444	addi r4,r4,`2`
445	sth r0,`0`(r3)
446	addi r3,r3,`2`
447
448	`2`: bf cr7*`4`+`1`,`3f`
449	lwz r0,`0`(r4)
450	addi r4,r4,`4`
451	stw r0,`0`(r3)
452	addi r3,r3,`4`
453
454	`3`: bf cr7*`4`+`0`,`4f`
455	lwz r0,`0`(r4) / Less chance of a reject with word ops /
456	lwz r7,`4`(r4)
457	addi r4,r4,`8`
458	stw r0,`0`(r3)
459	stw r7,`4`(r3)
460	addi r3,r3,`8`
461
462	`4`: sub r5,r5,r6
463
464	/ Get the desination 128B aligned /
465	neg r6,r3
466	srdi r7,r6,`4`
467	mtocrf `0x01`,r7
468	clrldi r6,r6,(`64`-`7`)
469
470	li r9,`16`
471	li r10,`32`
472	li r11,`48`
473
474	LVS(v16,`0`,r4) / Setup permute control vector /
475	lvx v0,`0`,r4
476	addi r4,r4,`16`
477
478	bf cr7*`4`+`3`,`5f`
479	lvx v1,`0`,r4
480	VPERM(v8,v0,v1,v16)
481	addi r4,r4,`16`
482	stvx v8,`0`,r3
483	addi r3,r3,`16`
484	vor v0,v1,v1
485
486	`5`: bf cr7*`4`+`2`,`6f`
487	lvx v1,`0`,r4
488	VPERM(v8,v0,v1,v16)
489	lvx v0,r4,r9
490	VPERM(v9,v1,v0,v16)
491	addi r4,r4,`32`
492	stvx v8,`0`,r3
493	stvx v9,r3,r9
494	addi r3,r3,`32`
495
496	`6`: bf cr7*`4`+`1`,`7f`
497	lvx v3,`0`,r4
498	VPERM(v8,v0,v3,v16)
499	lvx v2,r4,r9
500	VPERM(v9,v3,v2,v16)
501	lvx v1,r4,r10
502	VPERM(v10,v2,v1,v16)
503	lvx v0,r4,r11
504	VPERM(v11,v1,v0,v16)
505	addi r4,r4,`64`
506	stvx v8,`0`,r3
507	stvx v9,r3,r9
508	stvx v10,r3,r10
509	stvx v11,r3,r11
510	addi r3,r3,`64`
511
512	`7`: sub r5,r5,r6
513	srdi r6,r5,`7`
514
515	std r14,STK_REG(R14)(r1)
516	std r15,STK_REG(R15)(r1)
517	std r16,STK_REG(R16)(r1)
518
519	li r12,`64`
520	li r14,`80`
521	li r15,`96`
522	li r16,`112`
523
524	mtctr r6
525
526	/*
527	* Now do cacheline sized loads and stores. By this stage the
528	* cacheline stores are also cacheline aligned.
529	*/
530	.align `5`
531	`8`:
532	lvx v7,`0`,r4
533	VPERM(v8,v0,v7,v16)
534	lvx v6,r4,r9
535	VPERM(v9,v7,v6,v16)
536	lvx v5,r4,r10
537	VPERM(v10,v6,v5,v16)
538	lvx v4,r4,r11
539	VPERM(v11,v5,v4,v16)
540	lvx v3,r4,r12
541	VPERM(v12,v4,v3,v16)
542	lvx v2,r4,r14
543	VPERM(v13,v3,v2,v16)
544	lvx v1,r4,r15
545	VPERM(v14,v2,v1,v16)
546	lvx v0,r4,r16
547	VPERM(v15,v1,v0,v16)
548	addi r4,r4,`128`
549	stvx v8,`0`,r3
550	stvx v9,r3,r9
551	stvx v10,r3,r10
552	stvx v11,r3,r11
553	stvx v12,r3,r12
554	stvx v13,r3,r14
555	stvx v14,r3,r15
556	stvx v15,r3,r16
557	addi r3,r3,`128`
558	bdnz `8b`
559
560	ld r14,STK_REG(R14)(r1)
561	ld r15,STK_REG(R15)(r1)
562	ld r16,STK_REG(R16)(r1)
563
564	/ Up to 127B to go /
565	clrldi r5,r5,(`64`-`7`)
566	srdi r6,r5,`4`
567	mtocrf `0x01`,r6
568
569	bf cr7*`4`+`1`,`9f`
570	lvx v3,`0`,r4
571	VPERM(v8,v0,v3,v16)
572	lvx v2,r4,r9
573	VPERM(v9,v3,v2,v16)
574	lvx v1,r4,r10
575	VPERM(v10,v2,v1,v16)
576	lvx v0,r4,r11
577	VPERM(v11,v1,v0,v16)
578	addi r4,r4,`64`
579	stvx v8,`0`,r3
580	stvx v9,r3,r9
581	stvx v10,r3,r10
582	stvx v11,r3,r11
583	addi r3,r3,`64`
584
585	`9`: bf cr7*`4`+`2`,`10f`
586	lvx v1,`0`,r4
587	VPERM(v8,v0,v1,v16)
588	lvx v0,r4,r9
589	VPERM(v9,v1,v0,v16)
590	addi r4,r4,`32`
591	stvx v8,`0`,r3
592	stvx v9,r3,r9
593	addi r3,r3,`32`
594
595	`10`: bf cr7*`4`+`3`,`11f`
596	lvx v1,`0`,r4
597	VPERM(v8,v0,v1,v16)
598	addi r4,r4,`16`
599	stvx v8,`0`,r3
600	addi r3,r3,`16`
601
602	/ Up to 15B to go /
603	`11`: clrldi r5,r5,(`64`-`4`)
604	addi r4,r4,-`16` / Unwind the +16 load offset /
605	mtocrf `0x01`,r5
606	bf cr7*`4`+`0`,`12f`
607	lwz r0,`0`(r4) / Less chance of a reject with word ops /
608	lwz r6,`4`(r4)
609	addi r4,r4,`8`
610	stw r0,`0`(r3)
611	stw r6,`4`(r3)
612	addi r3,r3,`8`
613
614	`12`: bf cr7*`4`+`1`,`13f`
615	lwz r0,`0`(r4)
616	addi r4,r4,`4`
617	stw r0,`0`(r3)
618	addi r3,r3,`4`
619
620	`13`: bf cr7*`4`+`2`,`14f`
621	lhz r0,`0`(r4)
622	addi r4,r4,`2`
623	sth r0,`0`(r3)
624	addi r3,r3,`2`
625
626	`14`: bf cr7*`4`+`3`,`15f`
627	lbz r0,`0`(r4)
628	stb r0,`0`(r3)
629
630	`15`: addi r1,r1,STACKFRAMESIZE
631	ld r3,-STACKFRAMESIZE+STK_REG(R31)(r1)
632	b CFUNC(exit_vmx_ops) / tail call optimise /
633	#endif /* CONFIG_ALTIVEC */
634

source code of linux/arch/powerpc/lib/memcpy_power7.S