Experiment with alternative implementation of memcpy/memset
[WebKit-https.git] / Source / bmalloc / bmalloc / Algorithm.h
1 /*
2  * Copyright (C) 2014 Apple Inc. All rights reserved.
3  *
4  * Redistribution and use in source and binary forms, with or without
5  * modification, are permitted provided that the following conditions
6  * are met:
7  * 1. Redistributions of source code must retain the above copyright
8  *    notice, this list of conditions and the following disclaimer.
9  * 2. Redistributions in binary form must reproduce the above copyright
10  *    notice, this list of conditions and the following disclaimer in the
11  *    documentation and/or other materials provided with the distribution.
12  *
13  * THIS SOFTWARE IS PROVIDED BY APPLE INC. ``AS IS'' AND ANY
14  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
15  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
16  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE INC. OR
17  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
18  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
19  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
20  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
21  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
22  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
23  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
24  */
25
26 #ifndef Algorithm_h
27 #define Algorithm_h
28
29 #include "BAssert.h"
30 #include <algorithm>
31 #include <cstdint>
32 #include <cstddef>
33 #include <limits>
34 #include <type_traits>
35 #include <chrono>
36
37 namespace bmalloc {
38
39 // Versions of min and max that are compatible with compile-time constants.
40 template<typename T> inline constexpr T max(T a, T b)
41 {
42     return a > b ? a : b;
43 }
44     
45 template<typename T> inline constexpr T min(T a, T b)
46 {
47     return a < b ? a : b;
48 }
49
50 template<typename T> inline constexpr T mask(T value, uintptr_t mask)
51 {
52     static_assert(sizeof(T) == sizeof(uintptr_t), "sizeof(T) must be equal to sizeof(uintptr_t).");
53     return static_cast<T>(static_cast<uintptr_t>(value) & mask);
54 }
55
56 template<typename T> inline T* mask(T* value, uintptr_t mask)
57 {
58     return reinterpret_cast<T*>(reinterpret_cast<uintptr_t>(value) & mask);
59 }
60
61 template<typename T> inline constexpr bool test(T value, uintptr_t mask)
62 {
63     return !!(reinterpret_cast<uintptr_t>(value) & mask);
64 }
65
66 template <typename T>
67 inline constexpr bool isPowerOfTwo(T size)
68 {
69     static_assert(std::is_integral<T>::value, "");
70     return size && !(size & (size - 1));
71 }
72
73 template<typename T> inline T roundUpToMultipleOf(size_t divisor, T x)
74 {
75     BASSERT(isPowerOfTwo(divisor));
76     static_assert(sizeof(T) == sizeof(uintptr_t), "sizeof(T) must be equal to sizeof(uintptr_t).");
77     return static_cast<T>((static_cast<uintptr_t>(x) + (divisor - 1)) & ~(divisor - 1));
78 }
79
80 template<size_t divisor, typename T> inline T roundUpToMultipleOf(T x)
81 {
82     static_assert(isPowerOfTwo(divisor), "'divisor' must be a power of two.");
83     return roundUpToMultipleOf(divisor, x);
84 }
85
86 template<typename T> inline T* roundUpToMultipleOf(size_t divisor, T* x)
87 {
88     BASSERT(isPowerOfTwo(divisor));
89     return reinterpret_cast<T*>((reinterpret_cast<uintptr_t>(x) + (divisor - 1)) & ~(divisor - 1));
90 }
91
92 template<size_t divisor, typename T> inline T* roundUpToMultipleOf(T* x)
93 {
94     static_assert(isPowerOfTwo(divisor), "'divisor' must be a power of two.");
95     return roundUpToMultipleOf(divisor, x);
96 }
97
98 template<typename T> inline T roundDownToMultipleOf(size_t divisor, T x)
99 {
100     BASSERT(isPowerOfTwo(divisor));
101     return reinterpret_cast<T>(mask(reinterpret_cast<uintptr_t>(x), ~(divisor - 1ul)));
102 }
103
104 template<size_t divisor, typename T> inline constexpr T roundDownToMultipleOf(T x)
105 {
106     static_assert(isPowerOfTwo(divisor), "'divisor' must be a power of two.");
107     return roundDownToMultipleOf(divisor, x);
108 }
109
110 template<typename T> inline void divideRoundingUp(T numerator, T denominator, T& quotient, T& remainder)
111 {
112     // We expect the compiler to emit a single divide instruction to extract both the quotient and the remainder.
113     quotient = numerator / denominator;
114     remainder = numerator % denominator;
115     if (remainder)
116         quotient += 1;
117 }
118
119 template<typename T> inline T divideRoundingUp(T numerator, T denominator)
120 {
121     return (numerator + denominator - 1) / denominator;
122 }
123
124 template<typename T> inline T roundUpToMultipleOfNonPowerOfTwo(size_t divisor, T x)
125 {
126     return divideRoundingUp(x, divisor) * divisor;
127 }
128
129 // Version of sizeof that returns 0 for empty classes.
130
131 template<typename T> inline constexpr size_t sizeOf()
132 {
133     return std::is_empty<T>::value ? 0 : sizeof(T);
134 }
135
136 template<typename T> inline constexpr size_t bitCount()
137 {
138     return sizeof(T) * 8;
139 }
140
141 #if BOS(WINDOWS)
142 template<int depth> __forceinline constexpr unsigned long clzl(unsigned long value)
143 {
144     return value & (1UL << (bitCount<unsigned long>() - 1)) ? 0 : 1 + clzl<depth - 1>(value << 1);
145 }
146
147 template<> __forceinline constexpr unsigned long clzl<1>(unsigned long value)
148 {
149     return 0;
150 }
151
152 __forceinline constexpr unsigned long __builtin_clzl(unsigned long value)
153 {
154     return value == 0 ? 32 : clzl<bitCount<unsigned long>()>(value);
155 }
156 #endif
157
158 inline constexpr unsigned long log2(unsigned long value)
159 {
160     return bitCount<unsigned long>() - 1 - __builtin_clzl(value);
161 }
162
163 #define BOFFSETOF(class, field) (reinterpret_cast<ptrdiff_t>(&(reinterpret_cast<class*>(0x4000)->field)) - 0x4000)
164
165 template<typename T>
166 bool findBitInWord(T word, size_t& index, size_t endIndex, bool value)
167 {
168     static_assert(std::is_unsigned<T>::value, "Type used in findBitInWord must be unsigned");
169     
170     word >>= index;
171     
172     while (index < endIndex) {
173         if ((word & 1) == static_cast<T>(value))
174             return true;
175         index++;
176         word >>= 1;
177     }
178     
179     index = endIndex;
180     return false;
181 }
182
183 template<typename T>
184 void fastCopy(T* dst, T* src, size_t length)
185 {
186 #if BCPU(X86_64)
187     uint64_t tmp = 0;
188     size_t count = length * sizeof(T);
189     if (!(sizeof(T) % sizeof(uint64_t))) {
190         asm volatile (
191             "cmpq $200, %%rcx\n\t"
192             "jb 1f\n\t"
193             "shrq $3, %%rcx\n\t"
194             "rep movsq\n\t"
195             "jmp 2f\n\t"
196             "3:\n\t"
197             "movq (%%rsi, %%rcx), %%rax\n\t"
198             "movq %%rax, (%%rdi, %%rcx)\n\t"
199             "1:\n\t"
200             "subq $8, %%rcx\n\t"
201             "jae 3b\n\t"
202             "2:\n\t"
203             : "+D"(dst), "+S"(src), "+c"(count), "+a"(tmp)
204             :
205             : "memory"
206             );
207         return;
208     }
209     if (!(sizeof(T) % sizeof(uint32_t))) {
210         asm volatile (
211             "cmpq $200, %%rcx\n\t"
212             "jb 1f\n\t"
213             "shrq $2, %%rcx\n\t"
214             "rep movsl\n\t"
215             "jmp 2f\n\t"
216             "3:\n\t"
217             "movq (%%rsi, %%rcx), %%rax\n\t"
218             "movq %%rax, (%%rdi, %%rcx)\n\t"
219             "1:\n\t"
220             "subq $8, %%rcx\n\t"
221             "jae 3b\n\t"
222             "cmpq $-8, %%rcx\n\t"
223             "je 2f\n\t"
224             "addq $4, %%rcx\n\t" // FIXME: This isn't really a loop. https://bugs.webkit.org/show_bug.cgi?id=182617
225             "4:\n\t"
226             "movl (%%rsi, %%rcx), %%eax\n\t"
227             "movl %%eax, (%%rdi, %%rcx)\n\t"
228             "subq $4, %%rcx\n\t"
229             "jae 4b\n\t"
230             "2:\n\t"
231             : "+D"(dst), "+S"(src), "+c"(count), "+a"(tmp)
232             :
233             : "memory"
234             );
235         return;
236     }
237     if (!(sizeof(T) % sizeof(uint16_t))) {
238         asm volatile (
239             "cmpq $200, %%rcx\n\t"
240             "jb 1f\n\t"
241             "shrq $1, %%rcx\n\t"
242             "rep movsw\n\t"
243             "jmp 2f\n\t"
244             "3:\n\t"
245             "movq (%%rsi, %%rcx), %%rax\n\t"
246             "movq %%rax, (%%rdi, %%rcx)\n\t"
247             "1:\n\t"
248             "subq $8, %%rcx\n\t"
249             "jae 3b\n\t"
250             "cmpq $-8, %%rcx\n\t"
251             "je 2f\n\t"
252             "addq $6, %%rcx\n\t"
253             "4:\n\t"
254             "movw (%%rsi, %%rcx), %%ax\n\t"
255             "movw %%ax, (%%rdi, %%rcx)\n\t"
256             "subq $2, %%rcx\n\t"
257             "jae 4b\n\t"
258             "2:\n\t"
259             : "+D"(dst), "+S"(src), "+c"(count), "+a"(tmp)
260             :
261             : "memory"
262             );
263         return;
264     }
265     asm volatile (
266         "cmpq $200, %%rcx\n\t"
267         "jb 1f\n\t"
268         "rep movsb\n\t"
269         "jmp 2f\n\t"
270         "3:\n\t"
271         "movq (%%rsi, %%rcx), %%rax\n\t"
272         "movq %%rax, (%%rdi, %%rcx)\n\t"
273         "1:\n\t"
274         "subq $8, %%rcx\n\t"
275         "jae 3b\n\t"
276         "cmpq $-8, %%rcx\n\t"
277         "je 2f\n\t"
278         "addq $7, %%rcx\n\t"
279         "4:\n\t"
280         "movb (%%rsi, %%rcx), %%al\n\t"
281         "movb %%al, (%%rdi, %%rcx)\n\t"
282         "subq $1, %%rcx\n\t"
283         "jae 4b\n\t"
284         "2:\n\t"
285         : "+D"(dst), "+S"(src), "+c"(count), "+a"(tmp)
286         :
287         : "memory"
288         );
289 #else
290     memcpy(dst, src, length * sizeof(T));
291 #endif
292 }
293
294 template<typename T>
295 void fastZeroFill(T* dst, size_t length)
296 {
297 #if BCPU(X86_64)
298     uint64_t zero = 0;
299     size_t count = length * sizeof(T);
300     if (!(sizeof(T) % sizeof(uint64_t))) {
301         asm volatile (
302             "cmpq $200, %%rcx\n\t"
303             "jb 1f\n\t"
304             "shrq $3, %%rcx\n\t"
305             "rep stosq\n\t"
306             "jmp 2f\n\t"
307             "3:\n\t"
308             "movq %%rax, (%%rdi, %%rcx)\n\t"
309             "1:\n\t"
310             "subq $8, %%rcx\n\t"
311             "jae 3b\n\t"
312             "2:\n\t"
313             : "+D"(dst), "+c"(count)
314             : "a"(zero)
315             : "memory"
316             );
317         return;
318     }
319     if (!(sizeof(T) % sizeof(uint32_t))) {
320         asm volatile (
321             "cmpq $200, %%rcx\n\t"
322             "jb 1f\n\t"
323             "shrq $2, %%rcx\n\t"
324             "rep stosl\n\t"
325             "jmp 2f\n\t"
326             "3:\n\t"
327             "movq %%rax, (%%rdi, %%rcx)\n\t"
328             "1:\n\t"
329             "subq $8, %%rcx\n\t"
330             "jae 3b\n\t"
331             "cmpq $-8, %%rcx\n\t"
332             "je 2f\n\t"
333             "addq $4, %%rcx\n\t" // FIXME: This isn't really a loop. https://bugs.webkit.org/show_bug.cgi?id=182617
334             "4:\n\t"
335             "movl %%eax, (%%rdi, %%rcx)\n\t"
336             "subq $4, %%rcx\n\t"
337             "jae 4b\n\t"
338             "2:\n\t"
339             : "+D"(dst), "+c"(count)
340             : "a"(zero)
341             : "memory"
342             );
343         return;
344     }
345     if (!(sizeof(T) % sizeof(uint16_t))) {
346         asm volatile (
347             "cmpq $200, %%rcx\n\t"
348             "jb 1f\n\t"
349             "shrq $1, %%rcx\n\t"
350             "rep stosw\n\t"
351             "jmp 2f\n\t"
352             "3:\n\t"
353             "movq %%rax, (%%rdi, %%rcx)\n\t"
354             "1:\n\t"
355             "subq $8, %%rcx\n\t"
356             "jae 3b\n\t"
357             "cmpq $-8, %%rcx\n\t"
358             "je 2f\n\t"
359             "addq $6, %%rcx\n\t"
360             "4:\n\t"
361             "movw %%ax, (%%rdi, %%rcx)\n\t"
362             "subq $2, %%rcx\n\t"
363             "jae 4b\n\t"
364             "2:\n\t"
365             : "+D"(dst), "+c"(count)
366             : "a"(zero)
367             : "memory"
368             );
369         return;
370     }
371     asm volatile (
372         "cmpq $200, %%rcx\n\t"
373         "jb 1f\n\t"
374         "rep stosb\n\t"
375         "jmp 2f\n\t"
376         "3:\n\t"
377         "movq %%rax, (%%rdi, %%rcx)\n\t"
378         "1:\n\t"
379         "subq $8, %%rcx\n\t"
380         "jae 3b\n\t"
381         "cmpq $-8, %%rcx\n\t"
382         "je 2f\n\t"
383         "addq $7, %%rcx\n\t"
384         "4:\n\t"
385         "movb %%al, (%%rdi, %%rcx)\n\t"
386         "sub $1, %%rcx\n\t"
387         "jae 4b\n\t"
388         "2:\n\t"
389         : "+D"(dst), "+c"(count)
390         : "a"(zero)
391         : "memory"
392         );
393 #else
394     memset(dst, 0, length * sizeof(T));
395 #endif
396 }
397
398 } // namespace bmalloc
399
400 #endif // Algorithm_h