Modernize some aspects of text codecs, eliminate WebKit use of strcasecmp
[WebKit-https.git] / Source / WebCore / platform / text / TextEncodingRegistry.cpp
1 /*
2  * Copyright (C) 2006-2017 Apple Inc. All rights reserved.
3  * Copyright (C) 2007-2009 Torch Mobile, Inc.
4  *
5  * Redistribution and use in source and binary forms, with or without
6  * modification, are permitted provided that the following conditions
7  * are met:
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  * 2. Redistributions in binary form must reproduce the above copyright
11  *    notice, this list of conditions and the following disclaimer in the
12  *    documentation and/or other materials provided with the distribution.
13  *
14  * THIS SOFTWARE IS PROVIDED BY APPLE INC. ``AS IS'' AND ANY
15  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
16  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
17  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE INC. OR
18  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
19  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
20  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
21  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
22  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
23  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
24  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
25  */
26
27 #include "config.h"
28 #include "TextEncodingRegistry.h"
29
30 #include "TextCodecICU.h"
31 #include "TextCodecLatin1.h"
32 #include "TextCodecReplacement.h"
33 #include "TextCodecUTF16.h"
34 #include "TextCodecUTF8.h"
35 #include "TextCodecUserDefined.h"
36 #include "TextEncoding.h"
37 #include <mutex>
38 #include <wtf/ASCIICType.h>
39 #include <wtf/CheckedArithmetic.h>
40 #include <wtf/CurrentTime.h>
41 #include <wtf/HashMap.h>
42 #include <wtf/HashSet.h>
43 #include <wtf/Lock.h>
44 #include <wtf/MainThread.h>
45 #include <wtf/StdLibExtras.h>
46 #include <wtf/text/CString.h>
47
48 namespace WebCore {
49 using namespace WTF;
50
51 const size_t maxEncodingNameLength = 63;
52
53 // Hash for all-ASCII strings that does case folding.
54 struct TextEncodingNameHash {
55     static bool equal(const char* s1, const char* s2)
56     {
57         char c1;
58         char c2;
59         do {
60             c1 = *s1++;
61             c2 = *s2++;
62             if (toASCIILower(c1) != toASCIILower(c2))
63                 return false;
64         } while (c1 && c2);
65         return !c1 && !c2;
66     }
67
68     // This algorithm is the one-at-a-time hash from:
69     // http://burtleburtle.net/bob/hash/hashfaq.html
70     // http://burtleburtle.net/bob/hash/doobs.html
71     static unsigned hash(const char* s)
72     {
73         unsigned h = WTF::stringHashingStartValue;
74         for (;;) {
75             char c = *s++;
76             if (!c) {
77                 h += (h << 3);
78                 h ^= (h >> 11);
79                 h += (h << 15);
80                 return h;
81             }
82             h += toASCIILower(c);
83             h += (h << 10); 
84             h ^= (h >> 6); 
85         }
86     }
87
88     static const bool safeToCompareToEmptyOrDeleted = false;
89 };
90
91 using TextEncodingNameMap = HashMap<const char*, const char*, TextEncodingNameHash>;
92 using TextCodecMap = HashMap<const char*, NewTextCodecFunction>;
93
94 static StaticLock encodingRegistryMutex;
95
96 static TextEncodingNameMap* textEncodingNameMap;
97 static TextCodecMap* textCodecMap;
98 static bool didExtendTextCodecMaps;
99 static HashSet<const char*>* japaneseEncodings;
100 static HashSet<const char*>* nonBackslashEncodings;
101
102 static const char* const textEncodingNameBlacklist[] = { "UTF-7", "BOCU-1", "SCSU" };
103
104 static bool isUndesiredAlias(const char* alias)
105 {
106     // Reject aliases with version numbers that are supported by some back-ends (such as "ISO_2022,locale=ja,version=0" in ICU).
107     for (const char* p = alias; *p; ++p) {
108         if (*p == ',')
109             return true;
110     }
111     // 8859_1 is known to (at least) ICU, but other browsers don't support this name - and having it caused a compatibility
112     // problem, see bug 43554.
113     if (0 == strcmp(alias, "8859_1"))
114         return true;
115     return false;
116 }
117
118 static void addToTextEncodingNameMap(const char* alias, const char* name)
119 {
120     ASSERT(strlen(alias) <= maxEncodingNameLength);
121     if (isUndesiredAlias(alias))
122         return;
123     const char* atomicName = textEncodingNameMap->get(name);
124     ASSERT(strcmp(alias, name) == 0 || atomicName);
125     if (!atomicName)
126         atomicName = name;
127
128     ASSERT_WITH_MESSAGE(!textEncodingNameMap->get(alias), "Duplicate text encoding name %s for %s (previously registered as %s)", alias, atomicName, textEncodingNameMap->get(alias));
129
130     textEncodingNameMap->add(alias, atomicName);
131 }
132
133 static void addToTextCodecMap(const char* name, NewTextCodecFunction&& function)
134 {
135     const char* atomicName = textEncodingNameMap->get(name);
136     ASSERT(atomicName);
137     textCodecMap->add(atomicName, WTFMove(function));
138 }
139
140 static void pruneBlacklistedCodecs()
141 {
142     for (auto& nameFromBlacklist : textEncodingNameBlacklist) {
143         auto* atomicName = textEncodingNameMap->get(nameFromBlacklist);
144         if (!atomicName)
145             continue;
146
147         Vector<const char*> names;
148         for (auto& entry : *textEncodingNameMap) {
149             if (entry.value == atomicName)
150                 names.append(entry.key);
151         }
152
153         for (auto* name : names)
154             textEncodingNameMap->remove(name);
155
156         textCodecMap->remove(atomicName);
157     }
158 }
159
160 static void buildBaseTextCodecMaps(const std::lock_guard<StaticLock>&)
161 {
162     ASSERT(!textCodecMap);
163     ASSERT(!textEncodingNameMap);
164
165     textCodecMap = new TextCodecMap;
166     textEncodingNameMap = new TextEncodingNameMap;
167
168     TextCodecLatin1::registerEncodingNames(addToTextEncodingNameMap);
169     TextCodecLatin1::registerCodecs(addToTextCodecMap);
170
171     TextCodecUTF8::registerEncodingNames(addToTextEncodingNameMap);
172     TextCodecUTF8::registerCodecs(addToTextCodecMap);
173
174     TextCodecUTF16::registerEncodingNames(addToTextEncodingNameMap);
175     TextCodecUTF16::registerCodecs(addToTextCodecMap);
176
177     TextCodecUserDefined::registerEncodingNames(addToTextEncodingNameMap);
178     TextCodecUserDefined::registerCodecs(addToTextCodecMap);
179 }
180
181 static void addEncodingName(HashSet<const char*>* set, const char* name)
182 {
183     // We must not use atomicCanonicalTextEncodingName() because this function is called in it.
184     const char* atomicName = textEncodingNameMap->get(name);
185     if (atomicName)
186         set->add(atomicName);
187 }
188
189 static void buildQuirksSets()
190 {
191     // FIXME: Having isJapaneseEncoding() and shouldShowBackslashAsCurrencySymbolIn()
192     // and initializing the sets for them in TextEncodingRegistry.cpp look strange.
193
194     ASSERT(!japaneseEncodings);
195     ASSERT(!nonBackslashEncodings);
196
197     japaneseEncodings = new HashSet<const char*>;
198     addEncodingName(japaneseEncodings, "EUC-JP");
199     addEncodingName(japaneseEncodings, "ISO-2022-JP");
200     addEncodingName(japaneseEncodings, "ISO-2022-JP-1");
201     addEncodingName(japaneseEncodings, "ISO-2022-JP-2");
202     addEncodingName(japaneseEncodings, "ISO-2022-JP-3");
203     addEncodingName(japaneseEncodings, "JIS_C6226-1978");
204     addEncodingName(japaneseEncodings, "JIS_X0201");
205     addEncodingName(japaneseEncodings, "JIS_X0208-1983");
206     addEncodingName(japaneseEncodings, "JIS_X0208-1990");
207     addEncodingName(japaneseEncodings, "JIS_X0212-1990");
208     addEncodingName(japaneseEncodings, "Shift_JIS");
209     addEncodingName(japaneseEncodings, "Shift_JIS_X0213-2000");
210     addEncodingName(japaneseEncodings, "cp932");
211     addEncodingName(japaneseEncodings, "x-mac-japanese");
212
213     nonBackslashEncodings = new HashSet<const char*>;
214     // The text encodings below treat backslash as a currency symbol for IE compatibility.
215     // See http://blogs.msdn.com/michkap/archive/2005/09/17/469941.aspx for more information.
216     addEncodingName(nonBackslashEncodings, "x-mac-japanese");
217     addEncodingName(nonBackslashEncodings, "ISO-2022-JP");
218     addEncodingName(nonBackslashEncodings, "EUC-JP");
219     // Shift_JIS_X0213-2000 is not the same encoding as Shift_JIS on Mac. We need to register both of them.
220     addEncodingName(nonBackslashEncodings, "Shift_JIS");
221     addEncodingName(nonBackslashEncodings, "Shift_JIS_X0213-2000");
222 }
223
224 bool isJapaneseEncoding(const char* canonicalEncodingName)
225 {
226     return canonicalEncodingName && japaneseEncodings && japaneseEncodings->contains(canonicalEncodingName);
227 }
228
229 bool shouldShowBackslashAsCurrencySymbolIn(const char* canonicalEncodingName)
230 {
231     return canonicalEncodingName && nonBackslashEncodings && nonBackslashEncodings->contains(canonicalEncodingName);
232 }
233
234 static void extendTextCodecMaps()
235 {
236     TextCodecReplacement::registerEncodingNames(addToTextEncodingNameMap);
237     TextCodecReplacement::registerCodecs(addToTextCodecMap);
238
239     TextCodecICU::registerEncodingNames(addToTextEncodingNameMap);
240     TextCodecICU::registerCodecs(addToTextCodecMap);
241
242     pruneBlacklistedCodecs();
243     buildQuirksSets();
244 }
245
246 std::unique_ptr<TextCodec> newTextCodec(const TextEncoding& encoding)
247 {
248     std::lock_guard<StaticLock> lock(encodingRegistryMutex);
249
250     ASSERT(textCodecMap);
251     auto result = textCodecMap->find(encoding.name());
252     ASSERT(result != textCodecMap->end());
253     return result->value();
254 }
255
256 const char* atomicCanonicalTextEncodingName(const char* name)
257 {
258     if (!name || !name[0])
259         return nullptr;
260
261     std::lock_guard<StaticLock> lock(encodingRegistryMutex);
262
263     if (!textEncodingNameMap)
264         buildBaseTextCodecMaps(lock);
265
266     if (const char* atomicName = textEncodingNameMap->get(name))
267         return atomicName;
268     if (didExtendTextCodecMaps)
269         return nullptr;
270
271     extendTextCodecMaps();
272     didExtendTextCodecMaps = true;
273     return textEncodingNameMap->get(name);
274 }
275
276 template<typename CharacterType> static const char* atomicCanonicalTextEncodingName(const CharacterType* characters, size_t length)
277 {
278     char buffer[maxEncodingNameLength + 1];
279     size_t j = 0;
280     for (size_t i = 0; i < length; ++i) {
281         if (j == maxEncodingNameLength)
282             return nullptr;
283         buffer[j++] = characters[i];
284     }
285     buffer[j] = 0;
286     return atomicCanonicalTextEncodingName(buffer);
287 }
288
289 const char* atomicCanonicalTextEncodingName(const String& alias)
290 {
291     if (alias.isEmpty() || !alias.isAllASCII())
292         return nullptr;
293
294     if (alias.is8Bit())
295         return atomicCanonicalTextEncodingName(alias.characters8(), alias.length());
296
297     return atomicCanonicalTextEncodingName(alias.characters16(), alias.length());
298 }
299
300 bool noExtendedTextEncodingNameUsed()
301 {
302     // If the calling thread did not use extended encoding names, it is fine for it to use a stale false value.
303     return !didExtendTextCodecMaps;
304 }
305
306 String defaultTextEncodingNameForSystemLanguage()
307 {
308 #if PLATFORM(COCOA)
309     String systemEncodingName = CFStringConvertEncodingToIANACharSetName(webDefaultCFStringEncoding());
310
311     // CFStringConvertEncodingToIANACharSetName() returns cp949 for kTextEncodingDOSKorean AKA "extended EUC-KR" AKA windows-949.
312     // ICU uses this name for a different encoding, so we need to change the name to a value that actually gives us windows-949.
313     // In addition, this value must match what is used in Safari, see <rdar://problem/5579292>.
314     // On some OS versions, the result is CP949 (uppercase).
315     if (equalLettersIgnoringASCIICase(systemEncodingName, "cp949"))
316         systemEncodingName = ASCIILiteral("ks_c_5601-1987");
317
318     // CFStringConvertEncodingToIANACharSetName() returns cp874 for kTextEncodingDOSThai, AKA windows-874.
319     // Since "cp874" alias is not standard (https://encoding.spec.whatwg.org/#names-and-labels), map to
320     // "dos-874" instead.
321     if (equalLettersIgnoringASCIICase(systemEncodingName, "cp874"))
322         systemEncodingName = ASCIILiteral("dos-874");
323
324     return systemEncodingName;
325 #else
326     return ASCIILiteral("ISO-8859-1");
327 #endif
328 }
329
330 } // namespace WebCore