Remove WebCoreSystemInterface
[WebKit-https.git] / Source / WebCore / platform / text / TextEncodingRegistry.cpp
1 /*
2  * Copyright (C) 2006, 2007, 2011 Apple Inc. All rights reserved.
3  * Copyright (C) 2007-2009 Torch Mobile, Inc.
4  *
5  * Redistribution and use in source and binary forms, with or without
6  * modification, are permitted provided that the following conditions
7  * are met:
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  * 2. Redistributions in binary form must reproduce the above copyright
11  *    notice, this list of conditions and the following disclaimer in the
12  *    documentation and/or other materials provided with the distribution.
13  *
14  * THIS SOFTWARE IS PROVIDED BY APPLE INC. ``AS IS'' AND ANY
15  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
16  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
17  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE INC. OR
18  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
19  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
20  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
21  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
22  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
23  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
24  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
25  */
26
27 #include "config.h"
28 #include "TextEncodingRegistry.h"
29
30 #include "TextCodecICU.h"
31 #include "TextCodecLatin1.h"
32 #include "TextCodecReplacement.h"
33 #include "TextCodecUserDefined.h"
34 #include "TextCodecUTF16.h"
35 #include "TextCodecUTF8.h"
36 #include "TextEncoding.h"
37 #include <mutex>
38 #include <wtf/ASCIICType.h>
39 #include <wtf/HashMap.h>
40 #include <wtf/HashSet.h>
41 #include <wtf/Lock.h>
42 #include <wtf/MainThread.h>
43 #include <wtf/StdLibExtras.h>
44 #include <wtf/StringExtras.h>
45
46 #if PLATFORM(MAC)
47 #include "TextCodecMac.h"
48 #endif
49
50 #include <wtf/CurrentTime.h>
51 #include <wtf/text/CString.h>
52
53 using namespace WTF;
54
55 namespace WebCore {
56
57 const size_t maxEncodingNameLength = 63;
58
59 // Hash for all-ASCII strings that does case folding.
60 struct TextEncodingNameHash {
61     static bool equal(const char* s1, const char* s2)
62     {
63         char c1;
64         char c2;
65         do {
66             c1 = *s1++;
67             c2 = *s2++;
68             if (toASCIILower(c1) != toASCIILower(c2))
69                 return false;
70         } while (c1 && c2);
71         return !c1 && !c2;
72     }
73
74     // This algorithm is the one-at-a-time hash from:
75     // http://burtleburtle.net/bob/hash/hashfaq.html
76     // http://burtleburtle.net/bob/hash/doobs.html
77     static unsigned hash(const char* s)
78     {
79         unsigned h = WTF::stringHashingStartValue;
80         for (;;) {
81             char c = *s++;
82             if (!c) {
83                 h += (h << 3);
84                 h ^= (h >> 11);
85                 h += (h << 15);
86                 return h;
87             }
88             h += toASCIILower(c);
89             h += (h << 10); 
90             h ^= (h >> 6); 
91         }
92     }
93
94     static const bool safeToCompareToEmptyOrDeleted = false;
95 };
96
97 struct TextCodecFactory {
98     NewTextCodecFunction function;
99     const void* additionalData;
100     TextCodecFactory(NewTextCodecFunction f = 0, const void* d = 0) : function(f), additionalData(d) { }
101 };
102
103 typedef HashMap<const char*, const char*, TextEncodingNameHash> TextEncodingNameMap;
104 typedef HashMap<const char*, TextCodecFactory> TextCodecMap;
105
106 static StaticLock encodingRegistryMutex;
107
108 static TextEncodingNameMap* textEncodingNameMap;
109 static TextCodecMap* textCodecMap;
110 static bool didExtendTextCodecMaps;
111 static HashSet<const char*>* japaneseEncodings;
112 static HashSet<const char*>* nonBackslashEncodings;
113
114 static const char* const textEncodingNameBlacklist[] = { "UTF-7", "BOCU-1", "SCSU" };
115
116 #if ERROR_DISABLED
117
118 static inline void checkExistingName(const char*, const char*) { }
119
120 #else
121
122 static void checkExistingName(const char* alias, const char* atomicName)
123 {
124     const char* oldAtomicName = textEncodingNameMap->get(alias);
125     if (!oldAtomicName)
126         return;
127     if (oldAtomicName == atomicName)
128         return;
129     // Keep the warning silent about one case where we know this will happen.
130     if (strcmp(alias, "ISO-8859-8-I") == 0
131             && strcmp(oldAtomicName, "ISO-8859-8-I") == 0
132             && strcasecmp(atomicName, "iso-8859-8") == 0)
133         return;
134     LOG_ERROR("alias %s maps to %s already, but someone is trying to make it map to %s", alias, oldAtomicName, atomicName);
135 }
136
137 #endif
138
139 static bool isUndesiredAlias(const char* alias)
140 {
141     // Reject aliases with version numbers that are supported by some back-ends (such as "ISO_2022,locale=ja,version=0" in ICU).
142     for (const char* p = alias; *p; ++p) {
143         if (*p == ',')
144             return true;
145     }
146     // 8859_1 is known to (at least) ICU, but other browsers don't support this name - and having it caused a compatibility
147     // problem, see bug 43554.
148     if (0 == strcmp(alias, "8859_1"))
149         return true;
150     return false;
151 }
152
153 static void addToTextEncodingNameMap(const char* alias, const char* name)
154 {
155     ASSERT(strlen(alias) <= maxEncodingNameLength);
156     if (isUndesiredAlias(alias))
157         return;
158     const char* atomicName = textEncodingNameMap->get(name);
159     ASSERT(strcmp(alias, name) == 0 || atomicName);
160     if (!atomicName)
161         atomicName = name;
162     checkExistingName(alias, atomicName);
163     textEncodingNameMap->add(alias, atomicName);
164 }
165
166 static void addToTextCodecMap(const char* name, NewTextCodecFunction function, const void* additionalData)
167 {
168     const char* atomicName = textEncodingNameMap->get(name);
169     ASSERT(atomicName);
170     textCodecMap->add(atomicName, TextCodecFactory(function, additionalData));
171 }
172
173 static void pruneBlacklistedCodecs()
174 {
175     for (auto& nameFromBlacklist : textEncodingNameBlacklist) {
176         auto* atomicName = textEncodingNameMap->get(nameFromBlacklist);
177         if (!atomicName)
178             continue;
179
180         Vector<const char*> names;
181         for (auto& entry : *textEncodingNameMap) {
182             if (entry.value == atomicName)
183                 names.append(entry.key);
184         }
185
186         for (auto* name : names)
187             textEncodingNameMap->remove(name);
188
189         textCodecMap->remove(atomicName);
190     }
191 }
192
193 static void buildBaseTextCodecMaps(const std::lock_guard<StaticLock>&)
194 {
195     ASSERT(!textCodecMap);
196     ASSERT(!textEncodingNameMap);
197
198     textCodecMap = new TextCodecMap;
199     textEncodingNameMap = new TextEncodingNameMap;
200
201     TextCodecLatin1::registerEncodingNames(addToTextEncodingNameMap);
202     TextCodecLatin1::registerCodecs(addToTextCodecMap);
203
204     TextCodecUTF8::registerEncodingNames(addToTextEncodingNameMap);
205     TextCodecUTF8::registerCodecs(addToTextCodecMap);
206
207     TextCodecUTF16::registerEncodingNames(addToTextEncodingNameMap);
208     TextCodecUTF16::registerCodecs(addToTextCodecMap);
209
210     TextCodecUserDefined::registerEncodingNames(addToTextEncodingNameMap);
211     TextCodecUserDefined::registerCodecs(addToTextCodecMap);
212 }
213
214 static void addEncodingName(HashSet<const char*>* set, const char* name)
215 {
216     // We must not use atomicCanonicalTextEncodingName() because this function is called in it.
217     const char* atomicName = textEncodingNameMap->get(name);
218     if (atomicName)
219         set->add(atomicName);
220 }
221
222 static void buildQuirksSets()
223 {
224     // FIXME: Having isJapaneseEncoding() and shouldShowBackslashAsCurrencySymbolIn()
225     // and initializing the sets for them in TextEncodingRegistry.cpp look strange.
226
227     ASSERT(!japaneseEncodings);
228     ASSERT(!nonBackslashEncodings);
229
230     japaneseEncodings = new HashSet<const char*>;
231     addEncodingName(japaneseEncodings, "EUC-JP");
232     addEncodingName(japaneseEncodings, "ISO-2022-JP");
233     addEncodingName(japaneseEncodings, "ISO-2022-JP-1");
234     addEncodingName(japaneseEncodings, "ISO-2022-JP-2");
235     addEncodingName(japaneseEncodings, "ISO-2022-JP-3");
236     addEncodingName(japaneseEncodings, "JIS_C6226-1978");
237     addEncodingName(japaneseEncodings, "JIS_X0201");
238     addEncodingName(japaneseEncodings, "JIS_X0208-1983");
239     addEncodingName(japaneseEncodings, "JIS_X0208-1990");
240     addEncodingName(japaneseEncodings, "JIS_X0212-1990");
241     addEncodingName(japaneseEncodings, "Shift_JIS");
242     addEncodingName(japaneseEncodings, "Shift_JIS_X0213-2000");
243     addEncodingName(japaneseEncodings, "cp932");
244     addEncodingName(japaneseEncodings, "x-mac-japanese");
245
246     nonBackslashEncodings = new HashSet<const char*>;
247     // The text encodings below treat backslash as a currency symbol for IE compatibility.
248     // See http://blogs.msdn.com/michkap/archive/2005/09/17/469941.aspx for more information.
249     addEncodingName(nonBackslashEncodings, "x-mac-japanese");
250     addEncodingName(nonBackslashEncodings, "ISO-2022-JP");
251     addEncodingName(nonBackslashEncodings, "EUC-JP");
252     // Shift_JIS_X0213-2000 is not the same encoding as Shift_JIS on Mac. We need to register both of them.
253     addEncodingName(nonBackslashEncodings, "Shift_JIS");
254     addEncodingName(nonBackslashEncodings, "Shift_JIS_X0213-2000");
255 }
256
257 bool isJapaneseEncoding(const char* canonicalEncodingName)
258 {
259     return canonicalEncodingName && japaneseEncodings && japaneseEncodings->contains(canonicalEncodingName);
260 }
261
262 bool isReplacementEncoding(const char* alias)
263 {
264     if (!alias)
265         return false;
266
267     if (strlen(alias) != 11)
268         return false;
269
270     return !strcasecmp(alias, "replacement");
271 }
272
273 bool isReplacementEncoding(const String& alias)
274 {
275     return equalLettersIgnoringASCIICase(alias, "replacement");
276 }
277
278 bool shouldShowBackslashAsCurrencySymbolIn(const char* canonicalEncodingName)
279 {
280     return canonicalEncodingName && nonBackslashEncodings && nonBackslashEncodings->contains(canonicalEncodingName);
281 }
282
283 static void extendTextCodecMaps()
284 {
285     TextCodecReplacement::registerEncodingNames(addToTextEncodingNameMap);
286     TextCodecReplacement::registerCodecs(addToTextCodecMap);
287
288     TextCodecICU::registerEncodingNames(addToTextEncodingNameMap);
289     TextCodecICU::registerCodecs(addToTextCodecMap);
290
291 #if PLATFORM(MAC)
292     TextCodecMac::registerEncodingNames(addToTextEncodingNameMap);
293     TextCodecMac::registerCodecs(addToTextCodecMap);
294 #endif
295
296     pruneBlacklistedCodecs();
297     buildQuirksSets();
298 }
299
300 std::unique_ptr<TextCodec> newTextCodec(const TextEncoding& encoding)
301 {
302     std::lock_guard<StaticLock> lock(encodingRegistryMutex);
303
304     ASSERT(textCodecMap);
305     TextCodecFactory factory = textCodecMap->get(encoding.name());
306     ASSERT(factory.function);
307     return factory.function(encoding, factory.additionalData);
308 }
309
310 const char* atomicCanonicalTextEncodingName(const char* name)
311 {
312     if (!name || !name[0])
313         return nullptr;
314
315     std::lock_guard<StaticLock> lock(encodingRegistryMutex);
316
317     if (!textEncodingNameMap)
318         buildBaseTextCodecMaps(lock);
319
320     if (const char* atomicName = textEncodingNameMap->get(name))
321         return atomicName;
322     if (didExtendTextCodecMaps)
323         return nullptr;
324
325     extendTextCodecMaps();
326     didExtendTextCodecMaps = true;
327     return textEncodingNameMap->get(name);
328 }
329
330 template <typename CharacterType>
331 const char* atomicCanonicalTextEncodingName(const CharacterType* characters, size_t length)
332 {
333     char buffer[maxEncodingNameLength + 1];
334     size_t j = 0;
335     for (size_t i = 0; i < length; ++i) {
336         CharacterType c = characters[i];
337         if (j == maxEncodingNameLength)
338             return 0;
339         buffer[j++] = c;
340     }
341     buffer[j] = 0;
342     return atomicCanonicalTextEncodingName(buffer);
343 }
344
345 const char* atomicCanonicalTextEncodingName(const String& alias)
346 {
347     if (!alias.length())
348         return nullptr;
349
350     if (alias.is8Bit())
351         return atomicCanonicalTextEncodingName(alias.characters8(), alias.length());
352
353     return atomicCanonicalTextEncodingName(alias.characters16(), alias.length());
354 }
355
356 bool noExtendedTextEncodingNameUsed()
357 {
358     // If the calling thread did not use extended encoding names, it is fine for it to use a stale false value.
359     return !didExtendTextCodecMaps;
360 }
361
362 String defaultTextEncodingNameForSystemLanguage()
363 {
364 #if PLATFORM(COCOA)
365     String systemEncodingName = CFStringConvertEncodingToIANACharSetName(webDefaultCFStringEncoding());
366
367     // CFStringConvertEncodingToIANACharSetName() returns cp949 for kTextEncodingDOSKorean AKA "extended EUC-KR" AKA windows-949.
368     // ICU uses this name for a different encoding, so we need to change the name to a value that actually gives us windows-949.
369     // In addition, this value must match what is used in Safari, see <rdar://problem/5579292>.
370     // On some OS versions, the result is CP949 (uppercase).
371     if (equalLettersIgnoringASCIICase(systemEncodingName, "cp949"))
372         systemEncodingName = ASCIILiteral("ks_c_5601-1987");
373
374     // CFStringConvertEncodingToIANACharSetName() returns cp874 for kTextEncodingDOSThai, AKA windows-874.
375     // Since "cp874" alias is not standard (https://encoding.spec.whatwg.org/#names-and-labels), map to
376     // "dos-874" instead.
377     if (equalLettersIgnoringASCIICase(systemEncodingName, "cp874"))
378         systemEncodingName = ASCIILiteral("dos-874");
379
380     return systemEncodingName;
381 #else
382     return ASCIILiteral("ISO-8859-1");
383 #endif
384 }
385
386 #ifndef NDEBUG
387 void dumpTextEncodingNameMap()
388 {
389     unsigned size = textEncodingNameMap->size();
390     fprintf(stderr, "Dumping %u entries in WebCore::textEncodingNameMap...\n", size);
391
392     std::lock_guard<StaticLock> lock(encodingRegistryMutex);
393
394     TextEncodingNameMap::const_iterator it = textEncodingNameMap->begin();
395     TextEncodingNameMap::const_iterator end = textEncodingNameMap->end();
396     for (; it != end; ++it)
397         fprintf(stderr, "'%s' => '%s'\n", it->key, it->value);
398 }
399 #endif
400
401 } // namespace WebCore