6e542333ab0100b0c7378dde612820a232c8b75a
[WebKit-https.git] / Source / WebCore / platform / text / TextEncodingRegistry.cpp
1 /*
2  * Copyright (C) 2006, 2007, 2011 Apple Inc. All rights reserved.
3  * Copyright (C) 2007-2009 Torch Mobile, Inc.
4  *
5  * Redistribution and use in source and binary forms, with or without
6  * modification, are permitted provided that the following conditions
7  * are met:
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  * 2. Redistributions in binary form must reproduce the above copyright
11  *    notice, this list of conditions and the following disclaimer in the
12  *    documentation and/or other materials provided with the distribution.
13  *
14  * THIS SOFTWARE IS PROVIDED BY APPLE INC. ``AS IS'' AND ANY
15  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
16  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
17  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE INC. OR
18  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
19  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
20  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
21  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
22  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
23  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
24  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
25  */
26
27 #include "config.h"
28 #include "TextEncodingRegistry.h"
29
30 #include "TextCodecICU.h"
31 #include "TextCodecLatin1.h"
32 #include "TextCodecReplacement.h"
33 #include "TextCodecUserDefined.h"
34 #include "TextCodecUTF16.h"
35 #include "TextCodecUTF8.h"
36 #include "TextEncoding.h"
37 #include <mutex>
38 #include <wtf/ASCIICType.h>
39 #include <wtf/HashMap.h>
40 #include <wtf/HashSet.h>
41 #include <wtf/Lock.h>
42 #include <wtf/MainThread.h>
43 #include <wtf/StdLibExtras.h>
44 #include <wtf/StringExtras.h>
45
46 #include <wtf/CurrentTime.h>
47 #include <wtf/text/CString.h>
48
49
50 namespace WebCore {
51 using namespace WTF;
52
53 const size_t maxEncodingNameLength = 63;
54
55 // Hash for all-ASCII strings that does case folding.
56 struct TextEncodingNameHash {
57     static bool equal(const char* s1, const char* s2)
58     {
59         char c1;
60         char c2;
61         do {
62             c1 = *s1++;
63             c2 = *s2++;
64             if (toASCIILower(c1) != toASCIILower(c2))
65                 return false;
66         } while (c1 && c2);
67         return !c1 && !c2;
68     }
69
70     // This algorithm is the one-at-a-time hash from:
71     // http://burtleburtle.net/bob/hash/hashfaq.html
72     // http://burtleburtle.net/bob/hash/doobs.html
73     static unsigned hash(const char* s)
74     {
75         unsigned h = WTF::stringHashingStartValue;
76         for (;;) {
77             char c = *s++;
78             if (!c) {
79                 h += (h << 3);
80                 h ^= (h >> 11);
81                 h += (h << 15);
82                 return h;
83             }
84             h += toASCIILower(c);
85             h += (h << 10); 
86             h ^= (h >> 6); 
87         }
88     }
89
90     static const bool safeToCompareToEmptyOrDeleted = false;
91 };
92
93 struct TextCodecFactory {
94     NewTextCodecFunction function;
95     const void* additionalData;
96     TextCodecFactory(NewTextCodecFunction f = 0, const void* d = 0) : function(f), additionalData(d) { }
97 };
98
99 typedef HashMap<const char*, const char*, TextEncodingNameHash> TextEncodingNameMap;
100 typedef HashMap<const char*, TextCodecFactory> TextCodecMap;
101
102 static StaticLock encodingRegistryMutex;
103
104 static TextEncodingNameMap* textEncodingNameMap;
105 static TextCodecMap* textCodecMap;
106 static bool didExtendTextCodecMaps;
107 static HashSet<const char*>* japaneseEncodings;
108 static HashSet<const char*>* nonBackslashEncodings;
109
110 static const char* const textEncodingNameBlacklist[] = { "UTF-7", "BOCU-1", "SCSU" };
111
112 static bool isUndesiredAlias(const char* alias)
113 {
114     // Reject aliases with version numbers that are supported by some back-ends (such as "ISO_2022,locale=ja,version=0" in ICU).
115     for (const char* p = alias; *p; ++p) {
116         if (*p == ',')
117             return true;
118     }
119     // 8859_1 is known to (at least) ICU, but other browsers don't support this name - and having it caused a compatibility
120     // problem, see bug 43554.
121     if (0 == strcmp(alias, "8859_1"))
122         return true;
123     return false;
124 }
125
126 static void addToTextEncodingNameMap(const char* alias, const char* name)
127 {
128     ASSERT(strlen(alias) <= maxEncodingNameLength);
129     if (isUndesiredAlias(alias))
130         return;
131     const char* atomicName = textEncodingNameMap->get(name);
132     ASSERT(strcmp(alias, name) == 0 || atomicName);
133     if (!atomicName)
134         atomicName = name;
135
136     ASSERT_WITH_MESSAGE(!textEncodingNameMap->get(alias), "Duplicate text encoding name %s for %s (previously registered as %s)", alias, atomicName, textEncodingNameMap->get(alias));
137
138     textEncodingNameMap->add(alias, atomicName);
139 }
140
141 static void addToTextCodecMap(const char* name, NewTextCodecFunction function, const void* additionalData)
142 {
143     const char* atomicName = textEncodingNameMap->get(name);
144     ASSERT(atomicName);
145     textCodecMap->add(atomicName, TextCodecFactory(function, additionalData));
146 }
147
148 static void pruneBlacklistedCodecs()
149 {
150     for (auto& nameFromBlacklist : textEncodingNameBlacklist) {
151         auto* atomicName = textEncodingNameMap->get(nameFromBlacklist);
152         if (!atomicName)
153             continue;
154
155         Vector<const char*> names;
156         for (auto& entry : *textEncodingNameMap) {
157             if (entry.value == atomicName)
158                 names.append(entry.key);
159         }
160
161         for (auto* name : names)
162             textEncodingNameMap->remove(name);
163
164         textCodecMap->remove(atomicName);
165     }
166 }
167
168 static void buildBaseTextCodecMaps(const std::lock_guard<StaticLock>&)
169 {
170     ASSERT(!textCodecMap);
171     ASSERT(!textEncodingNameMap);
172
173     textCodecMap = new TextCodecMap;
174     textEncodingNameMap = new TextEncodingNameMap;
175
176     TextCodecLatin1::registerEncodingNames(addToTextEncodingNameMap);
177     TextCodecLatin1::registerCodecs(addToTextCodecMap);
178
179     TextCodecUTF8::registerEncodingNames(addToTextEncodingNameMap);
180     TextCodecUTF8::registerCodecs(addToTextCodecMap);
181
182     TextCodecUTF16::registerEncodingNames(addToTextEncodingNameMap);
183     TextCodecUTF16::registerCodecs(addToTextCodecMap);
184
185     TextCodecUserDefined::registerEncodingNames(addToTextEncodingNameMap);
186     TextCodecUserDefined::registerCodecs(addToTextCodecMap);
187 }
188
189 static void addEncodingName(HashSet<const char*>* set, const char* name)
190 {
191     // We must not use atomicCanonicalTextEncodingName() because this function is called in it.
192     const char* atomicName = textEncodingNameMap->get(name);
193     if (atomicName)
194         set->add(atomicName);
195 }
196
197 static void buildQuirksSets()
198 {
199     // FIXME: Having isJapaneseEncoding() and shouldShowBackslashAsCurrencySymbolIn()
200     // and initializing the sets for them in TextEncodingRegistry.cpp look strange.
201
202     ASSERT(!japaneseEncodings);
203     ASSERT(!nonBackslashEncodings);
204
205     japaneseEncodings = new HashSet<const char*>;
206     addEncodingName(japaneseEncodings, "EUC-JP");
207     addEncodingName(japaneseEncodings, "ISO-2022-JP");
208     addEncodingName(japaneseEncodings, "ISO-2022-JP-1");
209     addEncodingName(japaneseEncodings, "ISO-2022-JP-2");
210     addEncodingName(japaneseEncodings, "ISO-2022-JP-3");
211     addEncodingName(japaneseEncodings, "JIS_C6226-1978");
212     addEncodingName(japaneseEncodings, "JIS_X0201");
213     addEncodingName(japaneseEncodings, "JIS_X0208-1983");
214     addEncodingName(japaneseEncodings, "JIS_X0208-1990");
215     addEncodingName(japaneseEncodings, "JIS_X0212-1990");
216     addEncodingName(japaneseEncodings, "Shift_JIS");
217     addEncodingName(japaneseEncodings, "Shift_JIS_X0213-2000");
218     addEncodingName(japaneseEncodings, "cp932");
219     addEncodingName(japaneseEncodings, "x-mac-japanese");
220
221     nonBackslashEncodings = new HashSet<const char*>;
222     // The text encodings below treat backslash as a currency symbol for IE compatibility.
223     // See http://blogs.msdn.com/michkap/archive/2005/09/17/469941.aspx for more information.
224     addEncodingName(nonBackslashEncodings, "x-mac-japanese");
225     addEncodingName(nonBackslashEncodings, "ISO-2022-JP");
226     addEncodingName(nonBackslashEncodings, "EUC-JP");
227     // Shift_JIS_X0213-2000 is not the same encoding as Shift_JIS on Mac. We need to register both of them.
228     addEncodingName(nonBackslashEncodings, "Shift_JIS");
229     addEncodingName(nonBackslashEncodings, "Shift_JIS_X0213-2000");
230 }
231
232 bool isJapaneseEncoding(const char* canonicalEncodingName)
233 {
234     return canonicalEncodingName && japaneseEncodings && japaneseEncodings->contains(canonicalEncodingName);
235 }
236
237 bool isReplacementEncoding(const char* alias)
238 {
239     if (!alias)
240         return false;
241
242     if (strlen(alias) != 11)
243         return false;
244
245     return !strcasecmp(alias, "replacement");
246 }
247
248 bool isReplacementEncoding(const String& alias)
249 {
250     return equalLettersIgnoringASCIICase(alias, "replacement");
251 }
252
253 bool shouldShowBackslashAsCurrencySymbolIn(const char* canonicalEncodingName)
254 {
255     return canonicalEncodingName && nonBackslashEncodings && nonBackslashEncodings->contains(canonicalEncodingName);
256 }
257
258 static void extendTextCodecMaps()
259 {
260     TextCodecReplacement::registerEncodingNames(addToTextEncodingNameMap);
261     TextCodecReplacement::registerCodecs(addToTextCodecMap);
262
263     TextCodecICU::registerEncodingNames(addToTextEncodingNameMap);
264     TextCodecICU::registerCodecs(addToTextCodecMap);
265
266     pruneBlacklistedCodecs();
267     buildQuirksSets();
268 }
269
270 std::unique_ptr<TextCodec> newTextCodec(const TextEncoding& encoding)
271 {
272     std::lock_guard<StaticLock> lock(encodingRegistryMutex);
273
274     ASSERT(textCodecMap);
275     TextCodecFactory factory = textCodecMap->get(encoding.name());
276     ASSERT(factory.function);
277     return factory.function(encoding, factory.additionalData);
278 }
279
280 const char* atomicCanonicalTextEncodingName(const char* name)
281 {
282     if (!name || !name[0])
283         return nullptr;
284
285     std::lock_guard<StaticLock> lock(encodingRegistryMutex);
286
287     if (!textEncodingNameMap)
288         buildBaseTextCodecMaps(lock);
289
290     if (const char* atomicName = textEncodingNameMap->get(name))
291         return atomicName;
292     if (didExtendTextCodecMaps)
293         return nullptr;
294
295     extendTextCodecMaps();
296     didExtendTextCodecMaps = true;
297     return textEncodingNameMap->get(name);
298 }
299
300 template <typename CharacterType>
301 const char* atomicCanonicalTextEncodingName(const CharacterType* characters, size_t length)
302 {
303     char buffer[maxEncodingNameLength + 1];
304     size_t j = 0;
305     for (size_t i = 0; i < length; ++i) {
306         CharacterType c = characters[i];
307         if (j == maxEncodingNameLength)
308             return 0;
309         buffer[j++] = c;
310     }
311     buffer[j] = 0;
312     return atomicCanonicalTextEncodingName(buffer);
313 }
314
315 const char* atomicCanonicalTextEncodingName(const String& alias)
316 {
317     if (!alias.length())
318         return nullptr;
319
320     if (alias.is8Bit())
321         return atomicCanonicalTextEncodingName(alias.characters8(), alias.length());
322
323     return atomicCanonicalTextEncodingName(alias.characters16(), alias.length());
324 }
325
326 bool noExtendedTextEncodingNameUsed()
327 {
328     // If the calling thread did not use extended encoding names, it is fine for it to use a stale false value.
329     return !didExtendTextCodecMaps;
330 }
331
332 String defaultTextEncodingNameForSystemLanguage()
333 {
334 #if PLATFORM(COCOA)
335     String systemEncodingName = CFStringConvertEncodingToIANACharSetName(webDefaultCFStringEncoding());
336
337     // CFStringConvertEncodingToIANACharSetName() returns cp949 for kTextEncodingDOSKorean AKA "extended EUC-KR" AKA windows-949.
338     // ICU uses this name for a different encoding, so we need to change the name to a value that actually gives us windows-949.
339     // In addition, this value must match what is used in Safari, see <rdar://problem/5579292>.
340     // On some OS versions, the result is CP949 (uppercase).
341     if (equalLettersIgnoringASCIICase(systemEncodingName, "cp949"))
342         systemEncodingName = ASCIILiteral("ks_c_5601-1987");
343
344     // CFStringConvertEncodingToIANACharSetName() returns cp874 for kTextEncodingDOSThai, AKA windows-874.
345     // Since "cp874" alias is not standard (https://encoding.spec.whatwg.org/#names-and-labels), map to
346     // "dos-874" instead.
347     if (equalLettersIgnoringASCIICase(systemEncodingName, "cp874"))
348         systemEncodingName = ASCIILiteral("dos-874");
349
350     return systemEncodingName;
351 #else
352     return ASCIILiteral("ISO-8859-1");
353 #endif
354 }
355
356 #ifndef NDEBUG
357 void dumpTextEncodingNameMap()
358 {
359     unsigned size = textEncodingNameMap->size();
360     fprintf(stderr, "Dumping %u entries in WebCore::textEncodingNameMap...\n", size);
361
362     std::lock_guard<StaticLock> lock(encodingRegistryMutex);
363
364     TextEncodingNameMap::const_iterator it = textEncodingNameMap->begin();
365     TextEncodingNameMap::const_iterator end = textEncodingNameMap->end();
366     for (; it != end; ++it)
367         fprintf(stderr, "'%s' => '%s'\n", it->key, it->value);
368 }
369 #endif
370
371 } // namespace WebCore