2011-02-06 Darin Adler <darin@apple.com>
[WebKit-https.git] / Source / WebCore / platform / text / TextEncodingRegistry.cpp
1 /*
2  * Copyright (C) 2006, 2007 Apple Inc. All rights reserved.
3  * Copyright (C) 2007-2009 Torch Mobile, Inc.
4  *
5  * Redistribution and use in source and binary forms, with or without
6  * modification, are permitted provided that the following conditions
7  * are met:
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  * 2. Redistributions in binary form must reproduce the above copyright
11  *    notice, this list of conditions and the following disclaimer in the
12  *    documentation and/or other materials provided with the distribution.
13  *
14  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
15  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
16  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
17  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
18  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
19  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
20  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
21  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
22  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
23  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
24  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
25  */
26
27 #include "config.h"
28 #include "TextEncodingRegistry.h"
29
30 #include "TextCodecLatin1.h"
31 #include "TextCodecUserDefined.h"
32 #include "TextCodecUTF16.h"
33 #include "TextCodecUTF8.h"
34 #include "TextEncoding.h"
35 #include <wtf/ASCIICType.h>
36 #include <wtf/HashMap.h>
37 #include <wtf/HashSet.h>
38 #include <wtf/StdLibExtras.h>
39 #include <wtf/StringExtras.h>
40 #include <wtf/Threading.h>
41
42 #if USE(ICU_UNICODE)
43 #include "TextCodecICU.h"
44 #endif
45 #if PLATFORM(MAC)
46 #include "TextCodecMac.h"
47 #endif
48 #if PLATFORM(QT)
49 #include "qt/TextCodecQt.h"
50 #endif
51 #if USE(GLIB_UNICODE)
52 #include "gtk/TextCodecGtk.h"
53 #endif
54 #if OS(WINCE) && !PLATFORM(QT)
55 #include "TextCodecWinCE.h"
56 #endif
57
58 using namespace WTF;
59
60 namespace WebCore {
61
62 const size_t maxEncodingNameLength = 63;
63
64 // Hash for all-ASCII strings that does case folding.
65 struct TextEncodingNameHash {
66     static bool equal(const char* s1, const char* s2)
67     {
68         char c1;
69         char c2;
70         do {
71             c1 = *s1++;
72             c2 = *s2++;
73             if (toASCIILower(c1) != toASCIILower(c2))
74                 return false;
75         } while (c1 && c2);
76         return !c1 && !c2;
77     }
78
79     // This algorithm is the one-at-a-time hash from:
80     // http://burtleburtle.net/bob/hash/hashfaq.html
81     // http://burtleburtle.net/bob/hash/doobs.html
82     static unsigned hash(const char* s)
83     {
84         unsigned h = WTF::stringHashingStartValue;
85         for (;;) {
86             char c = *s++;
87             if (!c) {
88                 h += (h << 3);
89                 h ^= (h >> 11);
90                 h += (h << 15);
91                 return h;
92             }
93             h += toASCIILower(c);
94             h += (h << 10); 
95             h ^= (h >> 6); 
96         }
97     }
98
99     static const bool safeToCompareToEmptyOrDeleted = false;
100 };
101
102 struct TextCodecFactory {
103     NewTextCodecFunction function;
104     const void* additionalData;
105     TextCodecFactory(NewTextCodecFunction f = 0, const void* d = 0) : function(f), additionalData(d) { }
106 };
107
108 typedef HashMap<const char*, const char*, TextEncodingNameHash> TextEncodingNameMap;
109 typedef HashMap<const char*, TextCodecFactory> TextCodecMap;
110
111 static Mutex& encodingRegistryMutex()
112 {
113     // We don't have to use AtomicallyInitializedStatic here because
114     // this function is called on the main thread for any page before
115     // it is used in worker threads.
116     DEFINE_STATIC_LOCAL(Mutex, mutex, ());
117     return mutex;
118 }
119
120 static TextEncodingNameMap* textEncodingNameMap;
121 static TextCodecMap* textCodecMap;
122 static bool didExtendTextCodecMaps;
123 static HashSet<const char*>* japaneseEncodings;
124 static HashSet<const char*>* nonBackslashEncodings;
125
126 static const char* const textEncodingNameBlacklist[] = { "UTF-7" };
127
128 #if ERROR_DISABLED
129
130 static inline void checkExistingName(const char*, const char*) { }
131
132 #else
133
134 static void checkExistingName(const char* alias, const char* atomicName)
135 {
136     const char* oldAtomicName = textEncodingNameMap->get(alias);
137     if (!oldAtomicName)
138         return;
139     if (oldAtomicName == atomicName)
140         return;
141     // Keep the warning silent about one case where we know this will happen.
142     if (strcmp(alias, "ISO-8859-8-I") == 0
143             && strcmp(oldAtomicName, "ISO-8859-8-I") == 0
144             && strcasecmp(atomicName, "iso-8859-8") == 0)
145         return;
146     LOG_ERROR("alias %s maps to %s already, but someone is trying to make it map to %s", alias, oldAtomicName, atomicName);
147 }
148
149 #endif
150
151 static bool isUndesiredAlias(const char* alias)
152 {
153     // Reject aliases with version numbers that are supported by some back-ends (such as "ISO_2022,locale=ja,version=0" in ICU).
154     for (const char* p = alias; *p; ++p) {
155         if (*p == ',')
156             return true;
157     }
158     // 8859_1 is known to (at least) ICU, but other browsers don't support this name - and having it caused a compatibility
159     // problem, see bug 43554.
160     if (0 == strcmp(alias, "8859_1"))
161         return true;
162     return false;
163 }
164
165 static void addToTextEncodingNameMap(const char* alias, const char* name)
166 {
167     ASSERT(strlen(alias) <= maxEncodingNameLength);
168     if (isUndesiredAlias(alias))
169         return;
170     const char* atomicName = textEncodingNameMap->get(name);
171     ASSERT(strcmp(alias, name) == 0 || atomicName);
172     if (!atomicName)
173         atomicName = name;
174     checkExistingName(alias, atomicName);
175     textEncodingNameMap->add(alias, atomicName);
176 }
177
178 static void addToTextCodecMap(const char* name, NewTextCodecFunction function, const void* additionalData)
179 {
180     const char* atomicName = textEncodingNameMap->get(name);
181     ASSERT(atomicName);
182     textCodecMap->add(atomicName, TextCodecFactory(function, additionalData));
183 }
184
185 static void pruneBlacklistedCodecs()
186 {
187     for (size_t i = 0; i < WTF_ARRAY_LENGTH(textEncodingNameBlacklist); ++i) {
188         const char* atomicName = textEncodingNameMap->get(textEncodingNameBlacklist[i]);
189         if (!atomicName)
190             continue;
191
192         Vector<const char*> names;
193         TextEncodingNameMap::const_iterator it = textEncodingNameMap->begin();
194         TextEncodingNameMap::const_iterator end = textEncodingNameMap->end();
195         for (; it != end; ++it) {
196             if (it->second == atomicName)
197                 names.append(it->first);
198         }
199
200         size_t length = names.size();
201         for (size_t j = 0; j < length; ++j)
202             textEncodingNameMap->remove(names[j]);
203
204         textCodecMap->remove(atomicName);
205     }
206 }
207
208 static void buildBaseTextCodecMaps()
209 {
210     ASSERT(isMainThread());
211     ASSERT(!textCodecMap);
212     ASSERT(!textEncodingNameMap);
213
214     textCodecMap = new TextCodecMap;
215     textEncodingNameMap = new TextEncodingNameMap;
216
217     TextCodecLatin1::registerEncodingNames(addToTextEncodingNameMap);
218     TextCodecLatin1::registerCodecs(addToTextCodecMap);
219
220     TextCodecUTF8::registerEncodingNames(addToTextEncodingNameMap);
221     TextCodecUTF8::registerCodecs(addToTextCodecMap);
222
223     TextCodecUTF16::registerEncodingNames(addToTextEncodingNameMap);
224     TextCodecUTF16::registerCodecs(addToTextCodecMap);
225
226     TextCodecUserDefined::registerEncodingNames(addToTextEncodingNameMap);
227     TextCodecUserDefined::registerCodecs(addToTextCodecMap);
228
229 #if USE(GLIB_UNICODE)
230     TextCodecGtk::registerBaseEncodingNames(addToTextEncodingNameMap);
231     TextCodecGtk::registerBaseCodecs(addToTextCodecMap);
232 #endif
233 }
234
235 static void addEncodingName(HashSet<const char*>* set, const char* name)
236 {
237     // We must not use atomicCanonicalTextEncodingName() because this function is called in it.
238     const char* atomicName = textEncodingNameMap->get(name);
239     if (atomicName)
240         set->add(atomicName);
241 }
242
243 static void buildQuirksSets()
244 {
245     // FIXME: Having isJapaneseEncoding() and shouldShowBackslashAsCurrencySymbolIn()
246     // and initializing the sets for them in TextEncodingRegistry.cpp look strange.
247
248     ASSERT(!japaneseEncodings);
249     ASSERT(!nonBackslashEncodings);
250
251     japaneseEncodings = new HashSet<const char*>;
252     addEncodingName(japaneseEncodings, "EUC-JP");
253     addEncodingName(japaneseEncodings, "ISO-2022-JP");
254     addEncodingName(japaneseEncodings, "ISO-2022-JP-1");
255     addEncodingName(japaneseEncodings, "ISO-2022-JP-2");
256     addEncodingName(japaneseEncodings, "ISO-2022-JP-3");
257     addEncodingName(japaneseEncodings, "JIS_C6226-1978");
258     addEncodingName(japaneseEncodings, "JIS_X0201");
259     addEncodingName(japaneseEncodings, "JIS_X0208-1983");
260     addEncodingName(japaneseEncodings, "JIS_X0208-1990");
261     addEncodingName(japaneseEncodings, "JIS_X0212-1990");
262     addEncodingName(japaneseEncodings, "Shift_JIS");
263     addEncodingName(japaneseEncodings, "Shift_JIS_X0213-2000");
264     addEncodingName(japaneseEncodings, "cp932");
265     addEncodingName(japaneseEncodings, "x-mac-japanese");
266
267     nonBackslashEncodings = new HashSet<const char*>;
268     // The text encodings below treat backslash as a currency symbol for IE compatibility.
269     // See http://blogs.msdn.com/michkap/archive/2005/09/17/469941.aspx for more information.
270     addEncodingName(nonBackslashEncodings, "x-mac-japanese");
271     addEncodingName(nonBackslashEncodings, "ISO-2022-JP");
272     addEncodingName(nonBackslashEncodings, "EUC-JP");
273     // Shift_JIS_X0213-2000 is not the same encoding as Shift_JIS on Mac. We need to register both of them.
274     addEncodingName(nonBackslashEncodings, "Shift_JIS");
275     addEncodingName(nonBackslashEncodings, "Shift_JIS_X0213-2000");
276 }
277
278 bool isJapaneseEncoding(const char* canonicalEncodingName)
279 {
280     return canonicalEncodingName && japaneseEncodings && japaneseEncodings->contains(canonicalEncodingName);
281 }
282
283 bool shouldShowBackslashAsCurrencySymbolIn(const char* canonicalEncodingName)
284 {
285     return canonicalEncodingName && nonBackslashEncodings && nonBackslashEncodings->contains(canonicalEncodingName);
286 }
287
288 static void extendTextCodecMaps()
289 {
290 #if USE(ICU_UNICODE)
291     TextCodecICU::registerEncodingNames(addToTextEncodingNameMap);
292     TextCodecICU::registerCodecs(addToTextCodecMap);
293 #endif
294
295 #if USE(QT4_UNICODE)
296     TextCodecQt::registerEncodingNames(addToTextEncodingNameMap);
297     TextCodecQt::registerCodecs(addToTextCodecMap);
298 #endif
299
300 #if PLATFORM(MAC)
301     TextCodecMac::registerEncodingNames(addToTextEncodingNameMap);
302     TextCodecMac::registerCodecs(addToTextCodecMap);
303 #endif
304
305 #if USE(GLIB_UNICODE)
306     TextCodecGtk::registerExtendedEncodingNames(addToTextEncodingNameMap);
307     TextCodecGtk::registerExtendedCodecs(addToTextCodecMap);
308 #endif
309
310 #if OS(WINCE) && !PLATFORM(QT)
311     TextCodecWinCE::registerEncodingNames(addToTextEncodingNameMap);
312     TextCodecWinCE::registerCodecs(addToTextCodecMap);
313 #endif
314
315     pruneBlacklistedCodecs();
316     buildQuirksSets();
317 }
318
319 PassOwnPtr<TextCodec> newTextCodec(const TextEncoding& encoding)
320 {
321     MutexLocker lock(encodingRegistryMutex());
322
323     ASSERT(textCodecMap);
324     TextCodecFactory factory = textCodecMap->get(encoding.name());
325     ASSERT(factory.function);
326     return factory.function(encoding, factory.additionalData);
327 }
328
329 const char* atomicCanonicalTextEncodingName(const char* name)
330 {
331     if (!name || !name[0])
332         return 0;
333     if (!textEncodingNameMap)
334         buildBaseTextCodecMaps();
335
336     MutexLocker lock(encodingRegistryMutex());
337
338     if (const char* atomicName = textEncodingNameMap->get(name))
339         return atomicName;
340     if (didExtendTextCodecMaps)
341         return 0;
342     extendTextCodecMaps();
343     didExtendTextCodecMaps = true;
344     return textEncodingNameMap->get(name);
345 }
346
347 const char* atomicCanonicalTextEncodingName(const UChar* characters, size_t length)
348 {
349     char buffer[maxEncodingNameLength + 1];
350     size_t j = 0;
351     for (size_t i = 0; i < length; ++i) {
352         UChar c = characters[i];
353         if (j == maxEncodingNameLength)
354             return 0;
355         buffer[j++] = c;
356     }
357     buffer[j] = 0;
358     return atomicCanonicalTextEncodingName(buffer);
359 }
360
361 bool noExtendedTextEncodingNameUsed()
362 {
363     // If the calling thread did not use extended encoding names, it is fine for it to use a stale false value.
364     return !didExtendTextCodecMaps;
365 }
366
367 #ifndef NDEBUG
368 void dumpTextEncodingNameMap()
369 {
370     unsigned size = textEncodingNameMap->size();
371     fprintf(stderr, "Dumping %u entries in WebCore::textEncodingNameMap...\n", size);
372
373     MutexLocker lock(encodingRegistryMutex());
374
375     TextEncodingNameMap::const_iterator it = textEncodingNameMap->begin();
376     TextEncodingNameMap::const_iterator end = textEncodingNameMap->end();
377     for (; it != end; ++it)
378         fprintf(stderr, "'%s' => '%s'\n", it->first, it->second);
379 }
380 #endif
381
382 } // namespace WebCore