f457b16425edacff244d7beb0e35df97ce1cef6d
[WebKit-https.git] / Source / WebCore / platform / text / TextEncoding.cpp
1 /*
2  * Copyright (C) 2004, 2006, 2007, 2008, 2009 Apple Inc. All rights reserved.
3  * Copyright (C) 2006 Alexey Proskuryakov <ap@nypop.com>
4  * Copyright (C) 2007-2009 Torch Mobile, Inc.
5  *
6  * Redistribution and use in source and binary forms, with or without
7  * modification, are permitted provided that the following conditions
8  * are met:
9  * 1. Redistributions of source code must retain the above copyright
10  *    notice, this list of conditions and the following disclaimer.
11  * 2. Redistributions in binary form must reproduce the above copyright
12  *    notice, this list of conditions and the following disclaimer in the
13  *    documentation and/or other materials provided with the distribution.
14  *
15  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
16  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
17  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
18  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
19  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
20  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
21  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
22  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
23  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
24  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
25  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
26  */
27
28 #include "config.h"
29 #include "TextEncoding.h"
30
31 #include "TextCodec.h"
32 #include "TextEncodingRegistry.h"
33 #include <wtf/OwnPtr.h>
34 #include <wtf/StdLibExtras.h>
35 #include <wtf/text/CString.h>
36 #include <wtf/text/WTFString.h>
37
38 #if USE(ICU_UNICODE)
39 #include <unicode/unorm.h>
40 #endif
41
42 namespace WebCore {
43
44 static const TextEncoding& UTF7Encoding()
45 {
46     static TextEncoding globalUTF7Encoding("UTF-7");
47     return globalUTF7Encoding;
48 }
49
50 TextEncoding::TextEncoding(const char* name)
51     : m_name(atomicCanonicalTextEncodingName(name))
52     , m_backslashAsCurrencySymbol(backslashAsCurrencySymbol())
53 {
54 }
55
56 TextEncoding::TextEncoding(const String& name)
57     : m_name(atomicCanonicalTextEncodingName(name))
58     , m_backslashAsCurrencySymbol(backslashAsCurrencySymbol())
59 {
60 }
61
62 String TextEncoding::decode(const char* data, size_t length, bool stopOnError, bool& sawError) const
63 {
64     if (!m_name)
65         return String();
66
67     return newTextCodec(*this)->decode(data, length, true, stopOnError, sawError);
68 }
69
70 CString TextEncoding::encode(const UChar* characters, size_t length, UnencodableHandling handling) const
71 {
72     if (!m_name)
73         return CString();
74
75     if (!length)
76         return "";
77
78 #if USE(ICU_UNICODE)
79     // FIXME: What's the right place to do normalization?
80     // It's a little strange to do it inside the encode function.
81     // Perhaps normalization should be an explicit step done before calling encode.
82
83     const UChar* source = characters;
84     size_t sourceLength = length;
85
86     Vector<UChar> normalizedCharacters;
87
88     UErrorCode err = U_ZERO_ERROR;
89     if (unorm_quickCheck(source, sourceLength, UNORM_NFC, &err) != UNORM_YES) {
90         // First try using the length of the original string, since normalization to NFC rarely increases length.
91         normalizedCharacters.grow(sourceLength);
92         int32_t normalizedLength = unorm_normalize(source, length, UNORM_NFC, 0, normalizedCharacters.data(), length, &err);
93         if (err == U_BUFFER_OVERFLOW_ERROR) {
94             err = U_ZERO_ERROR;
95             normalizedCharacters.resize(normalizedLength);
96             normalizedLength = unorm_normalize(source, length, UNORM_NFC, 0, normalizedCharacters.data(), normalizedLength, &err);
97         }
98         ASSERT(U_SUCCESS(err));
99
100         source = normalizedCharacters.data();
101         sourceLength = normalizedLength;
102     }
103     return newTextCodec(*this)->encode(source, sourceLength, handling);
104 #elif OS(WINDOWS) && USE(WCHAR_UNICODE)
105     // normalization will be done by Windows CE API
106     OwnPtr<TextCodec> textCodec = newTextCodec(*this);
107     return textCodec.get() ? textCodec->encode(characters, length, handling) : CString();
108 #endif
109 }
110
111 const char* TextEncoding::domName() const
112 {
113     if (noExtendedTextEncodingNameUsed())
114         return m_name;
115
116     // We treat EUC-KR as windows-949 (its superset), but need to expose 
117     // the name 'EUC-KR' because the name 'windows-949' is not recognized by
118     // most Korean web servers even though they do use the encoding
119     // 'windows-949' with the name 'EUC-KR'. 
120     // FIXME: This is not thread-safe. At the moment, this function is
121     // only accessed in a single thread, but eventually has to be made
122     // thread-safe along with usesVisualOrdering().
123     static const char* const a = atomicCanonicalTextEncodingName("windows-949");
124     if (m_name == a)
125         return "EUC-KR";
126     return m_name;
127 }
128
129 bool TextEncoding::usesVisualOrdering() const
130 {
131     if (noExtendedTextEncodingNameUsed())
132         return false;
133
134     static const char* const a = atomicCanonicalTextEncodingName("ISO-8859-8");
135     return m_name == a;
136 }
137
138 bool TextEncoding::isJapanese() const
139 {
140     return isJapaneseEncoding(m_name);
141 }
142
143 UChar TextEncoding::backslashAsCurrencySymbol() const
144 {
145     return shouldShowBackslashAsCurrencySymbolIn(m_name) ? 0x00A5 : '\\';
146 }
147
148 bool TextEncoding::isNonByteBasedEncoding() const
149 {
150     if (noExtendedTextEncodingNameUsed()) {
151         return *this == UTF16LittleEndianEncoding()
152             || *this == UTF16BigEndianEncoding();
153     }
154
155     return *this == UTF16LittleEndianEncoding()
156         || *this == UTF16BigEndianEncoding()
157         || *this == UTF32BigEndianEncoding()
158         || *this == UTF32LittleEndianEncoding();
159 }
160
161 bool TextEncoding::isUTF7Encoding() const
162 {
163     if (noExtendedTextEncodingNameUsed())
164         return false;
165
166     return *this == UTF7Encoding();
167 }
168
169 const TextEncoding& TextEncoding::closestByteBasedEquivalent() const
170 {
171     if (isNonByteBasedEncoding())
172         return UTF8Encoding();
173     return *this; 
174 }
175
176 // HTML5 specifies that UTF-8 be used in form submission when a form is 
177 // is a part of a document in UTF-16 probably because UTF-16 is not a 
178 // byte-based encoding and can contain 0x00. By extension, the same
179 // should be done for UTF-32. In case of UTF-7, it is a byte-based encoding,
180 // but it's fraught with problems and we'd rather steer clear of it.
181 const TextEncoding& TextEncoding::encodingForFormSubmission() const
182 {
183     if (isNonByteBasedEncoding() || isUTF7Encoding())
184         return UTF8Encoding();
185     return *this;
186 }
187
188 const TextEncoding& ASCIIEncoding()
189 {
190     static TextEncoding globalASCIIEncoding("ASCII");
191     return globalASCIIEncoding;
192 }
193
194 const TextEncoding& Latin1Encoding()
195 {
196     static TextEncoding globalLatin1Encoding("latin1");
197     return globalLatin1Encoding;
198 }
199
200 const TextEncoding& UTF16BigEndianEncoding()
201 {
202     static TextEncoding globalUTF16BigEndianEncoding("UTF-16BE");
203     return globalUTF16BigEndianEncoding;
204 }
205
206 const TextEncoding& UTF16LittleEndianEncoding()
207 {
208     static TextEncoding globalUTF16LittleEndianEncoding("UTF-16LE");
209     return globalUTF16LittleEndianEncoding;
210 }
211
212 const TextEncoding& UTF32BigEndianEncoding()
213 {
214     static TextEncoding globalUTF32BigEndianEncoding("UTF-32BE");
215     return globalUTF32BigEndianEncoding;
216 }
217
218 const TextEncoding& UTF32LittleEndianEncoding()
219 {
220     static TextEncoding globalUTF32LittleEndianEncoding("UTF-32LE");
221     return globalUTF32LittleEndianEncoding;
222 }
223
224 const TextEncoding& UTF8Encoding()
225 {
226     static TextEncoding globalUTF8Encoding("UTF-8");
227     ASSERT(globalUTF8Encoding.isValid());
228     return globalUTF8Encoding;
229 }
230
231 const TextEncoding& WindowsLatin1Encoding()
232 {
233     static TextEncoding globalWindowsLatin1Encoding("WinLatin-1");
234     return globalWindowsLatin1Encoding;
235 }
236
237 } // namespace WebCore