d440b9de2b15ca0fa755b9e475d8f5563d4dc2d3
[WebKit-https.git] / WebCore / platform / TextEncoding.cpp
1 /*
2  * Copyright (C) 2004, 2006, 2007 Apple Inc. All rights reserved.
3  * Copyright (C) 2006 Alexey Proskuryakov <ap@nypop.com>
4  *
5  * Redistribution and use in source and binary forms, with or without
6  * modification, are permitted provided that the following conditions
7  * are met:
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  * 2. Redistributions in binary form must reproduce the above copyright
11  *    notice, this list of conditions and the following disclaimer in the
12  *    documentation and/or other materials provided with the distribution.
13  *
14  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
15  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
16  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
17  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
18  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
19  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
20  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
21  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
22  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
23  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
24  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
25  */
26
27 #include "config.h"
28 #include "TextEncoding.h"
29
30 #include "CString.h"
31 #include "PlatformString.h"
32 #include "TextCodec.h"
33 #include "TextDecoder.h"
34 #include "TextEncodingRegistry.h"
35 #if USE(ICU_UNICODE)
36 #include <unicode/unorm.h>
37 #elif USE(QT4_UNICODE)
38 #include <QString>
39 #endif
40 #include <wtf/HashSet.h>
41 #include <wtf/OwnPtr.h>
42
43 namespace WebCore {
44
45 static void addEncodingName(HashSet<const char*>& set, const char* name)
46 {
47     const char* atomicName = atomicCanonicalTextEncodingName(name);
48     if (atomicName)
49         set.add(atomicName);
50 }
51
52 TextEncoding::TextEncoding(const char* name)
53     : m_name(atomicCanonicalTextEncodingName(name))
54 {
55 }
56
57 TextEncoding::TextEncoding(const String& name)
58     : m_name(atomicCanonicalTextEncodingName(name.characters(), name.length()))
59 {
60 }
61
62 String TextEncoding::decode(const char* data, size_t length) const
63 {
64     if (!m_name)
65         return String();
66
67     return TextDecoder(*this).decode(data, length, true);
68 }
69
70 CString TextEncoding::encode(const UChar* characters, size_t length, bool allowEntities) const
71 {
72     if (!m_name)
73         return CString();
74
75     if (!length)
76         return "";
77
78 #if USE(ICU_UNICODE)
79     // FIXME: What's the right place to do normalization?
80     // It's a little strange to do it inside the encode function.
81     // Perhaps normalization should be an explicit step done before calling encode.
82
83     const UChar* source = characters;
84     size_t sourceLength = length;
85
86     Vector<UChar> normalizedCharacters;
87
88     UErrorCode err = U_ZERO_ERROR;
89     if (unorm_quickCheck(source, sourceLength, UNORM_NFC, &err) != UNORM_YES) {
90         // First try using the length of the original string, since normalization to NFC rarely increases length.
91         normalizedCharacters.resize(sourceLength);
92         int32_t normalizedLength = unorm_normalize(source, length, UNORM_NFC, 0, normalizedCharacters.data(), length, &err);
93         if (err == U_BUFFER_OVERFLOW_ERROR) {
94             err = U_ZERO_ERROR;
95             normalizedCharacters.resize(normalizedLength);
96             normalizedLength = unorm_normalize(source, length, UNORM_NFC, 0, normalizedCharacters.data(), normalizedLength, &err);
97         }
98         ASSERT(U_SUCCESS(err));
99
100         source = normalizedCharacters.data();
101         sourceLength = normalizedLength;
102     }
103     return newTextCodec(*this)->encode(source, sourceLength, allowEntities);
104 #elif USE(QT4_UNICODE)
105     QString str(reinterpret_cast<const QChar*>(characters), length);
106     str = str.normalized(QString::NormalizationForm_C);
107     return newTextCodec(*this)->encode(str.utf16(), str.length(), allowEntities);
108 #endif
109 }
110
111 bool TextEncoding::usesVisualOrdering() const
112 {
113     if (noExtendedTextEncodingNameUsed())
114         return false;
115
116     static const char* const a = atomicCanonicalTextEncodingName("ISO-8859-8");
117     return m_name == a;
118 }
119
120 bool TextEncoding::isJapanese() const
121 {
122     if (noExtendedTextEncodingNameUsed())
123         return false;
124
125     static HashSet<const char*> set;
126     if (set.isEmpty()) {
127         addEncodingName(set, "x-mac-japanese");
128         addEncodingName(set, "cp932");
129         addEncodingName(set, "JIS_X0201");
130         addEncodingName(set, "JIS_X0208-1983");
131         addEncodingName(set, "JIS_X0208-1990");
132         addEncodingName(set, "JIS_X0212-1990");
133         addEncodingName(set, "JIS_C6226-1978");
134         addEncodingName(set, "Shift_JIS_X0213-2000");
135         addEncodingName(set, "ISO-2022-JP");
136         addEncodingName(set, "ISO-2022-JP-2");
137         addEncodingName(set, "ISO-2022-JP-1");
138         addEncodingName(set, "ISO-2022-JP-3");
139         addEncodingName(set, "EUC-JP");
140         addEncodingName(set, "Shift_JIS");
141     }
142     return m_name && set.contains(m_name);
143 }
144
145 UChar TextEncoding::backslashAsCurrencySymbol() const
146 {
147     if (noExtendedTextEncodingNameUsed())
148         return '\\';
149
150     // The text encodings below treat backslash as a currency symbol.
151     // See http://blogs.msdn.com/michkap/archive/2005/09/17/469941.aspx for more information.
152     static const char* const a = atomicCanonicalTextEncodingName("Shift_JIS_X0213-2000");
153     static const char* const b = atomicCanonicalTextEncodingName("EUC-JP");
154     return (m_name == a || m_name == b) ? 0x00A5 : '\\';
155 }
156
157 const TextEncoding& TextEncoding::closest8BitEquivalent() const
158 {
159     if (*this == UTF16BigEndianEncoding() || *this == UTF16LittleEndianEncoding())
160         return UTF8Encoding();
161     return *this;
162 }
163
164 const TextEncoding& ASCIIEncoding()
165 {
166     static TextEncoding globalASCIIEncoding("ASCII");
167     return globalASCIIEncoding;
168 }
169
170 const TextEncoding& Latin1Encoding()
171 {
172     static TextEncoding globalLatin1Encoding("Latin-1");
173     return globalLatin1Encoding;
174 }
175
176 const TextEncoding& UTF16BigEndianEncoding()
177 {
178     static TextEncoding globalUTF16BigEndianEncoding("UTF-16BE");
179     return globalUTF16BigEndianEncoding;
180 }
181
182 const TextEncoding& UTF16LittleEndianEncoding()
183 {
184     static TextEncoding globalUTF16LittleEndianEncoding("UTF-16LE");
185     return globalUTF16LittleEndianEncoding;
186 }
187
188 const TextEncoding& UTF32BigEndianEncoding()
189 {
190     static TextEncoding globalUTF32BigEndianEncoding("UTF-32BE");
191     return globalUTF32BigEndianEncoding;
192 }
193
194 const TextEncoding& UTF32LittleEndianEncoding()
195 {
196     static TextEncoding globalUTF32LittleEndianEncoding("UTF-32LE");
197     return globalUTF32LittleEndianEncoding;
198 }
199
200
201 const TextEncoding& UTF8Encoding()
202 {
203     static TextEncoding globalUTF8Encoding("UTF-8");
204     return globalUTF8Encoding;
205 }
206
207 const TextEncoding& WindowsLatin1Encoding()
208 {
209     static TextEncoding globalWindowsLatin1Encoding("WinLatin-1");
210     return globalWindowsLatin1Encoding;
211 }
212
213 } // namespace WebCore