JavaScriptCore:
[WebKit-https.git] / WebCore / platform / TextEncoding.cpp
1 /*
2  * Copyright (C) 2004, 2006 Apple Computer, Inc.  All rights reserved.
3  * Copyright (C) 2006 Alexey Proskuryakov <ap@nypop.com>
4  *
5  * Redistribution and use in source and binary forms, with or without
6  * modification, are permitted provided that the following conditions
7  * are met:
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  * 2. Redistributions in binary form must reproduce the above copyright
11  *    notice, this list of conditions and the following disclaimer in the
12  *    documentation and/or other materials provided with the distribution.
13  *
14  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
15  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
16  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
17  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
18  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
19  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
20  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
21  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
22  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
23  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
24  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
25  */
26
27 #include "config.h"
28 #include "TextEncoding.h"
29
30 #include "CString.h"
31 #include "PlatformString.h"
32 #include "TextCodec.h"
33 #include "TextDecoder.h"
34 #include "TextEncodingRegistry.h"
35 #if USE(ICU_UNICODE)
36 #include <unicode/unorm.h>
37 #elif USE(QT4_UNICODE)
38 #include <QString>
39 #endif
40 #include <wtf/HashSet.h>
41 #include <wtf/OwnPtr.h>
42
43 namespace WebCore {
44
45 static void addEncodingName(HashSet<const char*>& set, const char* name)
46 {
47     const char* atomicName = atomicCanonicalTextEncodingName(name);
48     if (atomicName)
49         set.add(atomicName);
50 }
51
52 TextEncoding::TextEncoding(const char* name)
53     : m_name(atomicCanonicalTextEncodingName(name))
54 {
55 }
56
57 TextEncoding::TextEncoding(const String& name)
58     : m_name(atomicCanonicalTextEncodingName(name.characters(), name.length()))
59 {
60 }
61
62 String TextEncoding::decode(const char* data, size_t length) const
63 {
64     if (!m_name)
65         return String();
66
67     return TextDecoder(*this).decode(data, length, true);
68 }
69
70 CString TextEncoding::encode(const UChar* characters, size_t length, bool allowEntities) const
71 {
72     if (!m_name)
73         return CString();
74
75     if (!length)
76         return "";
77
78 #if USE(ICU_UNICODE)
79     // FIXME: What's the right place to do normalization?
80     // It's a little strange to do it inside the encode function.
81     // Perhaps normalization should be an explicit step done before calling encode.
82
83     const UChar* source = characters;
84     size_t sourceLength = length;
85
86     Vector<UChar> normalizedCharacters;
87
88     UErrorCode err = U_ZERO_ERROR;
89     if (unorm_quickCheck(source, sourceLength, UNORM_NFC, &err) != UNORM_YES) {
90         // First try using the length of the original string, since normalization to NFC rarely increases length.
91         normalizedCharacters.resize(sourceLength);
92         int32_t normalizedLength = unorm_normalize(source, length, UNORM_NFC, 0, normalizedCharacters.data(), length, &err);
93         if (err == U_BUFFER_OVERFLOW_ERROR) {
94             err = U_ZERO_ERROR;
95             normalizedCharacters.resize(normalizedLength);
96             normalizedLength = unorm_normalize(source, length, UNORM_NFC, 0, normalizedCharacters.data(), normalizedLength, &err);
97         }
98         ASSERT(U_SUCCESS(err));
99
100         source = normalizedCharacters.data();
101         sourceLength = normalizedLength;
102     }
103     return newTextCodec(*this)->encode(source, sourceLength, allowEntities);
104 #elif USE(QT4_UNICODE)
105     QString str(reinterpret_cast<const QChar*>(characters), length);
106     str = str.normalized(QString::NormalizationForm_C);
107     return newTextCodec(*this)->encode(str.utf16(), str.length(), allowEntities);
108 #endif
109 }
110
111 bool TextEncoding::usesVisualOrdering() const
112 {
113     static const char* const a = atomicCanonicalTextEncodingName("ISO-8859-8");
114     return m_name == a;
115 }
116
117 bool TextEncoding::isJapanese() const
118 {
119     static HashSet<const char*> set;
120     if (set.isEmpty()) {
121         addEncodingName(set, "x-mac-japanese");
122         addEncodingName(set, "cp932");
123         addEncodingName(set, "JIS_X0201");
124         addEncodingName(set, "JIS_X0208-1983");
125         addEncodingName(set, "JIS_X0208-1990");
126         addEncodingName(set, "JIS_X0212-1990");
127         addEncodingName(set, "JIS_C6226-1978");
128         addEncodingName(set, "Shift_JIS_X0213-2000");
129         addEncodingName(set, "ISO-2022-JP");
130         addEncodingName(set, "ISO-2022-JP-2");
131         addEncodingName(set, "ISO-2022-JP-1");
132         addEncodingName(set, "ISO-2022-JP-3");
133         addEncodingName(set, "EUC-JP");
134         addEncodingName(set, "Shift_JIS");
135     }
136     return m_name && set.contains(m_name);
137 }
138
139 UChar TextEncoding::backslashAsCurrencySymbol() const
140 {
141     // The text encodings below treat backslash as a currency symbol.
142     // See http://blogs.msdn.com/michkap/archive/2005/09/17/469941.aspx for more information.
143     static const char* const a = atomicCanonicalTextEncodingName("Shift_JIS_X0213-2000");
144     static const char* const b = atomicCanonicalTextEncodingName("EUC-JP");
145     return (m_name == a || m_name == b) ? 0x00A5 : '\\';
146 }
147
148 const TextEncoding& TextEncoding::closest8BitEquivalent() const
149 {
150     if (*this == UTF16BigEndianEncoding() || *this == UTF16LittleEndianEncoding())
151         return UTF8Encoding();
152     return *this;
153 }
154
155 const TextEncoding& ASCIIEncoding()
156 {
157     static TextEncoding globalASCIIEncoding("ASCII");
158     return globalASCIIEncoding;
159 }
160
161 const TextEncoding& Latin1Encoding()
162 {
163     static TextEncoding globalLatin1Encoding("Latin-1");
164     return globalLatin1Encoding;
165 }
166
167 const TextEncoding& UTF16BigEndianEncoding()
168 {
169     static TextEncoding globalUTF16BigEndianEncoding("UTF-16BE");
170     return globalUTF16BigEndianEncoding;
171 }
172
173 const TextEncoding& UTF16LittleEndianEncoding()
174 {
175     static TextEncoding globalUTF16LittleEndianEncoding("UTF-16LE");
176     return globalUTF16LittleEndianEncoding;
177 }
178
179 const TextEncoding& UTF8Encoding()
180 {
181     static TextEncoding globalUTF8Encoding("UTF-8");
182     return globalUTF8Encoding;
183 }
184
185 const TextEncoding& WindowsLatin1Encoding()
186 {
187     static TextEncoding globalWindowsLatin1Encoding("WinLatin-1");
188     return globalWindowsLatin1Encoding;
189 }
190
191 } // namespace WebCore