Reviewed by Darin.
[WebKit-https.git] / WebCore / platform / mac / TextEncodingMac.cpp
1 /*
2  * Copyright (C) 2004, 2006 Apple Computer, Inc.  All rights reserved.
3  *
4  * Redistribution and use in source and binary forms, with or without
5  * modification, are permitted provided that the following conditions
6  * are met:
7  * 1. Redistributions of source code must retain the above copyright
8  *    notice, this list of conditions and the following disclaimer.
9  * 2. Redistributions in binary form must reproduce the above copyright
10  *    notice, this list of conditions and the following disclaimer in the
11  *    documentation and/or other materials provided with the distribution.
12  *
13  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
14  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
15  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
16  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
17  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
18  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
19  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
20  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
21  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
22  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
23  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
24  */
25
26 #include "config.h"
27 #include "TextEncoding.h"
28
29 #include <kxmlcore/Assertions.h>
30 #include <kxmlcore/HashSet.h>
31 #include "StreamingTextDecoder.h"
32
33 namespace WebCore {
34
35 static inline TextEncodingID effectiveEncoding(TextEncodingID encoding)
36 {
37     if (encoding == Latin1Encoding || encoding == ASCIIEncoding)
38         return WinLatin1Encoding;
39     return encoding;
40 }
41
42 // We'd like to use ICU for this on OS X as well eventually, but we need to make sure
43 // it covers all the encodings that we need
44 DeprecatedCString TextEncoding::fromUnicode(const DeprecatedString &qcs, bool allowEntities) const
45 {
46     // FIXME: We should really use the same API in both directions.
47     // Currently we use ICU to decode and CFString to encode; it would be better to encode with ICU too.
48     
49     TextEncodingID encoding = effectiveEncoding(m_encodingID);
50
51     // FIXME: Since there's no "force ASCII range" mode in CFString, we change the backslash into a yen sign.
52     // Encoding will change the yen sign back into a backslash.
53     DeprecatedString copy = qcs;
54     copy.replace(QChar('\\'), backslashAsCurrencySymbol());
55     CFStringRef cfs = copy.getCFString();
56     CFMutableStringRef cfms = CFStringCreateMutableCopy(0, 0, cfs); // in rare cases, normalization can make the string longer, thus no limit on its length
57     CFStringNormalize(cfms, kCFStringNormalizationFormC);
58     
59     CFIndex startPos = 0;
60     CFIndex charactersLeft = CFStringGetLength(cfms);
61     DeprecatedCString result(1); // for trailing zero
62
63     while (charactersLeft > 0) {
64         CFRange range = CFRangeMake(startPos, charactersLeft);
65         CFIndex bufferLength;
66         CFStringGetBytes(cfms, range, encoding, allowEntities ? 0 : '?', false, NULL, 0x7FFFFFFF, &bufferLength);
67         
68         DeprecatedCString chunk(bufferLength + 1);
69         unsigned char *buffer = reinterpret_cast<unsigned char *>(chunk.data());
70         CFIndex charactersConverted = CFStringGetBytes(cfms, range, encoding, allowEntities ? 0 : '?', false, buffer, bufferLength, &bufferLength);
71         buffer[bufferLength] = 0;
72         result.append(chunk);
73         
74         if (charactersConverted != charactersLeft) {
75             unsigned int badChar = CFStringGetCharacterAtIndex(cfms, startPos + charactersConverted);
76             ++charactersConverted;
77
78             if ((badChar & 0xfc00) == 0xd800 &&     // is high surrogate
79                   charactersConverted != charactersLeft) {
80                 UniChar low = CFStringGetCharacterAtIndex(cfms, startPos + charactersConverted);
81                 if ((low & 0xfc00) == 0xdc00) {     // is low surrogate
82                     badChar <<= 10;
83                     badChar += low;
84                     badChar += 0x10000 - (0xd800 << 10) - 0xdc00;
85                     ++charactersConverted;
86                 }
87             }
88             char buf[16];
89             sprintf(buf, "&#%u;", badChar);
90             result.append(buf);
91         }
92         
93         startPos += charactersConverted;
94         charactersLeft -= charactersConverted;
95     }
96     CFRelease(cfms);
97     return result;
98 }
99
100 } // namespace WebCore