Reviewed by Darin.
[WebKit-https.git] / WebCore / platform / mac / TextEncodingMac.cpp
1 /*
2  * Copyright (C) 2004, 2006 Apple Computer, Inc.  All rights reserved.
3  *
4  * Redistribution and use in source and binary forms, with or without
5  * modification, are permitted provided that the following conditions
6  * are met:
7  * 1. Redistributions of source code must retain the above copyright
8  *    notice, this list of conditions and the following disclaimer.
9  * 2. Redistributions in binary form must reproduce the above copyright
10  *    notice, this list of conditions and the following disclaimer in the
11  *    documentation and/or other materials provided with the distribution.
12  *
13  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
14  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
15  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
16  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
17  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
18  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
19  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
20  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
21  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
22  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
23  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
24  */
25
26 #include "config.h"
27 #include "TextEncoding.h"
28
29 #include <kxmlcore/Assertions.h>
30 #include <kxmlcore/HashSet.h>
31 #include "QString.h"
32 #include "StreamingTextDecoder.h"
33
34 namespace WebCore {
35
36 static inline TextEncodingID effectiveEncoding(TextEncodingID encoding)
37 {
38     if (encoding == Latin1Encoding || encoding == ASCIIEncoding)
39         return WinLatin1Encoding;
40     return encoding;
41 }
42
43 // We'd like to use ICU for this on OS X as well eventually, but we need to make sure
44 // it covers all the encodings that we need
45 QCString TextEncoding::fromUnicode(const QString &qcs, bool allowEntities) const
46 {
47     // FIXME: We should really use the same API in both directions.
48     // Currently we use ICU to decode and CFString to encode; it would be better to encode with ICU too.
49     
50     TextEncodingID encoding = effectiveEncoding(m_encodingID);
51
52     // FIXME: Since there's no "force ASCII range" mode in CFString, we change the backslash into a yen sign.
53     // Encoding will change the yen sign back into a backslash.
54     QString copy = qcs;
55     copy.replace(QChar('\\'), backslashAsCurrencySymbol());
56     CFStringRef cfs = copy.getCFString();
57     
58     CFIndex startPos = 0;
59     CFIndex charactersLeft = CFStringGetLength(cfs);
60     QCString result(1); // for trailng zero
61
62     while (charactersLeft > 0) {
63         CFRange range = CFRangeMake(startPos, charactersLeft);
64         CFIndex bufferLength;
65         CFStringGetBytes(cfs, range, encoding, allowEntities ? 0 : '?', false, NULL, 0x7FFFFFFF, &bufferLength);
66         
67         QCString chunk(bufferLength + 1);
68         CFIndex charactersConverted = CFStringGetBytes(cfs, range, encoding, allowEntities ? 0 : '?', false, reinterpret_cast<unsigned char *>(chunk.data()), bufferLength, &bufferLength);
69         chunk[bufferLength] = 0;
70         result.append(chunk);
71         
72         if (charactersConverted != charactersLeft) {
73             // FIXME: support surrogate pairs
74             UniChar badChar = CFStringGetCharacterAtIndex(cfs, startPos + charactersConverted);
75             char buf[16];
76             sprintf(buf, "&#%u;", badChar);
77             result.append(buf);
78             
79             ++charactersConverted;
80         }
81         
82         startPos += charactersConverted;
83         charactersLeft -= charactersConverted;
84     }
85     return result;
86 }
87
88 } // namespace WebCore