Reviewed by Darin.
[WebKit-https.git] / WebCore / platform / mac / TextEncodingMac.cpp
1 /*
2  * Copyright (C) 2004, 2006 Apple Computer, Inc.  All rights reserved.
3  *
4  * Redistribution and use in source and binary forms, with or without
5  * modification, are permitted provided that the following conditions
6  * are met:
7  * 1. Redistributions of source code must retain the above copyright
8  *    notice, this list of conditions and the following disclaimer.
9  * 2. Redistributions in binary form must reproduce the above copyright
10  *    notice, this list of conditions and the following disclaimer in the
11  *    documentation and/or other materials provided with the distribution.
12  *
13  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
14  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
15  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
16  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
17  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
18  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
19  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
20  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
21  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
22  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
23  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
24  */
25
26 #include "config.h"
27 #include "TextEncoding.h"
28
29 #include <kxmlcore/Assertions.h>
30 #include <kxmlcore/HashSet.h>
31 #include "QString.h"
32 #include "StreamingTextDecoder.h"
33
34 namespace WebCore {
35
36 static inline TextEncodingID effectiveEncoding(TextEncodingID encoding)
37 {
38     if (encoding == Latin1Encoding || encoding == ASCIIEncoding)
39         return WinLatin1Encoding;
40     return encoding;
41 }
42
43 QCString TextEncoding::fromUnicode(const QString &qcs, bool allowEntities) const
44 {
45     // FIXME: We should really use the same API in both directions.
46     // Currently we use ICU to decode and CFString to encode; it would be better to encode with ICU too.
47     
48     TextEncodingID encoding = effectiveEncoding(m_encodingID);
49
50     // FIXME: Since there's no "force ASCII range" mode in CFString, we change the backslash into a yen sign.
51     // Encoding will change the yen sign back into a backslash.
52     QString copy = qcs;
53     copy.replace(QChar('\\'), backslashAsCurrencySymbol());
54     CFStringRef cfs = copy.getCFString();
55     
56     CFIndex startPos = 0;
57     CFIndex charactersLeft = CFStringGetLength(cfs);
58     QCString result(1); // for trailng zero
59
60     while (charactersLeft > 0) {
61         CFRange range = CFRangeMake(startPos, charactersLeft);
62         CFIndex bufferLength;
63         CFStringGetBytes(cfs, range, encoding, allowEntities ? 0 : '?', false, NULL, 0x7FFFFFFF, &bufferLength);
64         
65         QCString chunk(bufferLength + 1);
66         CFIndex charactersConverted = CFStringGetBytes(cfs, range, encoding, allowEntities ? 0 : '?', false, reinterpret_cast<unsigned char *>(chunk.data()), bufferLength, &bufferLength);
67         chunk[bufferLength] = 0;
68         result.append(chunk);
69         
70         if (charactersConverted != charactersLeft) {
71             // FIXME: support surrogate pairs
72             UniChar badChar = CFStringGetCharacterAtIndex(cfs, startPos + charactersConverted);
73             char buf[16];
74             sprintf(buf, "&#%u;", badChar);
75             result.append(buf);
76             
77             ++charactersConverted;
78         }
79         
80         startPos += charactersConverted;
81         charactersLeft -= charactersConverted;
82     }
83     return result;
84 }
85
86 } // namespace WebCore