23f82cb14cab8c33f62b810ff95a5e8887f2b5c8
[WebKit-https.git] / WebCore / platform / TextDecoder.cpp
1 /*
2  * Copyright (C) 2004, 2006 Apple Computer, Inc.  All rights reserved.
3  *
4  * Redistribution and use in source and binary forms, with or without
5  * modification, are permitted provided that the following conditions
6  * are met:
7  * 1. Redistributions of source code must retain the above copyright
8  *    notice, this list of conditions and the following disclaimer.
9  * 2. Redistributions in binary form must reproduce the above copyright
10  *    notice, this list of conditions and the following disclaimer in the
11  *    documentation and/or other materials provided with the distribution.
12  *
13  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
14  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
15  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
16  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
17  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
18  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
19  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
20  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
21  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
22  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
23  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
24  */
25
26 #include "config.h"
27 #include "TextDecoder.h"
28
29 #include "TextEncodingRegistry.h"
30
31 // FIXME: Would be nice to also handle BOM for UTF-7 and UTF-32.
32
33 namespace WebCore {
34
35 TextDecoder::TextDecoder(const TextEncoding& encoding)
36     : m_encoding(encoding)
37     , m_checkedForBOM(false)
38     , m_numBufferedBytes(0)
39 {
40 }
41
42 void TextDecoder::reset(const TextEncoding& encoding)
43 {
44     m_encoding = encoding;
45     m_codec.clear();
46     m_checkedForBOM = false;
47     m_numBufferedBytes = 0;
48 }
49
50 String TextDecoder::checkForBOM(const char* data, size_t length, bool flush)
51 {
52     // Check to see if we found a BOM.
53     size_t numBufferedBytes = m_numBufferedBytes;
54     size_t buf1Len = numBufferedBytes;
55     size_t buf2Len = length;
56     const unsigned char* buf1 = m_bufferedBytes;
57     const unsigned char* buf2 = reinterpret_cast<const unsigned char*>(data);
58     unsigned char c1 = buf1Len ? (--buf1Len, *buf1++) : buf2Len ? (--buf2Len, *buf2++) : 0;
59     unsigned char c2 = buf1Len ? (--buf1Len, *buf1++) : buf2Len ? (--buf2Len, *buf2++) : 0;
60     unsigned char c3 = buf2Len ? (--buf2Len, *buf2++) : 0;
61
62     const TextEncoding* encodingConsideringBOM = &m_encoding;
63     if (c1 == 0xFF && c2 == 0xFE)
64         encodingConsideringBOM = &UTF16LittleEndianEncoding();
65     else if (c1 == 0xFE && c2 == 0xFF)
66         encodingConsideringBOM = &UTF16BigEndianEncoding();
67     else if (c1 == 0xEF && c2 == 0xBB && c3 == 0xBF)
68         encodingConsideringBOM = &UTF8Encoding();
69     else if (numBufferedBytes + length <= sizeof(m_bufferedBytes) && !flush) {
70         // Continue to look for the BOM.
71         memcpy(&m_bufferedBytes[numBufferedBytes], data, length);
72         m_numBufferedBytes += length;
73         return "";
74     }
75
76     // Done checking for BOM.
77     m_codec.set(newTextCodec(*encodingConsideringBOM).release());
78     if (!m_codec)
79         return String();
80     m_checkedForBOM = true;
81
82     // Handle case where we have some buffered bytes to deal with.
83     if (numBufferedBytes) {
84         char bufferedBytes[sizeof(m_bufferedBytes)];
85         memcpy(bufferedBytes, m_bufferedBytes, numBufferedBytes);
86         m_numBufferedBytes = 0;
87         return m_codec->decode(bufferedBytes, numBufferedBytes, false)
88             + m_codec->decode(data, length, flush);
89     }
90
91     return m_codec->decode(data, length, flush);
92 }
93
94 } // namespace WebCore