HTMLPreloadScanner should understand the <base> element
[WebKit-https.git] / Source / WebCore / html / parser / HTMLPreloadScanner.cpp
1 /*
2  * Copyright (C) 2008 Apple Inc. All Rights Reserved.
3  * Copyright (C) 2009 Torch Mobile, Inc. http://www.torchmobile.com/
4  * Copyright (C) 2010 Google Inc. All Rights Reserved.
5  *
6  * Redistribution and use in source and binary forms, with or without
7  * modification, are permitted provided that the following conditions
8  * are met:
9  * 1. Redistributions of source code must retain the above copyright
10  *    notice, this list of conditions and the following disclaimer.
11  * 2. Redistributions in binary form must reproduce the above copyright
12  *    notice, this list of conditions and the following disclaimer in the
13  *    documentation and/or other materials provided with the distribution.
14  *
15  * THIS SOFTWARE IS PROVIDED BY APPLE INC. ``AS IS'' AND ANY
16  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
17  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
18  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE INC. OR
19  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
20  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
21  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
22  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
23  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
24  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
25  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
26  */
27
28 #include "config.h"
29 #include "HTMLPreloadScanner.h"
30
31 #include "CachedResourceLoader.h"
32 #include "Document.h"
33 #include "InputType.h"
34 #include "HTMLDocumentParser.h"
35 #include "HTMLTokenizer.h"
36 #include "HTMLNames.h"
37 #include "HTMLParserIdioms.h"
38 #include "LinkRelAttribute.h"
39 #include "MediaList.h"
40 #include "MediaQueryEvaluator.h"
41
42 namespace WebCore {
43
44 using namespace HTMLNames;
45
46 namespace {
47
48 class PreloadTask {
49 public:
50     explicit PreloadTask(const HTMLToken& token)
51         : m_tagName(token.name().data(), token.name().size())
52         , m_linkIsStyleSheet(false)
53         , m_linkMediaAttributeIsScreen(true)
54         , m_inputIsImage(false)
55     {
56         processAttributes(token.attributes());
57     }
58
59     void processAttributes(const HTMLToken::AttributeList& attributes)
60     {
61         if (m_tagName != imgTag
62             && m_tagName != inputTag
63             && m_tagName != linkTag
64             && m_tagName != scriptTag
65             && m_tagName != baseTag)
66             return;
67
68         for (HTMLToken::AttributeList::const_iterator iter = attributes.begin();
69              iter != attributes.end(); ++iter) {
70             AtomicString attributeName(iter->m_name.data(), iter->m_name.size());
71             String attributeValue(iter->m_value.data(), iter->m_value.size());
72
73             if (attributeName == charsetAttr)
74                 m_charset = attributeValue;
75
76             if (m_tagName == scriptTag || m_tagName == imgTag) {
77                 if (attributeName == srcAttr)
78                     setUrlToLoad(attributeValue);
79             } else if (m_tagName == linkTag) {
80                 if (attributeName == hrefAttr)
81                     setUrlToLoad(attributeValue);
82                 else if (attributeName == relAttr)
83                     m_linkIsStyleSheet = relAttributeIsStyleSheet(attributeValue);
84                 else if (attributeName == mediaAttr)
85                     m_linkMediaAttributeIsScreen = linkMediaAttributeIsScreen(attributeValue);
86             } else if (m_tagName == inputTag) {
87                 if (attributeName == srcAttr)
88                     setUrlToLoad(attributeValue);
89                 else if (attributeName == typeAttr)
90                     m_inputIsImage = equalIgnoringCase(attributeValue, InputTypeNames::image());
91             } else if (m_tagName == baseTag) {
92                 if (attributeName == hrefAttr)
93                     m_baseElementHref = stripLeadingAndTrailingHTMLSpaces(attributeValue);
94             }
95         }
96     }
97
98     static bool relAttributeIsStyleSheet(const String& attributeValue)
99     {
100         LinkRelAttribute rel(attributeValue);
101         return rel.m_isStyleSheet && !rel.m_isAlternate && rel.m_iconType == InvalidIcon && !rel.m_isDNSPrefetch;
102     }
103
104     static bool linkMediaAttributeIsScreen(const String& attributeValue)
105     {
106         if (attributeValue.isEmpty())
107             return true;
108         RefPtr<MediaList> mediaList = MediaList::createAllowingDescriptionSyntax(attributeValue);
109     
110         // Only preload screen media stylesheets. Used this way, the evaluator evaluates to true for any 
111         // rules containing complex queries (full evaluation is possible but it requires a frame and a style selector which
112         // may be problematic here).
113         MediaQueryEvaluator mediaQueryEvaluator("screen");
114         return mediaQueryEvaluator.eval(mediaList.get());
115     }
116
117     void setUrlToLoad(const String& attributeValue)
118     {
119         // We only respect the first src/href, per HTML5:
120         // http://www.whatwg.org/specs/web-apps/current-work/multipage/tokenization.html#attribute-name-state
121         if (!m_urlToLoad.isEmpty())
122             return;
123         m_urlToLoad = stripLeadingAndTrailingHTMLSpaces(attributeValue);
124     }
125
126     void preload(Document* document, bool scanningBody, const KURL& baseURL)
127     {
128         if (m_urlToLoad.isEmpty())
129             return;
130
131         CachedResourceLoader* cachedResourceLoader = document->cachedResourceLoader();
132         ResourceRequest request = document->completeURL(m_urlToLoad, baseURL);
133         if (m_tagName == scriptTag)
134             cachedResourceLoader->preload(CachedResource::Script, request, m_charset, scanningBody);
135         else if (m_tagName == imgTag || (m_tagName == inputTag && m_inputIsImage))
136             cachedResourceLoader->preload(CachedResource::ImageResource, request, String(), scanningBody);
137         else if (m_tagName == linkTag && m_linkIsStyleSheet && m_linkMediaAttributeIsScreen) 
138             cachedResourceLoader->preload(CachedResource::CSSStyleSheet, request, m_charset, scanningBody);
139     }
140
141     const AtomicString& tagName() const { return m_tagName; }
142     const String& baseElementHref() const { return m_baseElementHref; }
143
144 private:
145     AtomicString m_tagName;
146     String m_urlToLoad;
147     String m_charset;
148     String m_baseElementHref;
149     bool m_linkIsStyleSheet;
150     bool m_linkMediaAttributeIsScreen;
151     bool m_inputIsImage;
152 };
153
154 } // namespace
155
156 HTMLPreloadScanner::HTMLPreloadScanner(Document* document)
157     : m_document(document)
158     , m_cssScanner(document)
159     , m_tokenizer(HTMLTokenizer::create(HTMLDocumentParser::usePreHTML5ParserQuirks(document)))
160     , m_bodySeen(false)
161     , m_inStyle(false)
162 {
163 }
164
165 void HTMLPreloadScanner::appendToEnd(const SegmentedString& source)
166 {
167     m_source.append(source);
168 }
169
170 void HTMLPreloadScanner::scan()
171 {
172     // When we start scanning, our best prediction of the baseElementURL is the real one!
173     m_predictedBaseElementURL = m_document->baseElementURL();
174
175     // FIXME: We should save and re-use these tokens in HTMLDocumentParser if
176     // the pending script doesn't end up calling document.write.
177     while (m_tokenizer->nextToken(m_source, m_token)) {
178         processToken();
179         m_token.clear();
180     }
181 }
182
183 void HTMLPreloadScanner::processToken()
184 {
185     if (m_inStyle) {
186         if (m_token.type() == HTMLTokenTypes::Character)
187             m_cssScanner.scan(m_token, scanningBody());
188         else if (m_token.type() == HTMLTokenTypes::EndTag) {
189             m_inStyle = false;
190             m_cssScanner.reset();
191         }
192     }
193
194     if (m_token.type() != HTMLTokenTypes::StartTag)
195         return;
196
197     PreloadTask task(m_token);
198     m_tokenizer->updateStateFor(task.tagName(), m_document->frame());
199
200     if (task.tagName() == bodyTag)
201         m_bodySeen = true;
202
203     if (task.tagName() == styleTag)
204         m_inStyle = true;
205
206     if (task.tagName() == baseTag)
207         updatePredictedBaseElementURL(KURL(m_document->url(), task.baseElementHref()));
208
209     task.preload(m_document, scanningBody(), m_predictedBaseElementURL.isEmpty() ? m_document->baseURL() : m_predictedBaseElementURL);
210 }
211
212 bool HTMLPreloadScanner::scanningBody() const
213 {
214     return m_document->body() || m_bodySeen;
215 }
216
217 void HTMLPreloadScanner::updatePredictedBaseElementURL(const KURL& baseElementURL)
218 {
219     // The first <base> element is the one that wins.
220     if (!m_predictedBaseElementURL.isEmpty())
221         return;
222     m_predictedBaseElementURL = baseElementURL;
223 }
224
225 }