a0a4a0bf6942787a7143d2c108ecdcbd4bb299c5
[WebKit-https.git] / Source / WebCore / editing / cocoa / WebContentReaderCocoa.mm
1 /*
2  * Copyright (C) 2006-2017 Apple Inc. All rights reserved.
3  *
4  * Redistribution and use in source and binary forms, with or without
5  * modification, are permitted provided that the following conditions
6  * are met:
7  * 1. Redistributions of source code must retain the above copyright
8  *    notice, this list of conditions and the following disclaimer.
9  * 2. Redistributions in binary form must reproduce the above copyright
10  *    notice, this list of conditions and the following disclaimer in the
11  *    documentation and/or other materials provided with the distribution.
12  *
13  * THIS SOFTWARE IS PROVIDED BY APPLE INC. ``AS IS'' AND ANY
14  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
15  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
16  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE INC. OR
17  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
18  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
19  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
20  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
21  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
22  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
23  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
24  */
25
26 #import "config.h"
27 #import "WebContentReader.h"
28
29 #import "ArchiveResource.h"
30 #import "Blob.h"
31 #import "BlobURL.h"
32 #import "CachedResourceLoader.h"
33 #import "DOMURL.h"
34 #import "DeprecatedGlobalSettings.h"
35 #import "Document.h"
36 #import "DocumentFragment.h"
37 #import "DocumentLoader.h"
38 #import "File.h"
39 #import "Frame.h"
40 #import "FrameLoader.h"
41 #import "FrameLoaderClient.h"
42 #import "HTMLAttachmentElement.h"
43 #import "HTMLBodyElement.h"
44 #import "HTMLIFrameElement.h"
45 #import "HTMLImageElement.h"
46 #import "HTMLObjectElement.h"
47 #import "LegacyWebArchive.h"
48 #import "MainFrame.h"
49 #import "Page.h"
50 #import "PublicURLManager.h"
51 #import "RuntimeEnabledFeatures.h"
52 #import "Settings.h"
53 #import "SocketProvider.h"
54 #import "TypedElementDescendantIterator.h"
55 #import "URLParser.h"
56 #import "WebArchiveResourceFromNSAttributedString.h"
57 #import "WebArchiveResourceWebResourceHandler.h"
58 #import "WebNSAttributedStringExtras.h"
59 #import "markup.h"
60 #import <pal/spi/cocoa/NSAttributedStringSPI.h>
61 #import <wtf/SoftLinking.h>
62 #import <wtf/UUID.h>
63
64 #if (PLATFORM(IOS) && __IPHONE_OS_VERSION_MIN_REQUIRED >= 110000) || (PLATFORM(MAC) && __MAC_OS_X_VERSION_MIN_REQUIRED >= 101300)
65 @interface NSAttributedString ()
66 - (NSString *)_htmlDocumentFragmentString:(NSRange)range documentAttributes:(NSDictionary *)dict subresources:(NSArray **)subresources;
67 @end
68 #elif PLATFORM(IOS)
69 SOFT_LINK_PRIVATE_FRAMEWORK(WebKitLegacy)
70 #elif PLATFORM(MAC)
71 SOFT_LINK_FRAMEWORK_IN_UMBRELLA(WebKit, WebKitLegacy)
72 #endif
73
74 #if (PLATFORM(IOS) && __IPHONE_OS_VERSION_MIN_REQUIRED < 110000) || (PLATFORM(MAC) && __MAC_OS_X_VERSION_MIN_REQUIRED < 101300)
75 SOFT_LINK(WebKitLegacy, _WebCreateFragment, void, (WebCore::Document& document, NSAttributedString *string, WebCore::FragmentAndResources& result), (document, string, result))
76 #endif
77
78 namespace WebCore {
79
80 #if (PLATFORM(IOS) && __IPHONE_OS_VERSION_MIN_REQUIRED >= 110000) || (PLATFORM(MAC) && __MAC_OS_X_VERSION_MIN_REQUIRED >= 101300)
81
82 static NSDictionary *attributesForAttributedStringConversion()
83 {
84     // This function needs to be kept in sync with identically named one in WebKitLegacy, which is used on older OS versions.
85     RetainPtr<NSMutableArray> excludedElements = adoptNS([[NSMutableArray alloc] initWithObjects:
86         // Omit style since we want style to be inline so the fragment can be easily inserted.
87         @"style",
88         // Omit xml so the result is not XHTML.
89         @"xml",
90         // Omit tags that will get stripped when converted to a fragment anyway.
91         @"doctype", @"html", @"head", @"body",
92         // Omit deprecated tags.
93         @"applet", @"basefont", @"center", @"dir", @"font", @"menu", @"s", @"strike", @"u",
94 #if !ENABLE(ATTACHMENT_ELEMENT)
95         // Omit object so no file attachments are part of the fragment.
96         @"object",
97 #endif
98         nil]);
99
100 #if ENABLE(ATTACHMENT_ELEMENT)
101     if (!RuntimeEnabledFeatures::sharedFeatures().attachmentElementEnabled())
102         [excludedElements addObject:@"object"];
103 #endif
104
105 #if PLATFORM(IOS)
106     static NSString * const NSExcludedElementsDocumentAttribute = @"ExcludedElements";
107 #endif
108
109     return @{
110         NSExcludedElementsDocumentAttribute: excludedElements.get(),
111         @"InterchangeNewline": @YES,
112         @"CoalesceTabSpans": @YES,
113         @"OutputBaseURL": [(NSURL *)URL::fakeURLWithRelativePart(emptyString()) retain], // The value needs +1 refcount, as NSAttributedString over-releases it.
114         @"WebResourceHandler": [[WebArchiveResourceWebResourceHandler new] autorelease],
115     };
116 }
117
118 static FragmentAndResources createFragment(Frame& frame, NSAttributedString *string)
119 {
120     FragmentAndResources result;
121     Document& document = *frame.document();
122
123     NSArray *subresources = nil;
124     NSString *fragmentString = [string _htmlDocumentFragmentString:NSMakeRange(0, [string length]) documentAttributes:attributesForAttributedStringConversion() subresources:&subresources];
125     auto fragment = DocumentFragment::create(document);
126     fragment->parseHTML(fragmentString, document.body(), DisallowScriptingAndPluginContent);
127
128     result.fragment = WTFMove(fragment);
129     for (WebArchiveResourceFromNSAttributedString *resource in subresources)
130         result.resources.append(*resource->resource);
131
132     return result;
133 }
134
135 #else
136
137 static FragmentAndResources createFragment(Frame& frame, NSAttributedString *string)
138 {
139     FragmentAndResources result;
140     _WebCreateFragment(*frame.document(), string, result);
141     return result;
142 }
143
144 #endif
145
146 class DeferredLoadingScope {
147 public:
148     DeferredLoadingScope(Frame& frame)
149         : m_frame(frame)
150         , m_cachedResourceLoader(frame.document()->cachedResourceLoader())
151     {
152         if (!frame.page()->defersLoading()) {
153             frame.page()->setDefersLoading(true);
154             m_didEnabledDeferredLoading = true;
155         }
156
157         if (m_cachedResourceLoader->imagesEnabled()) {
158             m_cachedResourceLoader->setImagesEnabled(false);
159             m_didDisableImage = true;
160         }
161     }
162
163     ~DeferredLoadingScope()
164     {
165         if (m_didEnabledDeferredLoading)
166             m_cachedResourceLoader->setImagesEnabled(true);
167         if (m_didDisableImage)
168             m_frame->page()->setDefersLoading(false);
169     }
170
171 private:
172     Ref<Frame> m_frame;
173     Ref<CachedResourceLoader> m_cachedResourceLoader;
174     bool m_didEnabledDeferredLoading { false };
175     bool m_didDisableImage { false };
176 };
177
178 static bool shouldReplaceRichContentWithAttachments()
179 {
180 #if ENABLE(ATTACHMENT_ELEMENT)
181     return RuntimeEnabledFeatures::sharedFeatures().attachmentElementEnabled();
182 #else
183     return false;
184 #endif
185 }
186
187 static Ref<DocumentFragment> createFragmentForImageAttachment(Document& document, Ref<Blob>&& blob)
188 {
189 #if ENABLE(ATTACHMENT_ELEMENT)
190     auto attachment = HTMLAttachmentElement::create(HTMLNames::attachmentTag, document);
191     attachment->setUniqueIdentifier(createCanonicalUUIDString());
192     attachment->setFile(File::create(blob, AtomicString("image")), HTMLAttachmentElement::UpdateDisplayAttributes::Yes);
193     attachment->updateDisplayMode(AttachmentDisplayMode::InPlace);
194
195     auto fragment = document.createDocumentFragment();
196     fragment->appendChild(attachment);
197
198     return fragment;
199 #else
200     UNUSED_PARAM(blob);
201     return document.createDocumentFragment();
202 #endif
203 }
204
205 static void replaceRichContentWithAttachments(DocumentFragment& fragment, const Vector<Ref<ArchiveResource>>& subresources)
206 {
207 #if ENABLE(ATTACHMENT_ELEMENT)
208     struct AttachmentReplacementInfo {
209         AttachmentDisplayMode displayMode;
210         Ref<File> file;
211         Ref<Element> elementToReplace;
212     };
213
214     ASSERT(RuntimeEnabledFeatures::sharedFeatures().attachmentElementEnabled());
215     if (subresources.isEmpty())
216         return;
217
218     // FIXME: Handle resources in subframe archives.
219     HashMap<AtomicString, Ref<Blob>> urlToBlobMap;
220     for (const Ref<ArchiveResource>& subresource : subresources)
221         urlToBlobMap.set(subresource->url().string(), Blob::create(subresource->data(), subresource->mimeType()));
222
223     Vector<Ref<Element>> elementsToRemove;
224     Vector<AttachmentReplacementInfo> attachmentReplacementInfo;
225     for (auto& image : descendantsOfType<HTMLImageElement>(fragment)) {
226         auto resourceURLString = image.attributeWithoutSynchronization(HTMLNames::srcAttr);
227         if (resourceURLString.isEmpty())
228             continue;
229
230         auto blob = urlToBlobMap.get(resourceURLString);
231         if (!blob)
232             continue;
233
234         auto title = URLParser { resourceURLString }.result().lastPathComponent();
235         if (title.isEmpty())
236             title = AtomicString("media");
237
238         attachmentReplacementInfo.append({ AttachmentDisplayMode::InPlace, File::create(*blob, title), image });
239     }
240
241     for (auto& object : descendantsOfType<HTMLObjectElement>(fragment)) {
242         auto resourceURLString = object.attributeWithoutSynchronization(HTMLNames::dataAttr);
243         if (resourceURLString.isEmpty()) {
244             elementsToRemove.append(object);
245             continue;
246         }
247
248         auto blob = urlToBlobMap.get(resourceURLString);
249         if (!blob) {
250             elementsToRemove.append(object);
251             continue;
252         }
253
254         auto title = URLParser { resourceURLString }.result().lastPathComponent();
255         if (title.isEmpty())
256             title = AtomicString("file");
257
258         attachmentReplacementInfo.append({ AttachmentDisplayMode::AsIcon, File::create(*blob, title), object });
259     }
260
261     for (auto& info : attachmentReplacementInfo) {
262         auto file = WTFMove(info.file);
263         auto elementToReplace = WTFMove(info.elementToReplace);
264         auto parent = makeRefPtr(elementToReplace->parentNode());
265         if (!parent)
266             continue;
267
268         auto attachment = HTMLAttachmentElement::create(HTMLNames::attachmentTag, fragment.document());
269         attachment->setUniqueIdentifier(createCanonicalUUIDString());
270         attachment->setFile(WTFMove(file), HTMLAttachmentElement::UpdateDisplayAttributes::Yes);
271         attachment->updateDisplayMode(info.displayMode);
272         parent->replaceChild(attachment, elementToReplace);
273     }
274
275     for (auto& elementToRemove : elementsToRemove)
276         elementToRemove->remove();
277 #else
278     UNUSED_PARAM(fragment);
279     UNUSED_PARAM(subresources);
280 #endif
281 }
282
283
284 RefPtr<DocumentFragment> createFragmentAndAddResources(Frame& frame, NSAttributedString *string)
285 {
286     if (!frame.page() || !frame.document())
287         return nullptr;
288
289     auto& document = *frame.document();
290     if (!document.isHTMLDocument() || !string)
291         return nullptr;
292
293     DeferredLoadingScope scope(frame);
294     auto fragmentAndResources = createFragment(frame, string);
295     if (!fragmentAndResources.fragment)
296         return nullptr;
297
298     if (!DeprecatedGlobalSettings::customPasteboardDataEnabled()) {
299         if (DocumentLoader* loader = frame.loader().documentLoader()) {
300             for (auto& resource : fragmentAndResources.resources)
301                 loader->addArchiveResource(resource.copyRef());
302         }
303         return WTFMove(fragmentAndResources.fragment);
304     }
305
306     if (shouldReplaceRichContentWithAttachments())
307         replaceRichContentWithAttachments(*fragmentAndResources.fragment, fragmentAndResources.resources);
308     else {
309         HashMap<AtomicString, AtomicString> blobURLMap;
310         for (const Ref<ArchiveResource>& subresource : fragmentAndResources.resources) {
311             auto blob = Blob::create(subresource->data(), subresource->mimeType());
312             String blobURL = DOMURL::createObjectURL(document, blob);
313             blobURLMap.set(subresource->url().string(), blobURL);
314         }
315
316         replaceSubresourceURLs(*fragmentAndResources.fragment, WTFMove(blobURLMap));
317     }
318
319     return WTFMove(fragmentAndResources.fragment);
320 }
321
322 struct MarkupAndArchive {
323     String markup;
324     Ref<ArchiveResource> mainResource;
325     Ref<Archive> archive;
326 };
327
328 static std::optional<MarkupAndArchive> extractMarkupAndArchive(SharedBuffer& buffer, const std::function<bool(const String)>& canShowMIMETypeAsHTML)
329 {
330     auto archive = LegacyWebArchive::create(URL(), buffer);
331     if (!archive)
332         return std::nullopt;
333
334     RefPtr<ArchiveResource> mainResource = archive->mainResource();
335     if (!mainResource)
336         return std::nullopt;
337
338     auto type = mainResource->mimeType();
339     if (!canShowMIMETypeAsHTML(type))
340         return std::nullopt;
341
342     return MarkupAndArchive { String::fromUTF8(mainResource->data().data(), mainResource->data().size()), mainResource.releaseNonNull(), archive.releaseNonNull() };
343 }
344
345 static String sanitizeMarkupWithArchive(Document& destinationDocument, MarkupAndArchive& markupAndArchive, const std::function<bool(const String)>& canShowMIMETypeAsHTML)
346 {
347     auto page = createPageForSanitizingWebContent();
348     Document* stagingDocument = page->mainFrame().document();
349     ASSERT(stagingDocument);
350     auto fragment = createFragmentFromMarkup(*stagingDocument, markupAndArchive.markup, markupAndArchive.mainResource->url(), DisallowScriptingAndPluginContent);
351
352     if (shouldReplaceRichContentWithAttachments())
353         replaceRichContentWithAttachments(fragment, markupAndArchive.archive->subresources());
354     else {
355         HashMap<AtomicString, AtomicString> blobURLMap;
356         for (const Ref<ArchiveResource>& subresource : markupAndArchive.archive->subresources()) {
357             auto blob = Blob::create(subresource->data(), subresource->mimeType());
358             String blobURL = DOMURL::createObjectURL(destinationDocument, blob);
359             blobURLMap.set(subresource->url().string(), blobURL);
360         }
361
362         auto contentOrigin = SecurityOrigin::create(markupAndArchive.mainResource->url());
363         for (const Ref<Archive>& subframeArchive : markupAndArchive.archive->subframeArchives()) {
364             RefPtr<ArchiveResource> subframeMainResource = subframeArchive->mainResource();
365             if (!subframeMainResource)
366                 continue;
367
368             auto type = subframeMainResource->mimeType();
369             if (!canShowMIMETypeAsHTML(type))
370                 continue;
371
372             auto subframeURL = subframeMainResource->url();
373             MarkupAndArchive subframeContent = { String::fromUTF8(subframeMainResource->data().data(), subframeMainResource->data().size()),
374                 subframeMainResource.releaseNonNull(), subframeArchive.copyRef() };
375             auto subframeMarkup = sanitizeMarkupWithArchive(destinationDocument, subframeContent, canShowMIMETypeAsHTML);
376
377             CString utf8 = subframeMarkup.utf8();
378             Vector<uint8_t> blobBuffer;
379             blobBuffer.reserveCapacity(utf8.length());
380             blobBuffer.append(reinterpret_cast<const uint8_t*>(utf8.data()), utf8.length());
381             auto blob = Blob::create(WTFMove(blobBuffer), type);
382
383             String subframeBlobURL = DOMURL::createObjectURL(destinationDocument, blob);
384             blobURLMap.set(subframeURL.string(), subframeBlobURL);
385         }
386
387         replaceSubresourceURLs(fragment.get(), WTFMove(blobURLMap));
388     }
389
390     auto* bodyElement = stagingDocument->body();
391     ASSERT(bodyElement);
392     bodyElement->appendChild(fragment);
393
394     auto range = Range::create(*stagingDocument);
395     range->selectNodeContents(*bodyElement);
396     return createMarkup(range.get(), nullptr, AnnotateForInterchange, false, ResolveNonLocalURLs);
397 }
398
399 bool WebContentReader::readWebArchive(SharedBuffer& buffer)
400 {
401     if (frame.settings().preferMIMETypeForImages() || !frame.document())
402         return false;
403
404     DeferredLoadingScope scope(frame);
405     auto result = extractMarkupAndArchive(buffer, [&] (const String& type) {
406         return frame.loader().client().canShowMIMETypeAsHTML(type);
407     });
408     if (!result)
409         return false;
410     
411     if (!DeprecatedGlobalSettings::customPasteboardDataEnabled()) {
412         fragment = createFragmentFromMarkup(*frame.document(), result->markup, result->mainResource->url(), DisallowScriptingAndPluginContent);
413         if (DocumentLoader* loader = frame.loader().documentLoader())
414             loader->addAllArchiveResources(result->archive.get());
415         return true;
416     }
417
418     if (!shouldSanitize()) {
419         fragment = createFragmentFromMarkup(*frame.document(), result->markup, result->mainResource->url(), DisallowScriptingAndPluginContent);
420         return true;
421     }
422
423     String sanitizedMarkup = sanitizeMarkupWithArchive(*frame.document(), *result, [&] (const String& type) {
424         return frame.loader().client().canShowMIMETypeAsHTML(type);
425     });
426     fragment = createFragmentFromMarkup(*frame.document(), sanitizedMarkup, blankURL(), DisallowScriptingAndPluginContent);
427
428     if (!fragment)
429         return false;
430
431     return true;
432 }
433
434 bool WebContentMarkupReader::readWebArchive(SharedBuffer& buffer)
435 {
436     if (!frame.document())
437         return false;
438
439     auto result = extractMarkupAndArchive(buffer, [&] (const String& type) {
440         return frame.loader().client().canShowMIMETypeAsHTML(type);
441     });
442     if (!result)
443         return false;
444
445     if (!shouldSanitize()) {
446         markup = result->markup;
447         return true;
448     }
449
450     markup = sanitizeMarkupWithArchive(*frame.document(), *result, [&] (const String& type) {
451         return frame.loader().client().canShowMIMETypeAsHTML(type);
452     });
453
454     return true;
455 }
456
457 static String stripMicrosoftPrefix(const String& string)
458 {
459 #if PLATFORM(MAC)
460     // This code was added to make HTML paste from Microsoft Word on Mac work, back in 2004.
461     // It's a simple-minded way to ignore the CF_HTML clipboard format, just skipping over the
462     // description part and parsing the entire context plus fragment.
463     if (string.startsWith("Version:")) {
464         size_t location = string.findIgnoringASCIICase("<html");
465         if (location != notFound)
466             return string.substring(location);
467     }
468 #endif
469     return string;
470 }
471
472 bool WebContentReader::readHTML(const String& string)
473 {
474     if (frame.settings().preferMIMETypeForImages() || !frame.document())
475         return false;
476     Document& document = *frame.document();
477
478     String stringOmittingMicrosoftPrefix = stripMicrosoftPrefix(string);
479     if (stringOmittingMicrosoftPrefix.isEmpty())
480         return false;
481
482     addFragment(createFragmentFromMarkup(document, stringOmittingMicrosoftPrefix, emptyString(), DisallowScriptingAndPluginContent));
483     return true;
484 }
485
486 bool WebContentMarkupReader::readHTML(const String& string)
487 {
488     if (!frame.document())
489         return false;
490
491     String rawHTML = stripMicrosoftPrefix(string);
492     if (shouldSanitize())
493         markup = sanitizeMarkup(rawHTML);
494     else
495         markup = rawHTML;
496
497     return !markup.isEmpty();
498 }
499
500 bool WebContentReader::readRTFD(SharedBuffer& buffer)
501 {
502     if (frame.settings().preferMIMETypeForImages() || !frame.document())
503         return false;
504
505     auto string = adoptNS([[NSAttributedString alloc] initWithRTFD:buffer.createNSData().get() documentAttributes:nullptr]);
506     auto fragment = createFragmentAndAddResources(frame, string.get());
507     if (!fragment)
508         return false;
509     addFragment(fragment.releaseNonNull());
510
511     return true;
512 }
513
514 bool WebContentMarkupReader::readRTFD(SharedBuffer& buffer)
515 {
516     if (!frame.document())
517         return false;
518     auto string = adoptNS([[NSAttributedString alloc] initWithRTFD:buffer.createNSData().get() documentAttributes:nullptr]);
519     auto fragment = createFragmentAndAddResources(frame, string.get());
520     if (!fragment)
521         return false;
522
523     markup = createMarkup(*fragment);
524     return true;
525 }
526
527 bool WebContentReader::readRTF(SharedBuffer& buffer)
528 {
529     if (frame.settings().preferMIMETypeForImages())
530         return false;
531
532     auto string = adoptNS([[NSAttributedString alloc] initWithRTF:buffer.createNSData().get() documentAttributes:nullptr]);
533     auto fragment = createFragmentAndAddResources(frame, string.get());
534     if (!fragment)
535         return false;
536     addFragment(fragment.releaseNonNull());
537
538     return true;
539 }
540
541 bool WebContentMarkupReader::readRTF(SharedBuffer& buffer)
542 {
543     if (!frame.document())
544         return false;
545     auto string = adoptNS([[NSAttributedString alloc] initWithRTF:buffer.createNSData().get() documentAttributes:nullptr]);
546     auto fragment = createFragmentAndAddResources(frame, string.get());
547     if (!fragment)
548         return false;
549     markup = createMarkup(*fragment);
550     return true;
551 }
552
553 bool WebContentReader::readPlainText(const String& text)
554 {
555     if (!allowPlainText)
556         return false;
557
558     addFragment(createFragmentFromText(context, [text precomposedStringWithCanonicalMapping]));
559
560     madeFragmentFromPlainText = true;
561     return true;
562 }
563
564 bool WebContentReader::readImage(Ref<SharedBuffer>&& buffer, const String& type)
565 {
566     auto blob = Blob::create(buffer.get(), type);
567     ASSERT(frame.document());
568     auto& document = *frame.document();
569
570     if (shouldReplaceRichContentWithAttachments())
571         addFragment(createFragmentForImageAttachment(document, WTFMove(blob)));
572     else
573         addFragment(createFragmentForImageAndURL(document, DOMURL::createObjectURL(document, blob)));
574
575     if (!fragment)
576         return false;
577
578     return true;
579 }
580
581 }