TextIterator: Use StringView and references rather than pointers
[WebKit-https.git] / Source / WebCore / editing / TextIterator.h
1 /*
2  * Copyright (C) 2004, 2006, 2009, 2014 Apple Inc. All rights reserved.
3  *
4  * Redistribution and use in source and binary forms, with or without
5  * modification, are permitted provided that the following conditions
6  * are met:
7  * 1. Redistributions of source code must retain the above copyright
8  *    notice, this list of conditions and the following disclaimer.
9  * 2. Redistributions in binary form must reproduce the above copyright
10  *    notice, this list of conditions and the following disclaimer in the
11  *    documentation and/or other materials provided with the distribution.
12  *
13  * THIS SOFTWARE IS PROVIDED BY APPLE COMPUTER, INC. ``AS IS'' AND ANY
14  * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
15  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
16  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL APPLE COMPUTER, INC. OR
17  * CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
18  * EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
19  * PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
20  * PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY
21  * OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
22  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
23  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. 
24  */
25
26 #ifndef TextIterator_h
27 #define TextIterator_h
28
29 // FIXME: Move each iterator class into a separate header file.
30
31 #include "FindOptions.h"
32 #include "Range.h"
33 #include "TextIteratorBehavior.h"
34 #include <wtf/Vector.h>
35 #include <wtf/text/StringView.h>
36
37 namespace WebCore {
38
39 class InlineTextBox;
40 class RenderText;
41 class RenderTextFragment;
42
43 String plainText(const Range*, TextIteratorBehavior = TextIteratorDefaultBehavior, bool isDisplayString = false);
44 PassRefPtr<Range> findPlainText(const Range&, const String&, FindOptions);
45
46 // FIXME: Move this somewhere else in the editing directory. It doesn't belong here.
47 bool isRendererReplacedElement(RenderObject*);
48
49 class BitStack {
50 public:
51     BitStack();
52     ~BitStack();
53
54     void push(bool);
55     void pop();
56
57     bool top() const;
58     unsigned size() const;
59
60 private:
61     unsigned m_size;
62     Vector<unsigned, 1> m_words;
63 };
64
65 class TextIteratorCopyableText {
66 public:
67     TextIteratorCopyableText()
68         : m_singleCharacter(0)
69         , m_offset(0)
70         , m_length(0)
71     {
72     }
73
74     StringView text() const { return m_singleCharacter ? StringView(&m_singleCharacter, 1) : StringView(m_string).substring(m_offset, m_length); }
75     void appendToStringBuilder(StringBuilder&) const;
76
77     void reset();
78     void set(String&&);
79     void set(String&&, unsigned offset, unsigned length);
80     void set(UChar);
81
82 private:
83     UChar m_singleCharacter;
84     String m_string;
85     unsigned m_offset;
86     unsigned m_length;
87 };
88
89 // Iterates through the DOM range, returning all the text, and 0-length boundaries
90 // at points where replaced elements break up the text flow. The text is delivered in
91 // the chunks it's already stored in, to avoid copying any text.
92
93 class TextIterator {
94 public:
95     explicit TextIterator(const Range*, TextIteratorBehavior = TextIteratorDefaultBehavior);
96     ~TextIterator();
97
98     bool atEnd() const { return !m_positionNode; }
99     void advance();
100
101     StringView text() const { ASSERT(!atEnd()); return m_text; }
102     PassRefPtr<Range> range() const;
103     Node* node() const;
104
105     const TextIteratorCopyableText& copyableText() const { ASSERT(!atEnd()); return m_copyableText; }
106     void appendTextToStringBuilder(StringBuilder& builder) const { copyableText().appendToStringBuilder(builder); }
107
108     static int rangeLength(const Range*, bool spacesForReplacedElements = false);
109     static PassRefPtr<Range> rangeFromLocationAndLength(ContainerNode* scope, int rangeLocation, int rangeLength, bool spacesForReplacedElements = false);
110     static bool getLocationAndLengthFromRange(Node* scope, const Range*, size_t& location, size_t& length);
111     static PassRefPtr<Range> subrange(Range* entireRange, int characterOffset, int characterCount);
112
113 private:
114     void exitNode();
115     bool shouldRepresentNodeOffsetZero();
116     bool shouldEmitSpaceBeforeAndAfterNode(Node&);
117     void representNodeOffsetZero();
118     bool handleTextNode();
119     bool handleReplacedElement();
120     bool handleNonTextNode();
121     void handleTextBox();
122     void handleTextNodeFirstLetter(RenderTextFragment&);
123     void emitCharacter(UChar, Node& characterNode, Node* offsetBaseNode, int textStartOffset, int textEndOffset);
124     void emitText(Text& textNode, RenderText&, int textStartOffset, int textEndOffset);
125
126     const TextIteratorBehavior m_behavior;
127
128     // Current position, not necessarily of the text being returned, but position as we walk through the DOM tree.
129     Node* m_node;
130     int m_offset;
131     bool m_handledNode;
132     bool m_handledChildren;
133     BitStack m_fullyClippedStack;
134
135     // The range.
136     Node* m_startContainer;
137     int m_startOffset;
138     Node* m_endContainer;
139     int m_endOffset;
140     Node* m_pastEndNode;
141
142     // The current text and its position, in the form to be returned from the iterator.
143     Node* m_positionNode;
144     mutable Node* m_positionOffsetBaseNode;
145     mutable int m_positionStartOffset;
146     mutable int m_positionEndOffset;
147     TextIteratorCopyableText m_copyableText;
148     StringView m_text;
149
150     // Used when there is still some pending text from the current node; when these are false and null, we go back to normal iterating.
151     bool m_needsAnotherNewline;
152     InlineTextBox* m_textBox;
153
154     // Used when iterating over :first-letter text to save pointer to remaining text box.
155     InlineTextBox* m_remainingTextBox;
156
157     // Used to point to RenderText object for :first-letter.
158     RenderText* m_firstLetterText;
159
160     // Used to do the whitespace collapsing logic.
161     Text* m_lastTextNode;
162     bool m_lastTextNodeEndedWithCollapsedSpace;
163     UChar m_lastCharacter;
164
165     // Used when text boxes are out of order (Hebrew/Arabic with embedded LTR text)
166     Vector<InlineTextBox*> m_sortedTextBoxes;
167     size_t m_sortedTextBoxesPosition;
168
169     // Used when deciding whether to emit a "positioning" (e.g. newline) before any other content
170     bool m_hasEmitted;
171
172     // Used when deciding text fragment created by :first-letter should be looked into.
173     bool m_handledFirstLetter;
174 };
175
176 // Iterates through the DOM range, returning all the text, and 0-length boundaries
177 // at points where replaced elements break up the text flow. The text comes back in
178 // chunks so as to optimize for performance of the iteration.
179 class SimplifiedBackwardsTextIterator {
180 public:
181     explicit SimplifiedBackwardsTextIterator(const Range&, TextIteratorBehavior = TextIteratorDefaultBehavior);
182
183     bool atEnd() const { return !m_positionNode; }
184     void advance();
185
186     StringView text() const { ASSERT(!atEnd()); return m_text; }
187     PassRefPtr<Range> range() const;
188     Node* node() const { ASSERT(!atEnd()); return m_node; }
189
190 private:
191     void exitNode();
192     bool handleTextNode();
193     RenderText* handleFirstLetter(int& startOffset, int& offsetInNode);
194     bool handleReplacedElement();
195     bool handleNonTextNode();
196     void emitCharacter(UChar, Node&, int startOffset, int endOffset);
197     bool advanceRespectingRange(Node*);
198
199     const TextIteratorBehavior m_behavior;
200
201     // Current position, not necessarily of the text being returned, but position as we walk through the DOM tree.
202     Node* m_node;
203     int m_offset;
204     bool m_handledNode;
205     bool m_handledChildren;
206     BitStack m_fullyClippedStack;
207
208     // The range.
209     Node* m_startContainer;
210     int m_startOffset;
211     Node* m_endContainer;
212     int m_endOffset;
213     
214     // The current text and its position, in the form to be returned from the iterator.
215     Node* m_positionNode;
216     int m_positionStartOffset;
217     int m_positionEndOffset;
218     TextIteratorCopyableText m_copyableText;
219     StringView m_text;
220
221     // Used to do the whitespace logic.
222     Text* m_lastTextNode;
223     UChar m_lastCharacter;
224
225     // Whether m_node has advanced beyond the iteration range (i.e. m_startContainer).
226     bool m_havePassedStartContainer;
227
228     // Should handle first-letter renderer in the next call to handleTextNode.
229     bool m_shouldHandleFirstLetter;
230 };
231
232 // Builds on the text iterator, adding a character position so we can walk one
233 // character at a time, or faster, as needed. Useful for searching.
234 class CharacterIterator {
235 public:
236     explicit CharacterIterator(const Range&, TextIteratorBehavior = TextIteratorDefaultBehavior);
237     
238     bool atEnd() const { return m_underlyingIterator.atEnd(); }
239     void advance(int numCharacters);
240     
241     StringView text() const { return m_underlyingIterator.text().substring(m_runOffset); }
242     PassRefPtr<Range> range() const;
243
244     bool atBreak() const { return m_atBreak; }
245     int characterOffset() const { return m_offset; }
246
247 private:
248     TextIterator m_underlyingIterator;
249
250     int m_offset;
251     int m_runOffset;
252     bool m_atBreak;
253 };
254     
255 class BackwardsCharacterIterator {
256 public:
257     explicit BackwardsCharacterIterator(const Range&);
258
259     bool atEnd() const { return m_underlyingIterator.atEnd(); }
260     void advance(int numCharacters);
261
262     PassRefPtr<Range> range() const;
263
264 private:
265     SimplifiedBackwardsTextIterator m_underlyingIterator;
266
267     int m_offset;
268     int m_runOffset;
269     bool m_atBreak;
270 };
271
272 // Similar to the TextIterator, except that the chunks of text returned are "well behaved", meaning
273 // they never split up a word. This is useful for spell checking and perhaps one day for searching as well.
274 class WordAwareIterator {
275 public:
276     explicit WordAwareIterator(const Range&);
277
278     bool atEnd() const { return !m_didLookAhead && m_underlyingIterator.atEnd(); }
279     void advance();
280
281     StringView text() const;
282
283 private:
284     TextIterator m_underlyingIterator;
285
286     // Text from the previous chunk from the text iterator.
287     TextIteratorCopyableText m_previousText;
288
289     // Many chunks from text iterator concatenated.
290     Vector<UChar> m_buffer;
291     
292     // Did we have to look ahead in the text iterator to confirm the current chunk?
293     bool m_didLookAhead;
294 };
295
296 }
297
298 #endif