Unreviewed build fix after r185014. Some tests only have subtests and not metrics.
[WebKit-https.git] / Tools / Scripts / webkitpy / benchmark_runner / benchmark_results_unittest.py
1 # Copyright (C) 2015 Apple Inc. All rights reserved.
2 #
3 # Redistribution and use in source and binary forms, with or without
4 # modification, are permitted provided that the following conditions
5 # are met:
6 # 1.  Redistributions of source code must retain the above copyright
7 #     notice, this list of conditions and the following disclaimer.
8 # 2.  Redistributions in binary form must reproduce the above copyright
9 #     notice, this list of conditions and the following disclaimer in the
10 #     documentation and/or other materials provided with the distribution.
11 #
12 # THIS SOFTWARE IS PROVIDED BY APPLE INC. AND ITS CONTRIBUTORS ``AS IS'' AND ANY
13 # EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
14 # WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
15 # DISCLAIMED. IN NO EVENT SHALL APPLE INC. OR ITS CONTRIBUTORS BE LIABLE FOR ANY
16 # DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
17 # (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
18 # LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON
19 # ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
20 # (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
21 # SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
22
23 import unittest
24
25 from benchmark_results import BenchmarkResults
26
27
28 class BenchmarkResultsTest(unittest.TestCase):
29     def test_init(self):
30         results = BenchmarkResults({'SomeTest': {'metrics': {'Time': {'current': [1, 2, 3]}}}})
31         self.assertEqual(results._results, {'SomeTest': {'metrics': {'Time': {None: {'current': [1, 2, 3]}}}, 'tests': {}}})
32
33         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" contains non-numeric value: \[1, 2, "a"\]'):
34             BenchmarkResults({'SomeTest': {'metrics': {'Time': {'current': [1, 2, 'a']}}}})
35
36     def test_format(self):
37         result = BenchmarkResults({'SomeTest': {'metrics': {'Time': {'current': [1, 2, 3]}}}})
38         self.assertEqual(result.format(), 'SomeTest:Time: 2.0ms stdev=50.0%\n')
39
40         result = BenchmarkResults({'SomeTest': {'metrics': {'Time': {'current': [1, 2, 3]}, 'Score': {'current': [2, 3, 4]}}}})
41         self.assertEqual(result.format(), '''
42 SomeTest:Score: 3.0pt stdev=33.3%
43         :Time: 2.0ms stdev=50.0%
44 '''[1:])
45
46         result = BenchmarkResults({'SomeTest': {
47             'metrics': {'Time': ['Total', 'Arithmetic']},
48             'tests': {
49                 'SubTest1': {'metrics': {'Time': {'current': [1, 2, 3]}}},
50                 'SubTest2': {'metrics': {'Time': {'current': [4, 5, 6]}}}}}})
51         self.assertEqual(result.format(), '''
52 SomeTest:Time:Arithmetic: 3.0ms stdev=33.3%
53         :Time:Total: 7.0ms stdev=28.6%
54         SubTest1:Time: 2.0ms stdev=50.0%
55         SubTest2:Time: 5.0ms stdev=20.0%
56 '''[1:])
57
58     def test_format_values_with_large_error(self):
59         self.assertEqual(BenchmarkResults._format_values('Runs', [1, 2, 3]), '2.0/s stdev=50.0%')
60         self.assertEqual(BenchmarkResults._format_values('Runs', [10, 20, 30]), '20/s stdev=50.0%')
61         self.assertEqual(BenchmarkResults._format_values('Runs', [100, 200, 300]), '200/s stdev=50.0%')
62         self.assertEqual(BenchmarkResults._format_values('Runs', [1000, 2000, 3000]), '2.0K/s stdev=50.0%')
63         self.assertEqual(BenchmarkResults._format_values('Runs', [10000, 20000, 30000]), '20K/s stdev=50.0%')
64         self.assertEqual(BenchmarkResults._format_values('Runs', [100000, 200000, 300000]), '200K/s stdev=50.0%')
65         self.assertEqual(BenchmarkResults._format_values('Runs', [1000000, 2000000, 3000000]), '2.0M/s stdev=50.0%')
66         self.assertEqual(BenchmarkResults._format_values('Runs', [0.1, 0.2, 0.3]), '200m/s stdev=50.0%')
67         self.assertEqual(BenchmarkResults._format_values('Runs', [0.01, 0.02, 0.03]), '20m/s stdev=50.0%')
68         self.assertEqual(BenchmarkResults._format_values('Runs', [0.001, 0.002, 0.003]), '2.0m/s stdev=50.0%')
69         self.assertEqual(BenchmarkResults._format_values('Runs', [0.0001, 0.0002, 0.0003]), '200u/s stdev=50.0%')
70         self.assertEqual(BenchmarkResults._format_values('Runs', [0.00001, 0.00002, 0.00003]), '20u/s stdev=50.0%')
71         self.assertEqual(BenchmarkResults._format_values('Runs', [0.000001, 0.000002, 0.000003]), '2.0u/s stdev=50.0%')
72
73     def test_format_values_with_small_error(self):
74         self.assertEqual(BenchmarkResults._format_values('Runs', [1.1, 1.2, 1.3]), '1.20/s stdev=8.3%')
75         self.assertEqual(BenchmarkResults._format_values('Runs', [11, 12, 13]), '12.0/s stdev=8.3%')
76         self.assertEqual(BenchmarkResults._format_values('Runs', [110, 120, 130]), '120/s stdev=8.3%')
77         self.assertEqual(BenchmarkResults._format_values('Runs', [1100, 1200, 1300]), '1.20K/s stdev=8.3%')
78         self.assertEqual(BenchmarkResults._format_values('Runs', [11000, 12000, 13000]), '12.0K/s stdev=8.3%')
79         self.assertEqual(BenchmarkResults._format_values('Runs', [110000, 120000, 130000]), '120K/s stdev=8.3%')
80         self.assertEqual(BenchmarkResults._format_values('Runs', [1100000, 1200000, 1300000]), '1.20M/s stdev=8.3%')
81         self.assertEqual(BenchmarkResults._format_values('Runs', [0.11, 0.12, 0.13]), '120m/s stdev=8.3%')
82         self.assertEqual(BenchmarkResults._format_values('Runs', [0.011, 0.012, 0.013]), '12.0m/s stdev=8.3%')
83         self.assertEqual(BenchmarkResults._format_values('Runs', [0.0011, 0.0012, 0.0013]), '1.20m/s stdev=8.3%')
84         self.assertEqual(BenchmarkResults._format_values('Runs', [0.00011, 0.00012, 0.00013]), '120u/s stdev=8.3%')
85         self.assertEqual(BenchmarkResults._format_values('Runs', [0.000011, 0.000012, 0.000013]), '12.0u/s stdev=8.3%')
86         self.assertEqual(BenchmarkResults._format_values('Runs', [0.0000011, 0.0000012, 0.0000013]), '1.20u/s stdev=8.3%')
87
88     def test_format_values_with_time(self):
89         self.assertEqual(BenchmarkResults._format_values('Time', [1, 2, 3]), '2.0ms stdev=50.0%')
90         self.assertEqual(BenchmarkResults._format_values('Time', [10, 20, 30]), '20ms stdev=50.0%')
91         self.assertEqual(BenchmarkResults._format_values('Time', [100, 200, 300]), '200ms stdev=50.0%')
92         self.assertEqual(BenchmarkResults._format_values('Time', [1000, 2000, 3000]), '2.0s stdev=50.0%')
93         self.assertEqual(BenchmarkResults._format_values('Time', [10000, 20000, 30000]), '20s stdev=50.0%')
94         self.assertEqual(BenchmarkResults._format_values('Time', [100000, 200000, 300000]), '200s stdev=50.0%')
95         self.assertEqual(BenchmarkResults._format_values('Time', [0.11, 0.12, 0.13]), '120us stdev=8.3%')
96         self.assertEqual(BenchmarkResults._format_values('Time', [0.011, 0.012, 0.013]), '12.0us stdev=8.3%')
97         self.assertEqual(BenchmarkResults._format_values('Time', [0.0011, 0.0012, 0.0013]), '1.20us stdev=8.3%')
98         self.assertEqual(BenchmarkResults._format_values('Time', [0.00011, 0.00012, 0.00013]), '120ns stdev=8.3%')
99
100     def test_format_values_with_no_error(self):
101         self.assertEqual(BenchmarkResults._format_values('Time', [1, 1, 1]), '1.00ms stdev=0.0%')
102
103     def test_format_values_with_small_difference(self):
104         self.assertEqual(BenchmarkResults._format_values('Time', [5, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4]),
105             '4.05ms stdev=5.5%')
106
107     def test_aggregate_results(self):
108         self.maxDiff = None
109         self.assertEqual(BenchmarkResults._aggregate_results(
110             {'SomeTest': {'metrics': {'Time': {'current': [1, 2, 3]}}}}),
111             {'SomeTest': {'metrics': {'Time': {None: {'current': [1, 2, 3]}}}, 'tests': {}}})
112
113         self.assertEqual(BenchmarkResults._aggregate_results(
114             {'SomeTest': {
115                 'metrics': {'Time': ['Total']},
116                 'tests': {
117                     'SubTest1': {'metrics': {'Time': {'current': [1, 2, 3]}}},
118                     'SubTest2': {'metrics': {'Time': {'current': [4, 5, 6]}}}}}}),
119             {'SomeTest': {
120                 'metrics': {'Time': {'Total': {'current': [5, 7, 9]}}},
121                 'tests': {
122                     'SubTest1': {'metrics': {'Time': {None: {'current': [1, 2, 3]}}}, 'tests': {}},
123                     'SubTest2': {'metrics': {'Time': {None: {'current': [4, 5, 6]}}}, 'tests': {}}}}})
124
125         self.assertEqual(BenchmarkResults._aggregate_results(
126             {'SomeTest': {
127                 'metrics': {'Time': ['Total'], 'Runs': ['Total']},
128                 'tests': {
129                     'SubTest1': {'metrics': {'Time': {'current': [1, 2, 3]}}},
130                     'SubTest2': {'metrics': {'Time': {'current': [4, 5, 6]}}},
131                     'SubTest3': {'metrics': {'Runs': {'current': [7, 8, 9]}}}}}}),
132             {'SomeTest': {
133                 'metrics': {
134                     'Time': {'Total': {'current': [5, 7, 9]}},
135                     'Runs': {'Total': {'current': [7, 8, 9]}}},
136                 'tests': {
137                     'SubTest1': {'metrics': {'Time': {None: {'current': [1, 2, 3]}}}, 'tests': {}},
138                     'SubTest2': {'metrics': {'Time': {None: {'current': [4, 5, 6]}}}, 'tests': {}},
139                     'SubTest3': {'metrics': {'Runs': {None: {'current': [7, 8, 9]}}}, 'tests': {}}}}})
140
141     def test_aggregate_results_with_gropus(self):
142         self.maxDiff = None
143         self.assertEqual(BenchmarkResults._aggregate_results(
144             {'SomeTest': {
145                 'metrics': {'Time': ['Total']},
146                 'tests': {
147                     'SubTest1': {'metrics': {'Time': {'current': [[1, 2], [3, 4]]}}},
148                     'SubTest2': {'metrics': {'Time': {'current': [[5, 6], [7, 8]]}}}}}}),
149             {'SomeTest': {
150                 'metrics': {'Time': {'Total': {'current': [6, 8, 10, 12]}}},
151                 'tests': {
152                     'SubTest1': {'metrics': {'Time': {None: {'current': [1, 2, 3, 4]}}}, 'tests': {}},
153                     'SubTest2': {'metrics': {'Time': {None: {'current': [5, 6, 7, 8]}}}, 'tests': {}}}}})
154
155     def test_aggregate_nested_results(self):
156         self.maxDiff = None
157         self.assertEqual(BenchmarkResults._aggregate_results(
158             {'SomeTest': {
159                 'metrics': {'Time': ['Total']},
160                 'tests': {
161                     'SubTest1': {
162                         'metrics': {'Time': ['Total']},
163                         'tests': {
164                             'GrandChild1': {'metrics': {'Time': {'current': [1, 2]}}},
165                             'GrandChild2': {'metrics': {'Time': {'current': [3, 4]}}}}},
166                     'SubTest2': {'metrics': {'Time': {'current': [5, 6]}}}}}}),
167             {'SomeTest': {
168                 'metrics': {'Time': {'Total': {'current': [9, 12]}}},
169                 'tests': {
170                     'SubTest1': {
171                         'metrics': {'Time': {'Total': {'current': [4, 6]}}},
172                         'tests': {
173                             'GrandChild1': {'metrics': {'Time': {None: {'current': [1, 2]}}}, 'tests': {}},
174                             'GrandChild2': {'metrics': {'Time': {None: {'current': [3, 4]}}}, 'tests': {}}}},
175                     'SubTest2': {'metrics': {'Time': {None: {'current': [5, 6]}}}, 'tests': {}}}}})
176
177         self.assertEqual(BenchmarkResults._aggregate_results(
178             {'SomeTest': {
179                 'metrics': {'Time': ['Total']},
180                 'tests': {
181                     'SubTest1': {
182                         'metrics': {'Time': ['Total', 'Arithmetic']},
183                         'tests': {
184                             'GrandChild1': {'metrics': {'Time': {'current': [1, 2]}}},
185                             'GrandChild2': {'metrics': {'Time': {'current': [3, 4]}}}}},
186                     'SubTest2': {'metrics': {'Time': {'current': [5, 6]}}}}}}),
187             {'SomeTest': {
188                 'metrics': {'Time': {'Total': {'current': [9, 12]}}},
189                 'tests': {
190                     'SubTest1': {
191                         'metrics': {'Time': {'Total': {'current': [4, 6]}, 'Arithmetic': {'current': [2, 3]}}},
192                         'tests': {
193                             'GrandChild1': {'metrics': {'Time': {None: {'current': [1, 2]}}}, 'tests': {}},
194                             'GrandChild2': {'metrics': {'Time': {None: {'current': [3, 4]}}}, 'tests': {}}}},
195                     'SubTest2': {'metrics': {'Time': {None: {'current': [5, 6]}}}, 'tests': {}}}}})
196
197     def test_lint_results(self):
198         with self.assertRaisesRegexp(TypeError, r'"SomeTest" does not contain metrics or tests'):
199             BenchmarkResults._lint_results({'SomeTest': {}})
200
201         with self.assertRaisesRegexp(TypeError, r'The metrics in "SomeTest" is not a dictionary'):
202             BenchmarkResults._lint_results({'SomeTest': {'metrics': []}})
203
204         with self.assertRaisesRegexp(TypeError, r'The aggregator list is empty in "Time" metric of "SomeTest"'):
205             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': []}}})
206
207         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" is not wrapped by a configuration; e.g. "current"'):
208             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': [1, 2]}}})
209
210         self.assertTrue(BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': {'current': [1, 2]}}}}))
211
212         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" was not an aggregator list or a dictionary of configurations: 1'):
213             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': 1}}})
214
215         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" contains non-numeric value: \["Total"\]'):
216             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': {'current': ['Total']}}}})
217
218         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" contains non-numeric value: \["Total", "Geometric"\]'):
219             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': {'current': [['Total', 'Geometric']]}}}})
220
221         with self.assertRaisesRegexp(TypeError, r'"SomeTest" requires aggregation but "SomeTest" has no subtests'):
222             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': ['Total']}}})
223
224         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" had invalid aggregator list: \["Total", "Total"\]'):
225             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': ['Total', 'Total']}, 'tests': {
226                 'SubTest1': {'metrics': {'Time': {'current': []}}}}}})
227
228         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" uses unknown aggregator: KittenMean'):
229             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': ['KittenMean']}, 'tests': {
230                 'SubTest1': {'metrics': {'Time': {'current': []}}}}}})
231
232         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" had a mismatching subtest values'):
233             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': ['Total']}, 'tests': {
234                 'SubTest1': {'metrics': {'Time': {'current': [1, 2, 3]}}},
235                 'SubTest2': {'metrics': {'Time': {'current': [4, 5, 6, 7]}}}}}})
236
237         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" had a mismatching subtest values'):
238             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': ['Total']}, 'tests': {
239                 'SubTest1': {'metrics': {'Time': {'current': [[1, 2], [3]]}}},
240                 'SubTest2': {'metrics': {'Time': {'current': [[4, 5], [6, 7]]}}}}}})
241
242         with self.assertRaisesRegexp(TypeError, r'"Time" metric of "SomeTest" had malformed values: \[1, \[2\], 3\]'):
243             BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': {'current': [1, [2], 3]}}}})
244
245         self.assertTrue(BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': ['Total']}, 'tests': {
246             'SubTest1': {'metrics': {'Time': {'current': [1, 2, 3]}}},
247             'SubTest2': {'metrics': {'Time': {'current': [4, 5, 6], 'baseline': [7]}}}}}}))
248
249         self.assertTrue(BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': ['Total']}, 'tests': {
250             'SubTest1': {'metrics': {'Time': {'current': [1, 2, 3]}}},
251             'SubTest2': {'metrics': {'Runs': {'current': [4, 5, 6, 7]}}}}}}))
252
253         self.assertTrue(BenchmarkResults._lint_results({'SomeTest': {'metrics': {'Time': ['Total']}, 'tests': {
254             'SubTest1': {'metrics': {'Time': {'current': [[1, 2], [3, 4]]}}},
255             'SubTest2': {'metrics': {'Time': {'current': [[5, 6], [7, 8]]}}}}}}))