WTF::Lock should be fair eventually
authorfpizlo@apple.com <fpizlo@apple.com@268f45cc-cd09-0410-ab3c-d52691b4dbfc>
Mon, 18 Jul 2016 18:32:52 +0000 (18:32 +0000)
committerfpizlo@apple.com <fpizlo@apple.com@268f45cc-cd09-0410-ab3c-d52691b4dbfc>
Mon, 18 Jul 2016 18:32:52 +0000 (18:32 +0000)
https://bugs.webkit.org/show_bug.cgi?id=159384

Reviewed by Geoffrey Garen.
Source/WTF:

In https://webkit.org/blog/6161/locking-in-webkit/ we showed how relaxing the fairness of
locks makes them fast. That post presented lock fairness as a trade-off between two
extremes:

- Barging. A barging lock, like WTF::Lock, releases the lock in unlock() even if there was a
  thread on the queue. If there was a thread on the queue, the lock is released and that
  thread is made runnable. That thread may then grab the lock, or some other thread may grab
  the lock first (it may barge). Usually, the barging thread is the thread that released the
  lock in the first place. This maximizes throughput but hurts fairness. There is no good
  theoretical bound on how unfair the lock may become, but empirical data suggests that it's
  fair enough for the cases we previously measured.

- FIFO. A FIFO lock, like HandoffLock in ToyLocks.h, does not release the lock in unlock()
  if there is a thread waiting. If there is a thread waiting, unlock() will make that thread
  runnable and inform it that it now holds the lock. This ensures perfect round-robin
  fairness and allows us to reason theoretically about how long it may take for a thread to
  grab the lock. For example, if we know that only N threads are running and each one may
  contend on a critical section, and each one may hold the lock for at most S seconds, then
  the time it takes to grab the lock is N * S. Unfortunately, FIFO locks perform very badly
  in most cases. This is because for the common case of short critical sections, they force
  a context switch after each critical section if the lock is contended.

This change makes WTF::Lock almost as fair as FIFO while still being as fast as barging.
Thanks to this new algorithm, you can now have both of these things at the same time.

This change makes WTF::Lock eventually fair. We can almost (more on the caveats below)
guarantee that the time it takes to grab a lock is N * max(1ms, S). In other words, critical
sections that are longer than 1ms are always fair. For shorter critical sections, the amount
of time that any thread waits is 1ms times the number of threads. There are some caveats
that arise from our use of randomness, but even then, in the limit as the critical section
length goes to infinity, the lock becomes fair. The corner cases are unlikely to happen; our
experiments show that the lock becomes exactly as fair as a FIFO lock for any critical
section that is 1ms or longer.

The fairness mechanism is broken into two parts. WTF::Lock can now choose to unlock a lock
fairly or unfairly thanks to the new ParkingLot token mechanism. WTF::Lock knows when to use
fair unlocking based on a timeout mechanism in ParkingLot called timeToBeFair.

ParkingLot::unparkOne() and ParkingLot::parkConditionally() can now communicate with each
other via a token. unparkOne() can pass a token, which parkConditionally() will return. This
change also makes parkConditionally() a lot more precise about when it was unparked due to a
call to unparkOne(). If unparkOne() is told that a thread was unparked then this thread is
guaranteed to report that it was unparked rather than timing out, and that thread is
guaranteed to get the token that unparkOne() passed. The token is an intptr_t. We use it as
a boolean variable in WTF::Lock, but you could use it to pass arbitrary data structures. By
default, the token is zero. WTF::Lock's unlock() will pass 1 as the token if it is doing
fair unlocking. In that case, unlock() will not release the lock, and lock() will know that
it holds the lock as soon as parkConditionally() returns. Note that this algorithm relies
on unparkOne() invoking WTF::Lock's callback while the queue lock is held, so that WTF::Lock
can make a decision about unlock strategy and inject a token while it has complete knowledge
over the state of the queue. As such, it's not immediately obvious how to implement this
algorithm on top of futexes. You really need ParkingLot!

WTF::Lock does not use fair unlocking every time. We expose a new API, Lock::unlockFairly(),
which forces the fair unlocking behavior. Additionally, ParkingLot now maintains a
per-bucket stochastic fairness timeout. When the timeout fires, the unparkOne() callback
sees UnparkResult::timeToBeFair = true. This timeout is set to be anywhere from 0ms to 1ms
at random. When a dequeue happens and there are threads that actually get dequeued, we check
if the time since the last unfair unlock (the last time timeToBeFair was set to true) is
more than the timeout amount. If so, then we set timeToBeFair to true and reset the timeout.
This means that in the absence of ParkingLot collisions, unfair unlocking is guaranteed to
happen at least once per millisecond. It will happen at 2 KHz on average. If there are
collisions, then each collision adds one millisecond to the worst case (and 0.5 ms to the
average case). The reason why we don't just use a fixed 1ms timeout is that we want to avoid
resonance. Imagine a program in which some thread acquires a lock at 1 KHz in-phase with the
timeToBeFair timeout. Then this thread would be the benefactor of fairness to the detriment
of everyone else. Randomness ensures that we aren't too fair to any one thread.

Empirically, this is neutral on our major benchmarks like JetStream but it's an enormous
improvement in LockFairnessTest. It's common for an unfair lock (either our BargingLock, the
old WTF::Lock, any of the other futex-based locks that barge, or new os_unfair_lock) to
allow only one thread to hold the lock during a whole second in which each thread is holding
the lock for 1ms at a time. This is because in a barging lock, releasing a lock after
holding it for 1ms and then reacquiring it immediately virtually ensures that none of the
other threads can wake up in time to grab it before it's relocked. But the new WTF::Lock
handles this case like a champ: each thread gets equal turns.

Here's some data. If we launch 10 threads and have each of them run for 1 second while
repeatedly holding a critical section for 1ms, then here's how many times each thread gets
to hold the lock using the old WTF::Lock algorithm:

799, 6, 1, 1, 1, 1, 1, 1, 1, 1

One thread hogged the lock for almost the whole time! With the new WTF::Lock, the lock
becomes totally fair:

80, 79, 79, 79, 79, 79, 79, 80, 80, 79

I don't know of anyone creating such an automatically-fair adaptive lock before, so I think
that this is a pretty awesome advancement to the state of the art!

This change is good for three reasons:

- We do have long critical sections in WebKit and we don't want to have to worry about
  starvation. This reduces the likelihood that we will see starvation due to our lock
  strategy.

- I was talking to ggaren about bmalloc's locking needs, and he wanted unlockFairly() or
  lockFairly() or some moral equivalent for the scavenger thread.

- If we use a WTF::Lock to manage heap access in a multithreaded GC, we'll need the ability
  to unlock and relock without barging.

* benchmarks/LockFairnessTest.cpp:
(main):
* benchmarks/ToyLocks.h:
* wtf/Condition.h:
(WTF::ConditionBase::waitUntil):
(WTF::ConditionBase::notifyOne):
* wtf/Lock.cpp:
(WTF::LockBase::lockSlow):
(WTF::LockBase::unlockSlow):
(WTF::LockBase::unlockFairlySlow):
(WTF::LockBase::unlockSlowImpl):
* wtf/Lock.h:
(WTF::LockBase::try_lock):
(WTF::LockBase::unlock):
(WTF::LockBase::unlockFairly):
(WTF::LockBase::isHeld):
(WTF::LockBase::isFullyReset):
* wtf/ParkingLot.cpp:
(WTF::ParkingLot::parkConditionallyImpl):
(WTF::ParkingLot::unparkOne):
(WTF::ParkingLot::unparkOneImpl):
(WTF::ParkingLot::unparkAll):
* wtf/ParkingLot.h:
(WTF::ParkingLot::parkConditionally):
(WTF::ParkingLot::compareAndPark):
(WTF::ParkingLot::unparkOne):

Tools:

* TestWebKitAPI/Tests/WTF/ParkingLot.cpp:

git-svn-id: https://svn.webkit.org/repository/webkit/trunk@203350 268f45cc-cd09-0410-ab3c-d52691b4dbfc

Source/WTF/ChangeLog
Source/WTF/benchmarks/LockFairnessTest.cpp
Source/WTF/benchmarks/ToyLocks.h
Source/WTF/wtf/Condition.h
Source/WTF/wtf/Lock.cpp
Source/WTF/wtf/Lock.h
Source/WTF/wtf/ParkingLot.cpp
Source/WTF/wtf/ParkingLot.h
Tools/ChangeLog
Tools/TestWebKitAPI/Tests/WTF/ParkingLot.cpp

index af58bc4..632e777 100644 (file)
@@ -1,3 +1,140 @@
+2016-07-02  Filip Pizlo  <fpizlo@apple.com>
+
+        WTF::Lock should be fair eventually
+        https://bugs.webkit.org/show_bug.cgi?id=159384
+
+        Reviewed by Geoffrey Garen.
+        
+        In https://webkit.org/blog/6161/locking-in-webkit/ we showed how relaxing the fairness of
+        locks makes them fast. That post presented lock fairness as a trade-off between two
+        extremes:
+        
+        - Barging. A barging lock, like WTF::Lock, releases the lock in unlock() even if there was a
+          thread on the queue. If there was a thread on the queue, the lock is released and that
+          thread is made runnable. That thread may then grab the lock, or some other thread may grab
+          the lock first (it may barge). Usually, the barging thread is the thread that released the
+          lock in the first place. This maximizes throughput but hurts fairness. There is no good
+          theoretical bound on how unfair the lock may become, but empirical data suggests that it's
+          fair enough for the cases we previously measured.
+        
+        - FIFO. A FIFO lock, like HandoffLock in ToyLocks.h, does not release the lock in unlock()
+          if there is a thread waiting. If there is a thread waiting, unlock() will make that thread
+          runnable and inform it that it now holds the lock. This ensures perfect round-robin
+          fairness and allows us to reason theoretically about how long it may take for a thread to
+          grab the lock. For example, if we know that only N threads are running and each one may
+          contend on a critical section, and each one may hold the lock for at most S seconds, then
+          the time it takes to grab the lock is N * S. Unfortunately, FIFO locks perform very badly
+          in most cases. This is because for the common case of short critical sections, they force
+          a context switch after each critical section if the lock is contended.
+        
+        This change makes WTF::Lock almost as fair as FIFO while still being as fast as barging.
+        Thanks to this new algorithm, you can now have both of these things at the same time.
+        
+        This change makes WTF::Lock eventually fair. We can almost (more on the caveats below)
+        guarantee that the time it takes to grab a lock is N * max(1ms, S). In other words, critical
+        sections that are longer than 1ms are always fair. For shorter critical sections, the amount
+        of time that any thread waits is 1ms times the number of threads. There are some caveats
+        that arise from our use of randomness, but even then, in the limit as the critical section
+        length goes to infinity, the lock becomes fair. The corner cases are unlikely to happen; our
+        experiments show that the lock becomes exactly as fair as a FIFO lock for any critical
+        section that is 1ms or longer.
+        
+        The fairness mechanism is broken into two parts. WTF::Lock can now choose to unlock a lock
+        fairly or unfairly thanks to the new ParkingLot token mechanism. WTF::Lock knows when to use
+        fair unlocking based on a timeout mechanism in ParkingLot called timeToBeFair.
+        
+        ParkingLot::unparkOne() and ParkingLot::parkConditionally() can now communicate with each
+        other via a token. unparkOne() can pass a token, which parkConditionally() will return. This
+        change also makes parkConditionally() a lot more precise about when it was unparked due to a
+        call to unparkOne(). If unparkOne() is told that a thread was unparked then this thread is
+        guaranteed to report that it was unparked rather than timing out, and that thread is
+        guaranteed to get the token that unparkOne() passed. The token is an intptr_t. We use it as
+        a boolean variable in WTF::Lock, but you could use it to pass arbitrary data structures. By
+        default, the token is zero. WTF::Lock's unlock() will pass 1 as the token if it is doing
+        fair unlocking. In that case, unlock() will not release the lock, and lock() will know that
+        it holds the lock as soon as parkConditionally() returns. Note that this algorithm relies
+        on unparkOne() invoking WTF::Lock's callback while the queue lock is held, so that WTF::Lock
+        can make a decision about unlock strategy and inject a token while it has complete knowledge
+        over the state of the queue. As such, it's not immediately obvious how to implement this
+        algorithm on top of futexes. You really need ParkingLot!
+        
+        WTF::Lock does not use fair unlocking every time. We expose a new API, Lock::unlockFairly(),
+        which forces the fair unlocking behavior. Additionally, ParkingLot now maintains a
+        per-bucket stochastic fairness timeout. When the timeout fires, the unparkOne() callback
+        sees UnparkResult::timeToBeFair = true. This timeout is set to be anywhere from 0ms to 1ms
+        at random. When a dequeue happens and there are threads that actually get dequeued, we check
+        if the time since the last unfair unlock (the last time timeToBeFair was set to true) is
+        more than the timeout amount. If so, then we set timeToBeFair to true and reset the timeout.
+        This means that in the absence of ParkingLot collisions, unfair unlocking is guaranteed to
+        happen at least once per millisecond. It will happen at 2 KHz on average. If there are
+        collisions, then each collision adds one millisecond to the worst case (and 0.5 ms to the
+        average case). The reason why we don't just use a fixed 1ms timeout is that we want to avoid
+        resonance. Imagine a program in which some thread acquires a lock at 1 KHz in-phase with the
+        timeToBeFair timeout. Then this thread would be the benefactor of fairness to the detriment
+        of everyone else. Randomness ensures that we aren't too fair to any one thread.
+        
+        Empirically, this is neutral on our major benchmarks like JetStream but it's an enormous
+        improvement in LockFairnessTest. It's common for an unfair lock (either our BargingLock, the
+        old WTF::Lock, any of the other futex-based locks that barge, or new os_unfair_lock) to
+        allow only one thread to hold the lock during a whole second in which each thread is holding
+        the lock for 1ms at a time. This is because in a barging lock, releasing a lock after
+        holding it for 1ms and then reacquiring it immediately virtually ensures that none of the
+        other threads can wake up in time to grab it before it's relocked. But the new WTF::Lock
+        handles this case like a champ: each thread gets equal turns.
+        
+        Here's some data. If we launch 10 threads and have each of them run for 1 second while
+        repeatedly holding a critical section for 1ms, then here's how many times each thread gets
+        to hold the lock using the old WTF::Lock algorithm:
+        
+        799, 6, 1, 1, 1, 1, 1, 1, 1, 1
+        
+        One thread hogged the lock for almost the whole time! With the new WTF::Lock, the lock
+        becomes totally fair:
+        
+        80, 79, 79, 79, 79, 79, 79, 80, 80, 79
+        
+        I don't know of anyone creating such an automatically-fair adaptive lock before, so I think
+        that this is a pretty awesome advancement to the state of the art!
+        
+        This change is good for three reasons:
+        
+        - We do have long critical sections in WebKit and we don't want to have to worry about
+          starvation. This reduces the likelihood that we will see starvation due to our lock
+          strategy.
+        
+        - I was talking to ggaren about bmalloc's locking needs, and he wanted unlockFairly() or
+          lockFairly() or some moral equivalent for the scavenger thread.
+        
+        - If we use a WTF::Lock to manage heap access in a multithreaded GC, we'll need the ability
+          to unlock and relock without barging.
+
+        * benchmarks/LockFairnessTest.cpp:
+        (main):
+        * benchmarks/ToyLocks.h:
+        * wtf/Condition.h:
+        (WTF::ConditionBase::waitUntil):
+        (WTF::ConditionBase::notifyOne):
+        * wtf/Lock.cpp:
+        (WTF::LockBase::lockSlow):
+        (WTF::LockBase::unlockSlow):
+        (WTF::LockBase::unlockFairlySlow):
+        (WTF::LockBase::unlockSlowImpl):
+        * wtf/Lock.h:
+        (WTF::LockBase::try_lock):
+        (WTF::LockBase::unlock):
+        (WTF::LockBase::unlockFairly):
+        (WTF::LockBase::isHeld):
+        (WTF::LockBase::isFullyReset):
+        * wtf/ParkingLot.cpp:
+        (WTF::ParkingLot::parkConditionallyImpl):
+        (WTF::ParkingLot::unparkOne):
+        (WTF::ParkingLot::unparkOneImpl):
+        (WTF::ParkingLot::unparkAll):
+        * wtf/ParkingLot.h:
+        (WTF::ParkingLot::parkConditionally):
+        (WTF::ParkingLot::compareAndPark):
+        (WTF::ParkingLot::unparkOne):
+
 2016-07-17  Myles C. Maxfield  <mmaxfield@apple.com>
 
         Support new emoji group candidates
index e808908..f08321c 100644 (file)
@@ -48,12 +48,13 @@ namespace {
 
 NO_RETURN void usage()
 {
-    printf("Usage: LockFairnessTest yieldspinlock|pausespinlock|wordlock|lock|barginglock|bargingwordlock|thunderlock|thunderwordlock|cascadelock|cascadewordlockhandofflock|mutex|all <num threads> <seconds per test>\n");
+    printf("Usage: LockFairnessTest yieldspinlock|pausespinlock|wordlock|lock|barginglock|bargingwordlock|thunderlock|thunderwordlock|cascadelock|cascadewordlockhandofflock|mutex|all <num threads> <seconds per test> <microseconds in critical section>\n");
     exit(1);
 }
 
 unsigned numThreads;
 double secondsPerTest;
+unsigned microsecondsInCriticalSection;
 
 struct Benchmark {
     template<typename LockType>
@@ -72,9 +73,19 @@ struct Benchmark {
             threads[threadIndex] = createThread(
                 "Benchmark Thread",
                 [&, threadIndex] () {
+                    if (!microsecondsInCriticalSection) {
+                        while (keepGoing) {
+                            lock.lock();
+                            counts[threadIndex]++;
+                            lock.unlock();
+                        }
+                        return;
+                    }
+                    
                     while (keepGoing) {
                         lock.lock();
                         counts[threadIndex]++;
+                        usleep(microsecondsInCriticalSection);
                         lock.unlock();
                     }
                 });
@@ -85,8 +96,8 @@ struct Benchmark {
     
         sleep(secondsPerTest);
     
-        lock.lock();
         keepGoing = false;
+        lock.lock();
     
         dataLog(name, ": ");
         CommaPrinter comma;
@@ -106,9 +117,10 @@ int main(int argc, char** argv)
 {
     WTF::initializeThreading();
     
-    if (argc != 4
+    if (argc != 5
         || sscanf(argv[2], "%u", &numThreads) != 1
-        || sscanf(argv[3], "%lf", &secondsPerTest) != 1)
+        || sscanf(argv[3], "%lf", &secondsPerTest) != 1
+        || sscanf(argv[4], "%u", &microsecondsInCriticalSection) != 1)
         usage();
     
     runEverything<Benchmark>(argv[1]);
index 6dd33c1..43ad796 100644 (file)
@@ -235,11 +235,12 @@ private:
     {
         ParkingLot::unparkOne(
             &m_state,
-            [this] (ParkingLot::UnparkResult result) {
+            [this] (ParkingLot::UnparkResult result) -> intptr_t {
                 if (result.mayHaveMoreThreads)
                     m_state.store(hasParkedBit);
                 else
                     m_state.store(0);
+                return 0;
             });
     }
     
@@ -430,7 +431,7 @@ private:
             }
             
             if (m_state.compareExchangeWeak(state, state + parkedCountUnit)) {
-                bool result = ParkingLot::compareAndPark(&m_state, state + parkedCountUnit);
+                bool result = ParkingLot::compareAndPark(&m_state, state + parkedCountUnit).wasUnparked;
                 m_state.exchangeAndAdd(-parkedCountUnit);
                 if (result)
                     return;
index ff71ba5..4db3e29 100644 (file)
@@ -80,7 +80,7 @@ struct ConditionBase {
                     return true;
                 },
                 [&lock] () { lock.unlock(); },
-                timeout);
+                timeout).wasUnparked;
         }
         lock.lock();
         return result;
@@ -180,9 +180,10 @@ struct ConditionBase {
         
         ParkingLot::unparkOne(
             &m_hasWaiters,
-            [this] (ParkingLot::UnparkResult result) {
+            [this] (ParkingLot::UnparkResult result) -> intptr_t {
                 if (!result.mayHaveMoreThreads)
                     m_hasWaiters.store(false);
+                return 0;
             });
     }
     
index d7510a6..54276c3 100644 (file)
@@ -1,5 +1,5 @@
 /*
- * Copyright (C) 2015 Apple Inc. All rights reserved.
+ * Copyright (C) 2015-2016 Apple Inc. All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted provided that the following conditions
@@ -67,14 +67,39 @@ NEVER_INLINE void LockBase::lockSlow()
             continue;
 
         // We now expect the value to be isHeld|hasParked. So long as that's the case, we can park.
-        ParkingLot::compareAndPark(&m_byte, isHeldBit | hasParkedBit);
+        ParkingLot::ParkResult parkResult =
+            ParkingLot::compareAndPark(&m_byte, isHeldBit | hasParkedBit);
+        if (parkResult.wasUnparked) {
+            switch (static_cast<Token>(parkResult.token)) {
+            case DirectHandoff:
+                // The lock was never released. It was handed to us directly by the thread that did
+                // unlock(). This means we're done!
+                RELEASE_ASSERT(isHeld());
+                return;
+            case BargingOpportunity:
+                // This is the common case. The thread that called unlock() has released the lock,
+                // and we have been woken up so that we may get an opportunity to grab the lock. But
+                // other threads may barge, so the best that we can do is loop around and try again.
+                break;
+            }
+        }
 
         // We have awoken, or we never parked because the byte value changed. Either way, we loop
         // around and try again.
     }
 }
 
-NEVER_INLINE void LockBase::unlockSlow()
+void LockBase::unlockSlow()
+{
+    unlockSlowImpl(Unfair);
+}
+
+void LockBase::unlockFairlySlow()
+{
+    unlockSlowImpl(Fair);
+}
+
+NEVER_INLINE void LockBase::unlockSlowImpl(Fairness fairness)
 {
     // We could get here because the weak CAS in unlock() failed spuriously, or because there is
     // someone parked. So, we need a CAS loop: even if right now the lock is just held, it could
@@ -89,20 +114,29 @@ NEVER_INLINE void LockBase::unlockSlow()
             continue;
         }
 
-        // Someone is parked. Unpark exactly one thread, possibly leaving the parked bit set if
-        // there is a chance that there are still other threads parked.
+        // Someone is parked. Unpark exactly one thread. We may hand the lock to that thread
+        // directly, or we will unlock the lock at the same time as we unpark to allow for barging.
+        // When we unlock, we may leave the parked bit set if there is a chance that there are still
+        // other threads parked.
         ASSERT(oldByteValue == (isHeldBit | hasParkedBit));
         ParkingLot::unparkOne(
             &m_byte,
-            [this] (ParkingLot::UnparkResult result) {
+            [&] (ParkingLot::UnparkResult result) -> intptr_t {
                 // We are the only ones that can clear either the isHeldBit or the hasParkedBit,
                 // so we should still see both bits set right now.
                 ASSERT(m_byte.load() == (isHeldBit | hasParkedBit));
+                
+                if (result.didUnparkThread && (fairness == Fair || result.timeToBeFair)) {
+                    // We don't unlock anything. Instead, we hand the lock to the thread that was
+                    // waiting.
+                    return DirectHandoff;
+                }
 
                 if (result.mayHaveMoreThreads)
                     m_byte.store(hasParkedBit);
                 else
                     m_byte.store(0);
+                return BargingOpportunity;
             });
         return;
     }
index 0007dec..1c9359e 100644 (file)
@@ -1,5 +1,5 @@
 /*
- * Copyright (C) 2015 Apple Inc. All rights reserved.
+ * Copyright (C) 2015-2016 Apple Inc. All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted provided that the following conditions
@@ -40,8 +40,13 @@ namespace WTF {
 // This is a fully adaptive mutex that only requires 1 byte of storage. It has fast paths that are
 // competetive to a spinlock (uncontended locking is inlined and is just a CAS, microcontention is
 // handled by spinning and yielding), and a slow path that is competetive to std::mutex (if a lock
-// cannot be acquired in a short period of time, the thread is put to sleep until the lock is available
-// again). It uses less memory than a std::mutex.
+// cannot be acquired in a short period of time, the thread is put to sleep until the lock is
+// available again). It uses less memory than a std::mutex. This lock guarantees eventual stochastic
+// fairness, even in programs that relock the lock immediately after unlocking it. Except when there
+// are collisions between this lock and other locks in the ParkingLot, this lock will guarantee that
+// at worst one call to unlock() per millisecond will do a direct hand-off to the thread that is at
+// the head of the queue. When there are collisions, each collision increases the fair unlock delay
+// by one millisecond in the worst case.
 
 // This is a struct without a constructor or destructor so that it can be statically initialized.
 // Use Lock in instance variables.
@@ -73,6 +78,14 @@ struct LockBase {
         return tryLock();
     }
 
+    // Relinquish the lock. Either one of the threads that were waiting for the lock, or some other
+    // thread that happens to be running, will be able to grab the lock. This bit of unfairness is
+    // called barging, and we allow it because it maximizes throughput. However, we bound how unfair
+    // barging can get by ensuring that every once in a while, when there is a thread waiting on the
+    // lock, we hand the lock to that thread directly. Every time unlock() finds a thread waiting,
+    // we check if the last time that we did a fair unlock was more than roughly 1ms ago; if so, we
+    // unlock fairly. Fairness matters most for long critical sections, and this virtually
+    // guarantees that long critical sections always get a fair lock.
     void unlock()
     {
         if (LIKELY(m_byte.compareExchangeWeak(isHeldBit, 0, std::memory_order_release))) {
@@ -83,6 +96,21 @@ struct LockBase {
         unlockSlow();
     }
 
+    // This is like unlock() but it guarantees that we unlock the lock fairly. For short critical
+    // sections, this is much slower than unlock(). For long critical sections, unlock() will learn
+    // to be fair anyway. However, if you plan to relock the lock right after unlocking and you want
+    // to ensure that some other thread runs in the meantime, this is probably the function you
+    // want.
+    void unlockFairly()
+    {
+        if (LIKELY(m_byte.compareExchangeWeak(isHeldBit, 0, std::memory_order_release))) {
+            // Lock released and nobody was waiting!
+            return;
+        }
+
+        unlockFairlySlow();
+    }
+
     bool isHeld() const
     {
         return m_byte.load(std::memory_order_acquire) & isHeldBit;
@@ -101,6 +129,18 @@ protected:
 
     WTF_EXPORT_PRIVATE void lockSlow();
     WTF_EXPORT_PRIVATE void unlockSlow();
+    WTF_EXPORT_PRIVATE void unlockFairlySlow();
+    
+    enum Fairness {
+        Fair,
+        Unfair
+    };
+    void unlockSlowImpl(Fairness);
+    
+    enum Token {
+        BargingOpportunity,
+        DirectHandoff
+    };
 
     // Method used for testing only.
     bool isFullyReset() const
index 60962e0..a01db8e 100644 (file)
 #include "config.h"
 #include "ParkingLot.h"
 
+#include "CurrentTime.h"
 #include "DataLog.h"
 #include "HashFunctions.h"
 #include "StringPrintStream.h"
 #include "ThreadSpecific.h"
 #include "ThreadingPrimitives.h"
 #include "Vector.h"
+#include "WeakRandom.h"
 #include "WordLock.h"
 #include <condition_variable>
 #include <mutex>
@@ -58,6 +60,8 @@ public:
     const void* address { nullptr };
     
     ThreadData* nextInQueue { nullptr };
+    
+    intptr_t token { 0 };
 };
 
 enum class DequeueResult {
@@ -69,6 +73,11 @@ enum class DequeueResult {
 struct Bucket {
     WTF_MAKE_FAST_ALLOCATED;
 public:
+    Bucket()
+        : random(static_cast<unsigned>(bitwise_cast<intptr_t>(this))) // Cannot use default seed since that recurses into Lock.
+    {
+    }
+    
     void enqueue(ThreadData* data)
     {
         if (verbose)
@@ -123,13 +132,21 @@ public:
         bool shouldContinue = true;
         ThreadData** currentPtr = &queueHead;
         ThreadData* previous = nullptr;
+
+        double time = monotonicallyIncreasingTimeMS();
+        bool timeToBeFair = false;
+        if (time > nextFairTime)
+            timeToBeFair = true;
+        
+        bool didDequeue = false;
+        
         while (shouldContinue) {
             ThreadData* current = *currentPtr;
             if (verbose)
                 dataLog(toString(currentThread(), ": got thread ", RawPointer(current), "\n"));
             if (!current)
                 break;
-            DequeueResult result = functor(current);
+            DequeueResult result = functor(current, timeToBeFair);
             switch (result) {
             case DequeueResult::Ignore:
                 if (verbose)
@@ -143,6 +160,7 @@ public:
                     dataLog(toString(currentThread(), ": dequeueing ", RawPointer(current), " from ", RawPointer(this), "\n"));
                 if (current == queueTail)
                     queueTail = previous;
+                didDequeue = true;
                 *currentPtr = current->nextInQueue;
                 current->nextInQueue = nullptr;
                 if (result == DequeueResult::RemoveAndStop)
@@ -150,6 +168,9 @@ public:
                 break;
             }
         }
+        
+        if (timeToBeFair && didDequeue)
+            nextFairTime = time + random.get();
 
         ASSERT(!!queueHead == !!queueTail);
     }
@@ -158,7 +179,7 @@ public:
     {
         ThreadData* result = nullptr;
         genericDequeue(
-            [&] (ThreadData* element) -> DequeueResult {
+            [&] (ThreadData* element, bool) -> DequeueResult {
                 result = element;
                 return DequeueResult::RemoveAndStop;
             });
@@ -171,6 +192,10 @@ public:
     // This lock protects the entire bucket. Thou shall not make changes to Bucket without holding
     // this lock.
     WordLock lock;
+    
+    double nextFairTime { 0 };
+    
+    WeakRandom random;
 
     // Put some distane between buckets in memory. This is one of several mitigations against false
     // sharing.
@@ -530,7 +555,7 @@ bool dequeue(
 
 } // anonymous namespace
 
-NEVER_INLINE bool ParkingLot::parkConditionallyImpl(
+NEVER_INLINE ParkingLot::ParkResult ParkingLot::parkConditionallyImpl(
     const void* address,
     const ScopedLambda<bool()>& validation,
     const ScopedLambda<void()>& beforeSleep,
@@ -540,11 +565,12 @@ NEVER_INLINE bool ParkingLot::parkConditionallyImpl(
         dataLog(toString(currentThread(), ": parking.\n"));
     
     ThreadData* me = myThreadData();
+    me->token = 0;
 
     // Guard against someone calling parkConditionally() recursively from beforeSleep().
     RELEASE_ASSERT(!me->address);
 
-    bool result = enqueue(
+    bool enqueueResult = enqueue(
         address,
         [&] () -> ThreadData* {
             if (!validation())
@@ -554,8 +580,8 @@ NEVER_INLINE bool ParkingLot::parkConditionallyImpl(
             return me;
         });
 
-    if (!result)
-        return false;
+    if (!enqueueResult)
+        return ParkResult();
 
     beforeSleep();
     
@@ -582,34 +608,48 @@ NEVER_INLINE bool ParkingLot::parkConditionallyImpl(
     
     if (didGetDequeued) {
         // Great! We actually got dequeued rather than the timeout expiring.
-        return true;
+        ParkResult result;
+        result.wasUnparked = true;
+        result.token = me->token;
+        return result;
     }
 
     // Have to remove ourselves from the queue since we timed out and nobody has dequeued us yet.
 
-    // It's possible that we get unparked right here, just before dequeue() grabs a lock. It's
-    // probably worthwhile to detect when this happens, and return true in that case, to ensure
-    // that when we return false it really means that no unpark could have been responsible for us
-    // waking up, and that if an unpark call did happen, it woke someone else up.
+    bool didDequeue = false;
     dequeue(
         address, BucketMode::IgnoreEmpty,
-        [&] (ThreadData* element) {
-            if (element == me)
+        [&] (ThreadData* element, bool) {
+            if (element == me) {
+                didDequeue = true;
                 return DequeueResult::RemoveAndStop;
+            }
             return DequeueResult::Ignore;
         },
         [] (bool) { });
-
-    ASSERT(!me->nextInQueue);
+    
+    // If didDequeue is true, then we dequeued ourselves. This means that we were not unparked.
+    // If didDequeue is false, then someone unparked us.
+    
+    RELEASE_ASSERT(!me->nextInQueue);
 
     // Make sure that no matter what, me->address is null after this point.
     {
         std::lock_guard<std::mutex> locker(me->parkingLock);
+        if (!didDequeue) {
+            // If we were unparked then our address would have been reset by the unparker.
+            RELEASE_ASSERT(!me->address);
+        }
         me->address = nullptr;
     }
 
-    // If we were not found in the search above, then we know that someone unparked us.
-    return false;
+    ParkResult result;
+    result.wasUnparked = !didDequeue;
+    if (!didDequeue) {
+        // If we were unparked then there should be a token.
+        result.token = me->token;
+    }
+    return result;
 }
 
 NEVER_INLINE ParkingLot::UnparkResult ParkingLot::unparkOne(const void* address)
@@ -623,7 +663,7 @@ NEVER_INLINE ParkingLot::UnparkResult ParkingLot::unparkOne(const void* address)
     result.mayHaveMoreThreads = dequeue(
         address,
         BucketMode::EnsureNonEmpty,
-        [&] (ThreadData* element) {
+        [&] (ThreadData* element, bool) {
             if (element->address != address)
                 return DequeueResult::Ignore;
             threadData = element;
@@ -643,6 +683,7 @@ NEVER_INLINE ParkingLot::UnparkResult ParkingLot::unparkOne(const void* address)
     {
         std::unique_lock<std::mutex> locker(threadData->parkingLock);
         threadData->address = nullptr;
+        threadData->token = 0;
     }
     threadData->parkingCondition.notify_one();
 
@@ -651,26 +692,33 @@ NEVER_INLINE ParkingLot::UnparkResult ParkingLot::unparkOne(const void* address)
 
 NEVER_INLINE void ParkingLot::unparkOneImpl(
     const void* address,
-    const ScopedLambda<void(ParkingLot::UnparkResult)>& callback)
+    const ScopedLambda<intptr_t(ParkingLot::UnparkResult)>& callback)
 {
     if (verbose)
         dataLog(toString(currentThread(), ": unparking one the hard way.\n"));
-
+    
     ThreadData* threadData = nullptr;
+    bool timeToBeFair = false;
     dequeue(
         address,
         BucketMode::EnsureNonEmpty,
-        [&] (ThreadData* element) {
+        [&] (ThreadData* element, bool passedTimeToBeFair) {
             if (element->address != address)
                 return DequeueResult::Ignore;
             threadData = element;
+            timeToBeFair = passedTimeToBeFair;
             return DequeueResult::RemoveAndStop;
         },
         [&] (bool mayHaveMoreThreads) {
             UnparkResult result;
             result.didUnparkThread = !!threadData;
             result.mayHaveMoreThreads = result.didUnparkThread && mayHaveMoreThreads;
-            callback(result);
+            if (timeToBeFair)
+                RELEASE_ASSERT(threadData);
+            result.timeToBeFair = timeToBeFair;
+            intptr_t token = callback(result);
+            if (threadData)
+                threadData->token = token;
         });
 
     if (!threadData)
@@ -694,7 +742,7 @@ NEVER_INLINE void ParkingLot::unparkAll(const void* address)
     dequeue(
         address,
         BucketMode::IgnoreEmpty,
-        [&] (ThreadData* element) {
+        [&] (ThreadData* element, bool) {
             if (verbose)
                 dataLog(toString(currentThread(), ": Observing element with address = ", RawPointer(element->address), "\n"));
             if (element->address != address)
index 337aa95..e740b63 100644 (file)
@@ -43,17 +43,28 @@ public:
     
     // Parks the thread in a queue associated with the given address, which cannot be null. The
     // parking only succeeds if the validation function returns true while the queue lock is held.
+    //
     // If validation returns false, it will unlock the internal parking queue and then it will
-    // return without doing anything else. If validation returns true, it will enqueue the thread,
-    // unlock the parking queue lock, call the beforeSleep function, and then it will sleep so long
-    // as the thread continues to be on the queue and the timeout hasn't fired. Finally, this
-    // returns true if we actually got unparked or false if the timeout was hit. Note that
-    // beforeSleep is called with no locks held, so it's OK to do pretty much anything so long as
-    // you don't recursively call parkConditionally(). You can call unparkOne()/unparkAll() though.
-    // It's useful to use beforeSleep() to unlock some mutex in the implementation of
+    // return a null ParkResult (wasUnparked = false, token = 0) without doing anything else.
+    //
+    // If validation returns true, it will enqueue the thread, unlock the parking queue lock, call
+    // the beforeSleep function, and then it will sleep so long as the thread continues to be on the
+    // queue and the timeout hasn't fired. Finally, this returns wasUnparked = true if we actually
+    // got unparked or wasUnparked = false if the timeout was hit. When wasUnparked = true, the
+    // token will contain whatever token was returned from the callback to unparkOne(), or 0 if the
+    // thread was unparked using unparkAll() or the form of unparkOne() that doesn't take a
+    // callback.
+    //
+    // Note that beforeSleep is called with no locks held, so it's OK to do pretty much anything so
+    // long as you don't recursively call parkConditionally(). You can call unparkOne()/unparkAll()
+    // though. It's useful to use beforeSleep() to unlock some mutex in the implementation of
     // Condition::wait().
+    struct ParkResult {
+        bool wasUnparked { false };
+        intptr_t token { 0 };
+    };
     template<typename ValidationFunctor, typename BeforeSleepFunctor>
-    static bool parkConditionally(
+    static ParkResult parkConditionally(
         const void* address,
         ValidationFunctor&& validation,
         BeforeSleepFunctor&& beforeSleep,
@@ -69,7 +80,7 @@ public:
     // Simple version of parkConditionally() that covers the most common case: you want to park
     // indefinitely so long as the value at the given address hasn't changed.
     template<typename T, typename U>
-    static bool compareAndPark(const Atomic<T>* address, U expected)
+    static ParkResult compareAndPark(const Atomic<T>* address, U expected)
     {
         return parkConditionally(
             address,
@@ -81,30 +92,41 @@ public:
             Clock::time_point::max());
     }
 
-    // Unparks one thread from the queue associated with the given address, which cannot be null.
-    // Returns true if there may still be other threads on that queue, or false if there definitely
-    // are no more threads on the queue.
+    // Unparking status given to you anytime you unparkOne().
     struct UnparkResult {
+        // True if some thread was unparked.
         bool didUnparkThread { false };
+        // True if there may be more threads on this address. This may be conservatively true.
         bool mayHaveMoreThreads { false };
+        // This bit is randomly set to true indicating that it may be profitable to unlock the lock
+        // using a fair unlocking protocol. This is most useful when used in conjunction with
+        // unparkOne(address, callback).
+        bool timeToBeFair { false };
     };
+
+    // Unparks one thread from the queue associated with the given address, which cannot be null.
+    // Returns true if there may still be other threads on that queue, or false if there definitely
+    // are no more threads on the queue.
     WTF_EXPORT_PRIVATE static UnparkResult unparkOne(const void* address);
 
+    // This is an expert-mode version of unparkOne() that allows for really good thundering herd
+    // avoidance and eventual stochastic fairness in adaptive mutexes.
+    //
     // Unparks one thread from the queue associated with the given address, and calls the given
-    // functor while the address is locked. Reports to the callback whether any thread got unparked
-    // and whether there may be any other threads still on the queue. This is an expert-mode version
-    // of unparkOne() that allows for really good thundering herd avoidance in adaptive mutexes.
-    // Without this, a lock implementation that uses unparkOne() has to have some trick for knowing
-    // if there are still threads parked on the queue, so that it can set some bit in its lock word
-    // to indicate that the next unlock() also needs to unparkOne(). But there is a race between
-    // manipulating that bit and some other thread acquiring the lock. It's possible to work around
-    // that race - see Rusty Russel's well-known usersem library - but it's not pretty. This form
-    // allows that race to be completely avoided, since there is no way that a thread can be parked
-    // while the callback is running.
+    // callback while the address is locked. Reports to the callback whether any thread got
+    // unparked, whether there may be any other threads still on the queue, and whether this may be
+    // a good time to do fair unlocking. The callback returns an intptr_t token, which is returned
+    // to the unparked thread via ParkResult::token.
+    //
+    // WTF::Lock and WTF::Condition both use this form of unparkOne() because it allows them to use
+    // the ParkingLot's internal queue lock to serialize some decision-making. For example, if
+    // UnparkResult::mayHaveMoreThreads is false inside the callback, then we know that at that
+    // moment nobody can add any threads to the queue because the queue lock is still held. Also,
+    // WTF::Lock uses the timeToBeFair and token mechanism to implement eventual fairness.
     template<typename Callback>
     static void unparkOne(const void* address, Callback&& callback)
     {
-        unparkOneImpl(address, scopedLambda<void(UnparkResult)>(std::forward<Callback>(callback)));
+        unparkOneImpl(address, scopedLambda<intptr_t(UnparkResult)>(std::forward<Callback>(callback)));
     }
 
     // Unparks every thread from the queue associated with the given address, which cannot be null.
@@ -126,14 +148,14 @@ public:
     WTF_EXPORT_PRIVATE static void forEach(std::function<void(ThreadIdentifier, const void*)>);
 
 private:
-    WTF_EXPORT_PRIVATE static bool parkConditionallyImpl(
+    WTF_EXPORT_PRIVATE static ParkResult parkConditionallyImpl(
         const void* address,
         const ScopedLambda<bool()>& validation,
         const ScopedLambda<void()>& beforeSleep,
         Clock::time_point timeout);
     
     WTF_EXPORT_PRIVATE static void unparkOneImpl(
-        const void* address, const ScopedLambda<void(UnparkResult)>& callback);
+        const void* address, const ScopedLambda<intptr_t(UnparkResult)>& callback);
 
     WTF_EXPORT_PRIVATE static void forEachImpl(const std::function<void(ThreadIdentifier, const void*)>&);
 };
index 20a067b..dace420 100644 (file)
@@ -1,3 +1,12 @@
+2016-07-02  Filip Pizlo  <fpizlo@apple.com>
+
+        WTF::Lock should be fair eventually
+        https://bugs.webkit.org/show_bug.cgi?id=159384
+
+        Reviewed by Geoffrey Garen.
+
+        * TestWebKitAPI/Tests/WTF/ParkingLot.cpp:
+
 2016-07-17  Sam Weinig  <sam@webkit.org>
 
         [WebKit API] Add SPI to track multiple navigations caused by a single user gesture
index cad99d5..c67e1e0 100644 (file)
@@ -148,7 +148,7 @@ struct SingleLatchTest {
             }
             
             // We need to wait.
-            if (ParkingLot::compareAndPark(&semaphore, newSemaphoreValue)) {
+            if (ParkingLot::compareAndPark(&semaphore, newSemaphoreValue).wasUnparked) {
                 // We did wait, and then got woken up. This means that someone who up'd the semaphore
                 // passed ownership onto us.
                 return;