diff --git a/CHANGE_LOG.TXT b/CHANGE_LOG.TXT
index 8c0b9a89ad..d0e0398204 100644
--- a/CHANGE_LOG.TXT
+++ b/CHANGE_LOG.TXT
@@ -1,25 +1,39 @@
 //-----------------------------------------------------------------------------
 
-1.3.0    03/03/2014
+1.3.1    05/22/2014
     - New features:
-    	- CUB's collective (block-wide, warp-wide) primitives underwent a minor 
-    	  interface refactoring:
-    	    - To provide the appropriate support for multidimensional thread blocks,
-    	      The interfaces for collective classes are now template-parameterized 
-    	      by X, Y, and Z block dimensions (with BLOCK_DIM_Y and BLOCK_DIM_Z being 
-    	      optional, and BLOCK_DIM_X replacing BLOCK_THREADS).  Furthermore, the 
-    	      constructors that accept remapped linear thread-identifiers have been 
-    	      removed: all primitives now assume a row-major thread-ranking for 
-    	      multidimensional thread blocks.  
-    	    - To allow the host program (compiled by the host-pass) to 
-    	      accurately determine the device-specific storage requirements for 
-    	      a given collective (compiled for each device-pass), the interfaces 
-    	      for collective classes are now (optionally) template-parameterized 
-    	      by the desired PTX compute capability. This is useful when 
-    	      aliasing collective storage to shared memory that has been 
-    	      allocated dynamically by the host at the kernel call site.   
-    	    - Most CUB programs having typical 1D usage should not require any 
-    	      changes to accomodate these updates.
+        - Added new "combination" WarpScan methods for efficiently computing 
+          both inclusive and exclusive prefix scans (and sums).
+    - Bug fixes: 
+        - Workaround for a benign WAW race warning reported by cuda-memcheck
+          in BlockScan specialized for BLOCK_SCAN_WARP_SCANS algorithm.
+        - Fix for bug in DeviceRadixSort where the algorithm may sort more 
+          key bits than the caller specified (up to the nearest radix digit).
+        - Fix for ~3% DeviceRadixSort performance regression on Kepler and 
+          Fermi that was introduced in v1.3.0.  
+
+//-----------------------------------------------------------------------------
+
+1.3.0    05/12/2014
+    - New features:
+        - CUB's collective (block-wide, warp-wide) primitives underwent a minor 
+          interface refactoring:
+            - To provide the appropriate support for multidimensional thread blocks,
+              The interfaces for collective classes are now template-parameterized 
+              by X, Y, and Z block dimensions (with BLOCK_DIM_Y and BLOCK_DIM_Z being 
+              optional, and BLOCK_DIM_X replacing BLOCK_THREADS).  Furthermore, the 
+              constructors that accept remapped linear thread-identifiers have been 
+              removed: all primitives now assume a row-major thread-ranking for 
+              multidimensional thread blocks.  
+            - To allow the host program (compiled by the host-pass) to 
+              accurately determine the device-specific storage requirements for 
+              a given collective (compiled for each device-pass), the interfaces 
+              for collective classes are now (optionally) template-parameterized 
+              by the desired PTX compute capability. This is useful when 
+              aliasing collective storage to shared memory that has been 
+              allocated dynamically by the host at the kernel call site.   
+            - Most CUB programs having typical 1D usage should not require any 
+              changes to accomodate these updates.
     - Bug fixes: 
         - Fixed bug in cub::WarpScan (which affected cub::BlockScan and 
           cub::DeviceScan) where incorrect results (e.g., NAN) would often be 
@@ -34,7 +48,7 @@
 
 //-----------------------------------------------------------------------------
 
-1.2.3    03/03/2014
+1.2.3    04/01/2014
     - Bug fixes: 
         - Fixed access violation bug in DeviceReduce::ReduceByKey for non-primitive value types
         - Fixed code-snippet bug in ArgIndexInputIterator documentation 
@@ -43,18 +57,25 @@
 
 1.2.2    03/03/2014
     - New features:
-        - Added device-wide reduce-by-key (DeviceReduce::ReduceByKey, DeviceReduce::RunLengthEncode)
         - Added MS VC++ project solutions for device-wide and block-wide examples 
     - Performance:
-        - Improved DeviceScan, DeviceSelect, DevicePartition performance
         - Added a third algorithmic variant of cub::BlockReduce for improved performance
           when using commutative operators (e.g., numeric addition)
+    - Bug fixes: 
+        - Fixed bug where inclusion of Thrust headers in a certain order prevented CUB device-wide primitives from working properly
+
+//-----------------------------------------------------------------------------
+
+1.2.0    02/25/2014
+    - New features:
+        - Added device-wide reduce-by-key (DeviceReduce::ReduceByKey, DeviceReduce::RunLengthEncode) 
+    - Performance
+        - Improved DeviceScan, DeviceSelect, DevicePartition performance
     - Documentation and testing:
         - Compatible with CUDA 6.0
-        - Added performance-portabiltiy plots for many device-wide primitives to doc 
+        - Added performance-portability plots for many device-wide primitives to doc 
         - Update doc and tests to reflect iterator (in)compatibilities with CUDA 5.0 (and older) and Thrust 1.6 (and older).
-    - Bug fixes: 
-        - Fixed bug where inclusion of Thrust headers in a certain order prevented CUB device-wide primitives from working properly
+    - Bug fixes 
         - Revised the operation of temporary tile status bookkeeping for DeviceScan (and similar) to be safe for current code run on future platforms (now uses proper fences)  
         - Fixed DeviceScan bug where Win32 alignment disagreements between host and device regarding user-defined data types would corrupt tile status
         - Fixed BlockScan bug where certain exclusive scans on custom data types for the BLOCK_SCAN_WARP_SCANS variant would return incorrect results for the first thread in the block
diff --git a/cub/block/block_radix_rank.cuh b/cub/block/block_radix_rank.cuh
index dc808a06cf..4b5a6a7615 100644
--- a/cub/block/block_radix_rank.cuh
+++ b/cub/block/block_radix_rank.cuh
@@ -198,13 +198,17 @@ private:
             UnsignedBits    (&keys)[KEYS_PER_THREAD],               // Key to decode
             DigitCounter    (&thread_prefixes)[KEYS_PER_THREAD],    // Prefix counter value (out parameter)
             DigitCounter*   (&digit_counters)[KEYS_PER_THREAD],     // Counter smem offset (out parameter)
-            int             current_bit)                            // The least-significant bit position of the current digit to extract
+            int             current_bit,                            // The least-significant bit position of the current digit to extract
+            int             num_bits)                               // The number of bits in the current digit
         {
+            // Get digit
+            UnsignedBits digit = BFE(keys[COUNT], current_bit, num_bits);
+
             // Get sub-counter
-            UnsignedBits sub_counter = BFE(keys[COUNT], current_bit + LOG_COUNTER_LANES, LOG_PACKING_RATIO);
+            UnsignedBits sub_counter = digit >> LOG_COUNTER_LANES;
 
             // Get counter lane
-            UnsignedBits counter_lane = BFE(keys[COUNT], current_bit, LOG_COUNTER_LANES);
+            UnsignedBits counter_lane = digit & (COUNTER_LANES - 1);
 
             if (DESCENDING)
             {
@@ -222,7 +226,7 @@ private:
             *digit_counters[COUNT] = thread_prefixes[COUNT] + 1;
 
             // Iterate next key
-            Iterate<COUNT + 1, MAX>::DecodeKeys(cta, keys, thread_prefixes, digit_counters, current_bit);
+            Iterate<COUNT + 1, MAX>::DecodeKeys(cta, keys, thread_prefixes, digit_counters, current_bit, num_bits);
         }
 
 
@@ -253,7 +257,9 @@ private:
             UnsignedBits    (&keys)[KEYS_PER_THREAD],
             DigitCounter    (&thread_prefixes)[KEYS_PER_THREAD],
             DigitCounter*   (&digit_counters)[KEYS_PER_THREAD],
-            int             current_bit) {}
+            int             current_bit,                            // The least-significant bit position of the current digit to extract
+            int             num_bits)                               // The number of bits in the current digit
+        {}
 
 
         // UpdateRanks
@@ -261,7 +267,8 @@ private:
         static __device__ __forceinline__ void UpdateRanks(
             int             (&ranks)[KEYS_PER_THREAD],
             DigitCounter    (&thread_prefixes)[KEYS_PER_THREAD],
-            DigitCounter    *(&digit_counters)[KEYS_PER_THREAD]) {}
+            DigitCounter    *(&digit_counters)[KEYS_PER_THREAD])
+        {}
     };
 
 
@@ -416,7 +423,8 @@ public:
     __device__ __forceinline__ void RankKeys(
         UnsignedBits    (&keys)[KEYS_PER_THREAD],           ///< [in] Keys for this tile
         int             (&ranks)[KEYS_PER_THREAD],          ///< [out] For each key, the local rank within the tile
-        int             current_bit)                        ///< [in] The least-significant bit position of the current digit to extract
+        int             current_bit,                        ///< [in] The least-significant bit position of the current digit to extract
+        int             num_bits)                           ///< [in] The number of bits in the current digit
     {
         DigitCounter    thread_prefixes[KEYS_PER_THREAD];   // For each key, the count of previous keys in this tile having the same digit
         DigitCounter*   digit_counters[KEYS_PER_THREAD];    // For each key, the byte-offset of its corresponding digit counter in smem
@@ -425,7 +433,7 @@ public:
         ResetCounters();
 
         // Decode keys and update digit counters
-        Iterate<0, KEYS_PER_THREAD>::DecodeKeys(*this, keys, thread_prefixes, digit_counters, current_bit);
+        Iterate<0, KEYS_PER_THREAD>::DecodeKeys(*this, keys, thread_prefixes, digit_counters, current_bit, num_bits);
 
         __syncthreads();
 
@@ -449,10 +457,11 @@ public:
         UnsignedBits    (&keys)[KEYS_PER_THREAD],           ///< [in] Keys for this tile
         int             (&ranks)[KEYS_PER_THREAD],          ///< [out] For each key, the local rank within the tile (out parameter)
         int             current_bit,                        ///< [in] The least-significant bit position of the current digit to extract
+        int             num_bits,                           ///< [in] The number of bits in the current digit
         int             &inclusive_digit_prefix)            ///< [out] The incluisve prefix sum for the digit threadIdx.x
     {
         // Rank keys
-        RankKeys(keys, ranks, current_bit);
+        RankKeys(keys, ranks, current_bit, num_bits);
 
         // Get the inclusive and exclusive digit totals corresponding to the calling thread.
         if ((BLOCK_THREADS == RADIX_DIGITS) || (linear_tid < RADIX_DIGITS))
diff --git a/cub/block/block_radix_sort.cuh b/cub/block/block_radix_sort.cuh
index a415f3d973..36006b337c 100644
--- a/cub/block/block_radix_sort.cuh
+++ b/cub/block/block_radix_sort.cuh
@@ -220,12 +220,14 @@ private:
         UnsignedBits    (&unsigned_keys)[ITEMS_PER_THREAD],
         int             (&ranks)[ITEMS_PER_THREAD],
         int             begin_bit,
+        int             pass_bits,
         Int2Type<false> is_descending)
     {
         AscendingBlockRadixRank(temp_storage.asending_ranking_storage).RankKeys(
             unsigned_keys,
             ranks,
-            begin_bit);
+            begin_bit,
+            pass_bits);
     }
 
     /// Rank keys (specialized for descending sort)
@@ -299,9 +301,11 @@ private:
         // Radix sorting passes
         while (true)
         {
+            int pass_bits = CUB_MIN(RADIX_BITS, end_bit - begin_bit);
+
             // Rank the blocked keys
             int ranks[ITEMS_PER_THREAD];
-            RankKeys(unsigned_keys, ranks, begin_bit, is_descending);
+            RankKeys(unsigned_keys, ranks, begin_bit, pass_bits, is_descending);
             begin_bit += RADIX_BITS;
 
             __syncthreads();
@@ -349,9 +353,11 @@ private:
         // Radix sorting passes
         while (true)
         {
+            int pass_bits = CUB_MIN(RADIX_BITS, end_bit - begin_bit);
+
             // Rank the blocked keys
             int ranks[ITEMS_PER_THREAD];
-            RankKeys(unsigned_keys, ranks, begin_bit, is_descending);
+            RankKeys(unsigned_keys, ranks, begin_bit, pass_bits, is_descending);
             begin_bit += RADIX_BITS;
 
             __syncthreads();
diff --git a/cub/block_range/block_range_radix_sort_downsweep.cuh b/cub/block_range/block_range_radix_sort_downsweep.cuh
index 50546a5b79..4141315ed9 100644
--- a/cub/block_range/block_range_radix_sort_downsweep.cuh
+++ b/cub/block_range/block_range_radix_sort_downsweep.cuh
@@ -242,6 +242,9 @@ struct BlockRangeRadixSortDownsweep
     // The least-significant bit position of the current digit to extract
     int             current_bit;
 
+    // Number of bits in current digit
+    int             num_bits;
+
     // Whether to short-ciruit
     bool            short_circuit;
 
@@ -261,7 +264,7 @@ struct BlockRangeRadixSortDownsweep
         #pragma unroll
         for (int KEY = 0; KEY < ITEMS_PER_THREAD; KEY++)
         {
-            UnsignedBits digit = BFE(twiddled_keys[KEY], current_bit, RADIX_BITS);
+            UnsignedBits digit = BFE(twiddled_keys[KEY], current_bit, num_bits);
 
             // Lookup base digit offset from shared memory
             relative_bin_offsets[KEY] = temp_storage.relative_bin_offsets[digit];
@@ -522,6 +525,7 @@ struct BlockRangeRadixSortDownsweep
             twiddled_keys,
             ranks,
             current_bit,
+            num_bits,
             inclusive_digit_prefix);
 
         // Update global scatter base offsets for each digit
@@ -639,7 +643,8 @@ struct BlockRangeRadixSortDownsweep
         Key         *d_keys_out,
         Value       *d_values_in,
         Value       *d_values_out,
-        int         current_bit)
+        int         current_bit,
+        int         num_bits)
     :
         temp_storage(temp_storage.Alias()),
         bin_offset(bin_offset),
@@ -648,6 +653,7 @@ struct BlockRangeRadixSortDownsweep
         d_values_in(d_values_in),
         d_values_out(d_values_out),
         current_bit(current_bit),
+        num_bits(num_bits),
         short_circuit(false)
     {}
 
@@ -663,14 +669,16 @@ struct BlockRangeRadixSortDownsweep
         Key         *d_keys_out,
         Value       *d_values_in,
         Value       *d_values_out,
-        int         current_bit)
+        int         current_bit,
+        int         num_bits)
     :
         temp_storage(temp_storage.Alias()),
         d_keys_in(reinterpret_cast<UnsignedBits*>(d_keys_in)),
         d_keys_out(reinterpret_cast<UnsignedBits*>(d_keys_out)),
         d_values_in(d_values_in),
         d_values_out(d_values_out),
-        current_bit(current_bit)
+        current_bit(current_bit),
+        num_bits(num_bits)
     {
         // Load digit bin offsets (each of the first RADIX_DIGITS threads will load an offset for that digit)
         if (threadIdx.x < RADIX_DIGITS)
diff --git a/cub/block_range/block_range_radix_sort_upsweep.cuh b/cub/block_range/block_range_radix_sort_upsweep.cuh
index efb2f7bd30..faadbd3f47 100644
--- a/cub/block_range/block_range_radix_sort_upsweep.cuh
+++ b/cub/block_range/block_range_radix_sort_upsweep.cuh
@@ -171,6 +171,9 @@ struct BlockRangeRadixSortUpsweep
     // The least-significant bit position of the current digit to extract
     int             current_bit;
 
+    // Number of bits in current digit
+    int             num_bits;
+
 
 
     //---------------------------------------------------------------------
@@ -214,15 +217,17 @@ struct BlockRangeRadixSortUpsweep
         // Perform transform op
         UnsignedBits converted_key = Traits<Key>::TwiddleIn(key);
 
-        // Add in sub-counter offset
-        UnsignedBits sub_counter = BFE(converted_key, current_bit, LOG_PACKING_RATIO);
+        // Extract current digit bits
+        UnsignedBits digit = BFE(converted_key, current_bit, num_bits);
+
+        // Get sub-counter offset
+        UnsignedBits sub_counter = digit & (PACKING_RATIO - 1);
 
-        // Add in row offset
-        UnsignedBits row_offset = BFE(converted_key, current_bit + LOG_PACKING_RATIO, LOG_COUNTER_LANES);
+        // Get row offset
+        UnsignedBits row_offset = digit >> LOG_PACKING_RATIO;
 
         // Increment counter
         temp_storage.digit_counters[row_offset][threadIdx.x][sub_counter]++;
-
     }
 
 
@@ -372,11 +377,13 @@ struct BlockRangeRadixSortUpsweep
     __device__ __forceinline__ BlockRangeRadixSortUpsweep(
         TempStorage &temp_storage,
         Key         *d_keys_in,
-        int         current_bit)
+        int         current_bit,
+        int         num_bits)
     :
         temp_storage(temp_storage.Alias()),
         d_keys_in(reinterpret_cast<UnsignedBits*>(d_keys_in)),
-        current_bit(current_bit)
+        current_bit(current_bit),
+        num_bits(num_bits)
     {}
 
 
diff --git a/cub/device/dispatch/device_radix_sort_dispatch.cuh b/cub/device/dispatch/device_radix_sort_dispatch.cuh
index bde3b9dbdb..028a5684ec 100644
--- a/cub/device/dispatch/device_radix_sort_dispatch.cuh
+++ b/cub/device/dispatch/device_radix_sort_dispatch.cuh
@@ -63,12 +63,13 @@ template <
     bool                    DESCENDING,                         ///< Whether or not the sorted-order is high-to-low
     typename                Key,                                ///< Key type
     typename                Offset>                             ///< Signed integer type for global offsets
-__launch_bounds__ (int(BlockRangeRadixSortUpsweepPolicy::BLOCK_THREADS))
+__launch_bounds__ (int(BlockRangeRadixSortUpsweepPolicy::BLOCK_THREADS), 1)
 __global__ void RadixSortUpsweepKernel(
     Key                     *d_keys,                            ///< [in] Input keys buffer
     Offset                  *d_spine,                           ///< [out] Privatized (per block) digit histograms (striped, i.e., 0s counts from each block, then 1s counts from each block, etc.)
     Offset                  num_items,                          ///< [in] Total number of input data items
     int                     current_bit,                        ///< [in] Bit position of current radix digit
+    int                     num_bits,                           ///< [in] Number of bits of current radix digit
     bool                    first_pass,                         ///< [in] Whether this is the first digit pass
     GridEvenShare<Offset>   even_share)                         ///< [in] Even-share descriptor for mapping an equal number of tiles onto each thread block
 {
@@ -82,7 +83,7 @@ __global__ void RadixSortUpsweepKernel(
     even_share.BlockInit();
 
     Offset bin_count;
-    BlockRangeRadixSortUpsweepT(temp_storage, d_keys, current_bit).ProcessRegion(
+    BlockRangeRadixSortUpsweepT(temp_storage, d_keys, current_bit, num_bits).ProcessRegion(
         even_share.block_offset,
         even_share.block_end,
         bin_count);
@@ -136,23 +137,24 @@ __global__ void RadixSortScanKernel(
  * Downsweep pass kernel entry point (multi-block).  Scatters keys (and values) into corresponding bins for the current digit place.
  */
 template <
-    typename BlockRangeRadixSortDownsweepPolicy,    ///< Parameterizable tuning policy type for cub::BlockRangeRadixSortUpsweep abstraction
-    bool     DESCENDING,                            ///< Whether or not the sorted-order is high-to-low
-    typename Key,                                   ///< Key type
-    typename Value,                                 ///< Value type
-    typename Offset>                                ///< Signed integer type for global offsets
-__launch_bounds__ (int(BlockRangeRadixSortDownsweepPolicy::BLOCK_THREADS))
+    typename                BlockRangeRadixSortDownsweepPolicy,     ///< Parameterizable tuning policy type for cub::BlockRangeRadixSortUpsweep abstraction
+    bool                    DESCENDING,                             ///< Whether or not the sorted-order is high-to-low
+    typename                Key,                                    ///< Key type
+    typename                Value,                                  ///< Value type
+    typename                Offset>                                 ///< Signed integer type for global offsets
+__launch_bounds__ (int(BlockRangeRadixSortDownsweepPolicy::BLOCK_THREADS), 1)
 __global__ void RadixSortDownsweepKernel(
-    Key                     *d_keys_in,             ///< [in] Input keys ping buffer
-    Key                     *d_keys_out,            ///< [in] Output keys pong buffer
-    Value                   *d_values_in,           ///< [in] Input values ping buffer
-    Value                   *d_values_out,          ///< [in] Output values pong buffer
-    Offset                  *d_spine,               ///< [in] Scan of privatized (per block) digit histograms (striped, i.e., 0s counts from each block, then 1s counts from each block, etc.)
-    Offset                  num_items,              ///< [in] Total number of input data items
-    int                     current_bit,            ///< [in] Bit position of current radix digit
-    bool                    first_pass,             ///< [in] Whether this is the first digit pass
-    bool                    last_pass,              ///< [in] Whether this is the last digit pass
-    GridEvenShare<Offset>   even_share)             ///< [in] Even-share descriptor for mapping an equal number of tiles onto each thread block
+    Key                     *d_keys_in,                             ///< [in] Input keys ping buffer
+    Key                     *d_keys_out,                            ///< [in] Output keys pong buffer
+    Value                   *d_values_in,                           ///< [in] Input values ping buffer
+    Value                   *d_values_out,                          ///< [in] Output values pong buffer
+    Offset                  *d_spine,                               ///< [in] Scan of privatized (per block) digit histograms (striped, i.e., 0s counts from each block, then 1s counts from each block, etc.)
+    Offset                  num_items,                              ///< [in] Total number of input data items
+    int                     current_bit,                            ///< [in] Bit position of current radix digit
+    int                     num_bits,                               ///< [in] Number of bits of current radix digit
+    bool                    first_pass,                             ///< [in] Whether this is the first digit pass
+    bool                    last_pass,                              ///< [in] Whether this is the last digit pass
+    GridEvenShare<Offset>   even_share)                             ///< [in] Even-share descriptor for mapping an equal number of tiles onto each thread block
 {
     // Parameterize BlockRangeRadixSortDownsweep type for the current configuration
     typedef BlockRangeRadixSortDownsweep<BlockRangeRadixSortDownsweepPolicy, DESCENDING, Key, Value, Offset> BlockRangeRadixSortDownsweepT;
@@ -164,7 +166,7 @@ __global__ void RadixSortDownsweepKernel(
     even_share.BlockInit();
 
     // Process input tiles
-    BlockRangeRadixSortDownsweepT(temp_storage, num_items, d_spine, d_keys_in, d_keys_out, d_values_in, d_values_out, current_bit).ProcessRegion(
+    BlockRangeRadixSortDownsweepT(temp_storage, num_items, d_spine, d_keys_in, d_keys_out, d_values_in, d_values_out, current_bit, num_bits).ProcessRegion(
         even_share.block_offset,
         even_share.block_end);
 }
@@ -209,7 +211,7 @@ struct DeviceRadixSortDispatch
         typedef typename If<KEYS_ONLY, AltUpsweepPolicyKeys, AltUpsweepPolicyPairs>::Type AltUpsweepPolicy;
 
         // ScanPolicy
-        typedef BlockRangeScanPolicy <1024, 4, BLOCK_LOAD_VECTORIZE, false, LOAD_DEFAULT, BLOCK_STORE_VECTORIZE, false, BLOCK_SCAN_RAKING_MEMOIZE> ScanPolicy;
+        typedef BlockRangeScanPolicy <1024, 4, BLOCK_LOAD_VECTORIZE, false, LOAD_DEFAULT, BLOCK_STORE_VECTORIZE, false, BLOCK_SCAN_WARP_SCANS> ScanPolicy;
 
         // Primary DownsweepPolicy
         typedef BlockRangeRadixSortDownsweepPolicy <64,   CUB_MAX(1, 18 / SCALE_FACTOR), BLOCK_LOAD_DIRECT, LOAD_LDG, false, true, BLOCK_SCAN_WARP_SCANS, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeEightByte, RADIX_BITS> DownsweepPolicyKeys;
@@ -280,13 +282,13 @@ struct DeviceRadixSortDispatch
         typedef BlockRangeScanPolicy <512, 4, BLOCK_LOAD_VECTORIZE, false, LOAD_DEFAULT, BLOCK_STORE_VECTORIZE, false, BLOCK_SCAN_RAKING_MEMOIZE> ScanPolicy;
 
         // DownsweepPolicy
-        typedef BlockRangeRadixSortDownsweepPolicy <64, CUB_MAX(1, 18 / SCALE_FACTOR), BLOCK_LOAD_WARP_TRANSPOSE, LOAD_DEFAULT, false, false, BLOCK_SCAN_RAKING_MEMOIZE, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeFourByte, RADIX_BITS> DownsweepPolicyKeys;
-        typedef BlockRangeRadixSortDownsweepPolicy <128, CUB_MAX(1, 13 / SCALE_FACTOR), BLOCK_LOAD_WARP_TRANSPOSE, LOAD_DEFAULT, false, false, BLOCK_SCAN_RAKING_MEMOIZE, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeFourByte, RADIX_BITS> DownsweepPolicyPairs;
+        typedef BlockRangeRadixSortDownsweepPolicy <64, CUB_MAX(1, 18 / SCALE_FACTOR), BLOCK_LOAD_WARP_TRANSPOSE, LOAD_DEFAULT, false, false, BLOCK_SCAN_WARP_SCANS, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeFourByte, RADIX_BITS> DownsweepPolicyKeys;
+        typedef BlockRangeRadixSortDownsweepPolicy <128, CUB_MAX(1, 13 / SCALE_FACTOR), BLOCK_LOAD_WARP_TRANSPOSE, LOAD_DEFAULT, false, false, BLOCK_SCAN_WARP_SCANS, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeFourByte, RADIX_BITS> DownsweepPolicyPairs;
         typedef typename If<KEYS_ONLY, DownsweepPolicyKeys, DownsweepPolicyPairs>::Type DownsweepPolicy;
 
         // Alternate DownsweepPolicy for (RADIX_BITS-1)-bit passes
-        typedef BlockRangeRadixSortDownsweepPolicy <64, CUB_MAX(1, 18 / SCALE_FACTOR), BLOCK_LOAD_WARP_TRANSPOSE, LOAD_DEFAULT, false, false, BLOCK_SCAN_RAKING_MEMOIZE, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeFourByte, RADIX_BITS - 1> AltDownsweepPolicyKeys;
-        typedef BlockRangeRadixSortDownsweepPolicy <128, CUB_MAX(1, 13 / SCALE_FACTOR), BLOCK_LOAD_WARP_TRANSPOSE, LOAD_DEFAULT, false, false, BLOCK_SCAN_RAKING_MEMOIZE, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeFourByte, RADIX_BITS - 1> AltDownsweepPolicyPairs;
+        typedef BlockRangeRadixSortDownsweepPolicy <64, CUB_MAX(1, 18 / SCALE_FACTOR), BLOCK_LOAD_WARP_TRANSPOSE, LOAD_DEFAULT, false, false, BLOCK_SCAN_WARP_SCANS, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeFourByte, RADIX_BITS - 1> AltDownsweepPolicyKeys;
+        typedef BlockRangeRadixSortDownsweepPolicy <128, CUB_MAX(1, 13 / SCALE_FACTOR), BLOCK_LOAD_WARP_TRANSPOSE, LOAD_DEFAULT, false, false, BLOCK_SCAN_WARP_SCANS, RADIX_SORT_SCATTER_TWO_PHASE, cudaSharedMemBankSizeFourByte, RADIX_BITS - 1> AltDownsweepPolicyPairs;
         typedef typename If<KEYS_ONLY, AltDownsweepPolicyKeys, AltDownsweepPolicyPairs>::Type AltDownsweepPolicy;
     };
 
@@ -650,6 +652,8 @@ struct DeviceRadixSortDispatch
             int current_bit = begin_bit;
             while (current_bit < end_bit)
             {
+                int num_bits = CUB_MIN(end_bit - current_bit, downsweep_config.radix_bits);
+
 #if (CUB_PTX_ARCH == 0)
                 // Update smem config if necessary
                 if (current_smem_config != upsweep_config.smem_config)
@@ -670,6 +674,7 @@ struct DeviceRadixSortDispatch
                     d_spine,
                     num_items,
                     current_bit,
+                    num_bits,
                     (current_bit == begin_bit),
                     even_share);
 
@@ -716,6 +721,7 @@ struct DeviceRadixSortDispatch
                     d_spine,
                     num_items,
                     current_bit,
+                    num_bits,
                     (current_bit == begin_bit),
                     (current_bit + downsweep_config.radix_bits >= end_bit),
                     even_share);
diff --git a/cub/device/dispatch/device_reduce_by_key_dispatch.cuh b/cub/device/dispatch/device_reduce_by_key_dispatch.cuh
index 0a56560ebf..81c028e19e 100644
--- a/cub/device/dispatch/device_reduce_by_key_dispatch.cuh
+++ b/cub/device/dispatch/device_reduce_by_key_dispatch.cuh
@@ -64,7 +64,7 @@ template <
     typename            ValueInputIterator,             ///< Random-access input iterator type for values
     typename            ValueOutputIterator,            ///< Random-access output iterator type for values
     typename            NumSegmentsIterator,            ///< Output iterator type for recording number of segments encountered
-    typename            ScanTileState,             ///< Tile status interface type
+    typename            ScanTileState,                  ///< Tile status interface type
     typename            EqualityOp,                     ///< Key equality operator type
     typename            ReductionOp,                    ///< Value reduction operator type
     typename            Offset>                         ///< Signed integer type for global offsets
@@ -75,7 +75,7 @@ __global__ void ReduceByKeyRegionKernel(
     ValueInputIterator  d_values_in,                    ///< [in] Pointer to consecutive runs of input values
     ValueOutputIterator d_values_out,                   ///< [in] Pointer to output value aggregates (one aggregate per run)
     NumSegmentsIterator d_num_segments,                 ///< [in] Pointer to total number of runs
-    ScanTileState  tile_status,                    ///< [in] Tile status interface
+    ScanTileState  tile_status,                         ///< [in] Tile status interface
     EqualityOp          equality_op,                    ///< [in] Key equality operator
     ReductionOp         reduction_op,                   ///< [in] Value reduction operator
     Offset              num_items,                      ///< [in] Total number of items to select from
diff --git a/cub/warp/warp_reduce.cuh b/cub/warp/warp_reduce.cuh
index 3f25a80b41..1cd3fe0cff 100644
--- a/cub/warp/warp_reduce.cuh
+++ b/cub/warp/warp_reduce.cuh
@@ -215,7 +215,7 @@ public:
 
 
     /**
-     * \brief Computes a warp-wide sum in each active warp.  The output is valid in warp <em>lane</em><sub>0</sub>.
+     * \brief Computes a warp-wide sum in the calling warp.  The output is valid in warp <em>lane</em><sub>0</sub>.
      *
      * \smemreuse
      *
@@ -255,9 +255,9 @@ public:
     }
 
     /**
-     * \brief Computes a partially-full warp-wide sum in each active warp.  The output is valid in warp <em>lane</em><sub>0</sub>.
+     * \brief Computes a partially-full warp-wide sum in the calling warp.  The output is valid in warp <em>lane</em><sub>0</sub>.
      *
-     * All threads in each logical warp must agree on the same value for \p valid_items.  Otherwise the result is undefined.
+     * All threads across the calling warp must agree on the same value for \p valid_items.  Otherwise the result is undefined.
      *
      * \smemreuse
      *
@@ -309,7 +309,7 @@ public:
 
 
     /**
-     * \brief Computes a segmented sum in each active warp where segments are defined by head-flags.  The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).
+     * \brief Computes a segmented sum in the calling warp where segments are defined by head-flags.  The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).
      *
      * \smemreuse
      *
@@ -357,7 +357,7 @@ public:
 
 
     /**
-     * \brief Computes a segmented sum in each active warp where segments are defined by tail-flags.  The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).
+     * \brief Computes a segmented sum in the calling warp where segments are defined by tail-flags.  The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).
      *
      * \smemreuse
      *
@@ -411,7 +411,7 @@ public:
     //@{
 
     /**
-     * \brief Computes a warp-wide reduction in each active warp using the specified binary reduction functor.  The output is valid in warp <em>lane</em><sub>0</sub>.
+     * \brief Computes a warp-wide reduction in the calling warp using the specified binary reduction functor.  The output is valid in warp <em>lane</em><sub>0</sub>.
      *
      * Supports non-commutative reduction operators
      *
@@ -457,9 +457,9 @@ public:
     }
 
     /**
-     * \brief Computes a partially-full warp-wide reduction in each active warp using the specified binary reduction functor.  The output is valid in warp <em>lane</em><sub>0</sub>.
+     * \brief Computes a partially-full warp-wide reduction in the calling warp using the specified binary reduction functor.  The output is valid in warp <em>lane</em><sub>0</sub>.
      *
-     * All threads in each logical warp must agree on the same value for \p valid_items.  Otherwise the result is undefined.
+     * All threads across the calling warp must agree on the same value for \p valid_items.  Otherwise the result is undefined.
      *
      * Supports non-commutative reduction operators
      *
@@ -516,7 +516,7 @@ public:
 
 
     /**
-     * \brief Computes a segmented reduction in each active warp where segments are defined by head-flags.  The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).
+     * \brief Computes a segmented reduction in the calling warp where segments are defined by head-flags.  The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).
      *
      * Supports non-commutative reduction operators
      *
@@ -567,7 +567,7 @@ public:
 
 
     /**
-     * \brief Computes a segmented reduction in each active warp where segments are defined by tail-flags.  The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).
+     * \brief Computes a segmented reduction in the calling warp where segments are defined by tail-flags.  The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).
      *
      * Supports non-commutative reduction operators
      *
diff --git a/cub/warp/warp_scan.cuh b/cub/warp/warp_scan.cuh
index b7e2c93c0a..ba604ec311 100644
--- a/cub/warp/warp_scan.cuh
+++ b/cub/warp/warp_scan.cuh
@@ -216,7 +216,7 @@ public:
 
 
     /**
-     * \brief Computes an inclusive prefix sum in each logical warp.
+     * \brief Computes an inclusive prefix sum across the calling warp.
      *
      * \smemreuse
      *
@@ -257,7 +257,7 @@ public:
 
 
     /**
-     * \brief Computes an inclusive prefix sum in each logical warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an inclusive prefix sum across the calling warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * The \p warp_aggregate is undefined in threads other than <em>warp-lane</em><sub>0</sub>.
      *
@@ -302,7 +302,7 @@ public:
 
 
     /**
-     * \brief Computes an inclusive prefix sum in each logical warp.  Instead of using 0 as the warp-wide prefix, the call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an inclusive prefix sum across the calling warp.  Instead of using 0 as the warp-wide prefix, the call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * The \p warp_aggregate is undefined in threads other than <em>warp-lane</em><sub>0</sub>.
      *
@@ -415,7 +415,7 @@ private:
         InternalWarpScan(temp_storage).Scan(input, inclusive_output, exclusive_output, identity, cub::Sum());
     }
 
-    /// Computes an exclusive prefix sum in each logical warp.
+    /// Computes an exclusive prefix sum across the calling warp.
     __device__ __forceinline__ void ExclusiveSum(T input, T &output, Int2Type<true> is_integer)
     {
         // Compute exclusive warp scan from inclusive warp scan
@@ -424,7 +424,7 @@ private:
         output = inclusive - input;
     }
 
-    /// Computes an exclusive prefix sum in each logical warp.  Specialized for non-integer types.
+    /// Computes an exclusive prefix sum across the calling warp.  Specialized for non-integer types.
     __device__ __forceinline__ void ExclusiveSum(T input, T &output, Int2Type<false> is_integer)
     {
         // Delegate to regular scan for non-integer types (because we won't be able to use subtraction)
@@ -432,7 +432,7 @@ private:
         ExclusiveScan(input, output, identity, cub::Sum());
     }
 
-    /// Computes an exclusive prefix sum in each logical warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+    /// Computes an exclusive prefix sum across the calling warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
     __device__ __forceinline__ void ExclusiveSum(T input, T &output, T &warp_aggregate, Int2Type<true> is_integer)
     {
         // Compute exclusive warp scan from inclusive warp scan
@@ -441,7 +441,7 @@ private:
         output = inclusive - input;
     }
 
-    /// Computes an exclusive prefix sum in each logical warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.  Specialized for non-integer types.
+    /// Computes an exclusive prefix sum across the calling warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.  Specialized for non-integer types.
     __device__ __forceinline__ void ExclusiveSum(T input, T &output, T &warp_aggregate, Int2Type<false> is_integer)
     {
         // Delegate to regular scan for non-integer types (because we won't be able to use subtraction)
@@ -449,7 +449,7 @@ private:
         ExclusiveScan(input, output, identity, cub::Sum(), warp_aggregate);
     }
 
-    /// Computes an exclusive prefix sum in each logical warp.  Instead of using 0 as the warp-wide prefix, the call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+    /// Computes an exclusive prefix sum across the calling warp.  Instead of using 0 as the warp-wide prefix, the call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
     template <typename WarpPrefixCallbackOp>
     __device__ __forceinline__ void ExclusiveSum(T input, T &output, T &warp_aggregate, WarpPrefixCallbackOp &warp_prefix_op, Int2Type<true> is_integer)
     {
@@ -459,7 +459,7 @@ private:
         output = inclusive - input;
     }
 
-    /// Computes an exclusive prefix sum in each logical warp.  Instead of using 0 as the warp-wide prefix, the call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.  Specialized for non-integer types.
+    /// Computes an exclusive prefix sum across the calling warp.  Instead of using 0 as the warp-wide prefix, the call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.  Specialized for non-integer types.
     template <typename WarpPrefixCallbackOp>
     __device__ __forceinline__ void ExclusiveSum(T input, T &output, T &warp_aggregate, WarpPrefixCallbackOp &warp_prefix_op, Int2Type<false> is_integer)
     {
@@ -478,7 +478,7 @@ public:
 
 
     /**
-     * \brief Computes an exclusive prefix sum in each logical warp.
+     * \brief Computes an exclusive prefix sum across the calling warp.
      *
      * This operation assumes the value of obtained by the <tt>T</tt>'s default
      * constructor (or by zero-initialization if no user-defined default
@@ -525,7 +525,7 @@ public:
 
 
     /**
-     * \brief Computes an exclusive prefix sum in each logical warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an exclusive prefix sum across the calling warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * This operation assumes the value of obtained by the <tt>T</tt>'s default
      * constructor (or by zero-initialization if no user-defined default
@@ -573,7 +573,7 @@ public:
 
 
     /**
-     * \brief Computes an exclusive prefix sum in each logical warp.  Instead of using 0 as the warp-wide prefix, the call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an exclusive prefix sum across the calling warp.  Instead of using 0 as the warp-wide prefix, the call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * This operation assumes the value of obtained by the <tt>T</tt>'s default
      * constructor (or by zero-initialization if no user-defined default
@@ -668,7 +668,7 @@ public:
     //@{
 
     /**
-     * \brief Computes an inclusive prefix sum using the specified binary scan functor in each logical warp.
+     * \brief Computes an inclusive prefix scan using the specified binary scan functor across the calling warp.
      *
      * Supports non-commutative scan operators.
      *
@@ -715,7 +715,7 @@ public:
 
 
     /**
-     * \brief Computes an inclusive prefix sum using the specified binary scan functor in each logical warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an inclusive prefix scan using the specified binary scan functor across the calling warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * Supports non-commutative scan operators.
      *
@@ -767,7 +767,7 @@ public:
 
 
     /**
-     * \brief Computes an inclusive prefix sum using the specified binary scan functor in each logical warp.  The call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an inclusive prefix scan using the specified binary scan functor across the calling warp.  The call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * The \p warp_prefix_op functor must implement a member function <tt>T operator()(T warp_aggregate)</tt>.
      * The functor's input parameter \p warp_aggregate is the same value also returned by the scan operation.
@@ -873,7 +873,7 @@ public:
     //@{
 
     /**
-     * \brief Computes an exclusive prefix scan using the specified binary scan functor in each logical warp.
+     * \brief Computes an exclusive prefix scan using the specified binary scan functor across the calling warp.
      *
      * Supports non-commutative scan operators.
      *
@@ -922,7 +922,7 @@ public:
 
 
     /**
-     * \brief Computes an exclusive prefix scan using the specified binary scan functor in each logical warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an exclusive prefix scan using the specified binary scan functor across the calling warp.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * Supports non-commutative scan operators.
      *
@@ -974,7 +974,7 @@ public:
 
 
     /**
-     * \brief Computes an exclusive prefix scan using the specified binary scan functor in each logical warp.  The call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an exclusive prefix scan using the specified binary scan functor across the calling warp.  The call-back functor \p warp_prefix_op is invoked to provide the "seed" value that logically prefixes the warp's scan inputs.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * The \p warp_prefix_op functor must implement a member function <tt>T operator()(T warp_aggregate)</tt>.
      * The functor's input parameter \p warp_aggregate is the same value also returned by the scan operation.
@@ -1083,7 +1083,7 @@ public:
 
 
     /**
-     * \brief Computes an exclusive prefix scan using the specified binary scan functor in each logical warp.  Because no identity value is supplied, the \p output computed for <em>warp-lane</em><sub>0</sub> is undefined.
+     * \brief Computes an exclusive prefix scan using the specified binary scan functor across the calling warp.  Because no identity value is supplied, the \p output computed for <em>warp-lane</em><sub>0</sub> is undefined.
      *
      * Supports non-commutative scan operators.
      *
@@ -1116,7 +1116,7 @@ public:
      * Suppose the set of input \p thread_data across the block of threads is <tt>{0, -1, 2, -3, ..., 126, -127}</tt>.
      * The corresponding output \p thread_data in the first warp would be
      * <tt>?, 0, 0, 2, ..., 28, 30</tt>, the output for the second warp would be <tt>?, 32, 32, 34, ..., 60, 62</tt>, etc.
-     * (The output \p thread_data in each warp lane0 is undefined.)
+     * (The output \p thread_data in warp lane<sub>0</sub> is undefined.)
      *
      * \tparam ScanOp     <b>[inferred]</b> Binary scan operator type having member <tt>T operator()(const T &a, const T &b)</tt>
      */
@@ -1132,7 +1132,7 @@ public:
 
 
     /**
-     * \brief Computes an exclusive prefix scan using the specified binary scan functor in each logical warp.  Because no identity value is supplied, the \p output computed for <em>warp-lane</em><sub>0</sub> is undefined.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
+     * \brief Computes an exclusive prefix scan using the specified binary scan functor across the calling warp.  Because no identity value is supplied, the \p output computed for <em>warp-lane</em><sub>0</sub> is undefined.  Also provides every thread with the warp-wide \p warp_aggregate of all inputs.
      *
      * Supports non-commutative scan operators.
      *
@@ -1166,7 +1166,7 @@ public:
      * Suppose the set of input \p thread_data across the block of threads is <tt>{0, -1, 2, -3, ..., 126, -127}</tt>.
      * The corresponding output \p thread_data in the first warp would be
      * <tt>?, 0, 0, 2, ..., 28, 30</tt>, the output for the second warp would be <tt>?, 32, 32, 34, ..., 60, 62</tt>, etc.
-     * (The output \p thread_data in each warp lane0 is undefined.)  Furthermore, \p warp_aggregate would be assigned \p 30 for threads in the first warp, \p 62 for threads
+     * (The output \p thread_data in warp lane<sub>0</sub> is undefined.)  Furthermore, \p warp_aggregate would be assigned \p 30 for threads in the first warp, \p 62 for threads
      * in the second warp, etc.
      *
      * \tparam ScanOp     <b>[inferred]</b> Binary scan operator type having member <tt>T operator()(const T &a, const T &b)</tt>
@@ -1183,7 +1183,7 @@ public:
 
 
     /**
-     * \brief Computes an exclusive prefix scan using the specified binary scan functor in each logical warp.  The \p warp_prefix_op value from thread-thread-lane<sub>0</sub> is applied to all scan outputs.  Also computes the warp-wide \p warp_aggregate of all inputs for thread-thread-lane<sub>0</sub>.
+     * \brief Computes an exclusive prefix scan using the specified binary scan functor across the calling warp.  The \p warp_prefix_op value from thread-thread-lane<sub>0</sub> is applied to all scan outputs.  Also computes the warp-wide \p warp_aggregate of all inputs for thread-thread-lane<sub>0</sub>.
      *
      * The \p warp_prefix_op functor must implement a member function <tt>T operator()(T warp_aggregate)}</tt>.
      * The functor's input parameter \p warp_aggregate is the same value also returned by the scan operation.
@@ -1288,7 +1288,48 @@ public:
      *********************************************************************/
     //@{
 
-    /// Combination scan with identity
+    /**
+     * \brief Computes both inclusive and exclusive prefix sums across the calling warp.
+     *
+     * This operation assumes the value of obtained by the <tt>T</tt>'s default
+     * constructor (or by zero-initialization if no user-defined default
+     * constructor exists) is suitable as the identity value "zero" for
+     * addition.
+     *
+     * \smemreuse
+     *
+     * \par Snippet
+     * The code snippet below illustrates four concurrent warp-wide prefix sums within a block of
+     * 128 threads (one per each of the 32-thread warps).
+     * \par
+     * \code
+     * #include <cub/cub.cuh>
+     *
+     * __global__ void ExampleKernel(...)
+     * {
+     *     // Specialize WarpScan for type int
+     *     typedef cub::WarpScan<int> WarpScan;
+     *
+     *     // Allocate WarpScan shared memory for 4 warps
+     *     __shared__ typename WarpScan::TempStorage temp_storage[4];
+     *
+     *     // Obtain one input item per thread
+     *     int thread_data = ...
+     *
+     *     // Compute in|exclusive warp-wide prefix sums
+     *     int inclusive_partial, exclusive_partial;
+     *     int warp_id = threadIdx.x / 32;
+     *     WarpScan(temp_storage[warp_id]).Sum(thread_data, inclusive_partial, exclusive_partial);
+     *
+     * \endcode
+     * \par
+     * Suppose the set of input \p thread_data across the block of threads is <tt>{1, 1, 1, 1, ...}</tt>.
+     * The corresponding output \p inclusive_partial in each of the four warps of threads will be
+     * <tt>1, 2, 3, ..., 32}</tt>.
+     * The corresponding output \p exclusive_partial in each of the four warps of threads will be
+     * <tt>0, 1, 2, ..., 31}</tt>.
+     *
+     */
     __device__ __forceinline__ void Sum(
         T               input,              ///< [in] Calling thread's input item.
         T               &inclusive_output,  ///< [out] Calling thread's inclusive-scan output item.
@@ -1297,7 +1338,47 @@ public:
         Sum(input, inclusive_output, exclusive_output, Int2Type<IS_INTEGER>());
     }
 
-    /// Combination scan with identity
+
+    /**
+     * \brief Computes both inclusive and exclusive prefix scans using the specified binary scan functor across the calling warp.
+     *
+     * Supports non-commutative scan operators.
+     *
+     * \smemreuse
+     *
+     * \par Snippet
+     * The code snippet below illustrates four concurrent warp-wide prefix max scans within a block of
+     * 128 threads (one per each of the 32-thread warps).
+     * \par
+     * \code
+     * #include <cub/cub.cuh>
+     *
+     * __global__ void ExampleKernel(...)
+     * {
+     *     // Specialize WarpScan for type int
+     *     typedef cub::WarpScan<int> WarpScan;
+     *
+     *     // Allocate WarpScan shared memory for 4 warps
+     *     __shared__ typename WarpScan::TempStorage temp_storage[4];
+     *
+     *     // Obtain one input item per thread
+     *     int thread_data = ...
+     *
+     *     // Compute inclusive warp-wide prefix max scans
+     *     int warp_id = threadIdx.x / 32;
+     *     int inclusive_partial, exclusive_partial;
+     *     WarpScan(temp_storage[warp_id]).Scan(thread_data, inclusive_partial, exclusive_partial, INT_MIN, cub::Max());
+     *
+     * \endcode
+     * \par
+     * Suppose the set of input \p thread_data across the block of threads is <tt>{0, -1, 2, -3, ..., 126, -127}</tt>.
+     * The corresponding output \p inclusive_partial in the first warp would be
+     * <tt>0, 0, 2, 2, ..., 30, 30</tt>, the output for the second warp would be <tt>32, 32, 34, 34, ..., 62, 62</tt>, etc.
+     * The corresponding output \p exclusive_partial in the first warp would be
+     * <tt>INT_MIN, 0, 0, 2, ..., 28, 30</tt>, the output for the second warp would be <tt>30, 32, 32, 34, ..., 60, 62</tt>, etc.
+     *
+     * \tparam ScanOp     <b>[inferred]</b> Binary scan operator type having member <tt>T operator()(const T &a, const T &b)</tt>
+     */
     template <typename ScanOp>
     __device__ __forceinline__ void Scan(
         T               input,              ///< [in] Calling thread's input item.
@@ -1309,7 +1390,47 @@ public:
         InternalWarpScan(temp_storage).Scan(input, inclusive_output, exclusive_output, identity, scan_op);
     }
 
-    /// Combination scan with without identity
+
+    /**
+     * \brief Computes both inclusive and exclusive prefix scans using the specified binary scan functor across the calling warp.  Because no identity value is supplied, the \p exclusive_output computed for <em>warp-lane</em><sub>0</sub> is undefined.
+     *
+     * Supports non-commutative scan operators.
+     *
+     * \smemreuse
+     *
+     * \par Snippet
+     * The code snippet below illustrates four concurrent warp-wide exclusive prefix max scans within a block of
+     * 128 threads (one per each of the 32-thread warps).
+     * \par
+     * \code
+     * #include <cub/cub.cuh>
+     *
+     * __global__ void ExampleKernel(...)
+     * {
+     *     // Specialize WarpScan for type int
+     *     typedef cub::WarpScan<int> WarpScan;
+     *
+     *     // Allocate WarpScan shared memory for 4 warps
+     *     __shared__ typename WarpScan::TempStorage temp_storage[4];
+     *
+     *     // Obtain one input item per thread
+     *     int thread_data = ...
+     *
+     *     // Compute exclusive warp-wide prefix max scans
+     *     int inclusive_partial, exclusive_partial;
+     *     WarpScan(temp_storage[warp_id]).Scan(thread_data, inclusive_partial, exclusive_partial, cub::Max());
+     *
+     * \endcode
+     * \par
+     * Suppose the set of input \p thread_data across the block of threads is <tt>{0, -1, 2, -3, ..., 126, -127}</tt>.
+     * The corresponding output \p inclusive_partial in the first warp would be
+     * <tt>0, 0, 2, 2, ..., 30, 30</tt>, the output for the second warp would be <tt>32, 32, 34, 34, ..., 62, 62</tt>, etc.
+     * The corresponding output \p exclusive_partial in the first warp would be
+     * <tt>?, 0, 0, 2, ..., 28, 30</tt>, the output for the second warp would be <tt>?, 32, 32, 34, ..., 60, 62</tt>, etc.
+     * (The output \p thread_data in warp lane<sub>0</sub> is undefined.)
+     *
+     * \tparam ScanOp     <b>[inferred]</b> Binary scan operator type having member <tt>T operator()(const T &a, const T &b)</tt>
+     */
     template <typename ScanOp>
     __device__ __forceinline__ void Scan(
         T               input,              ///< [in] Calling thread's input item.
diff --git a/docs/download_cub.html b/docs/download_cub.html
index bce34c6d19..68ae20f4aa 100644
--- a/docs/download_cub.html
+++ b/docs/download_cub.html
@@ -37,14 +37,14 @@
 </head>
 
 <body 
-	onload="downloadURL('https://github.com/NVlabs/cub/archive/1.3.0.zip');" 
+	onload="downloadURL('https://github.com/NVlabs/cub/archive/1.3.1.zip');" 
 	style="color: rgb(102, 102, 102); font-family: Helvetica, arial, freesans, clean, sans-serif; font-size: 13px; font-style: normal; font-variant: normal; font-weight: 300; height: 18px;">
 
 <center>
 If your download doesn't start in 3s:
 <br><br>
-<a href="https://github.com/NVlabs/cub/archive/1.3.0.zip"><img src="download-icon.png" style="position:relative; bottom:-10px; border:0px;"/></a>
-<a href="https://github.com/NVlabs/cub/archive/1.3.0.zip"><em>Download CUB!</em></a>
+<a href="https://github.com/NVlabs/cub/archive/1.3.1.zip"><img src="download-icon.png" style="position:relative; bottom:-10px; border:0px;"/></a>
+<a href="https://github.com/NVlabs/cub/archive/1.3.1.zip"><em>Download CUB!</em></a>
 </center>
 
 </body>
diff --git a/docs/html/CHANGE_LOG.TXT b/docs/html/CHANGE_LOG.TXT
index 8c0b9a89ad..d0e0398204 100644
--- a/docs/html/CHANGE_LOG.TXT
+++ b/docs/html/CHANGE_LOG.TXT
@@ -1,25 +1,39 @@
 //-----------------------------------------------------------------------------
 
-1.3.0    03/03/2014
+1.3.1    05/22/2014
     - New features:
-    	- CUB's collective (block-wide, warp-wide) primitives underwent a minor 
-    	  interface refactoring:
-    	    - To provide the appropriate support for multidimensional thread blocks,
-    	      The interfaces for collective classes are now template-parameterized 
-    	      by X, Y, and Z block dimensions (with BLOCK_DIM_Y and BLOCK_DIM_Z being 
-    	      optional, and BLOCK_DIM_X replacing BLOCK_THREADS).  Furthermore, the 
-    	      constructors that accept remapped linear thread-identifiers have been 
-    	      removed: all primitives now assume a row-major thread-ranking for 
-    	      multidimensional thread blocks.  
-    	    - To allow the host program (compiled by the host-pass) to 
-    	      accurately determine the device-specific storage requirements for 
-    	      a given collective (compiled for each device-pass), the interfaces 
-    	      for collective classes are now (optionally) template-parameterized 
-    	      by the desired PTX compute capability. This is useful when 
-    	      aliasing collective storage to shared memory that has been 
-    	      allocated dynamically by the host at the kernel call site.   
-    	    - Most CUB programs having typical 1D usage should not require any 
-    	      changes to accomodate these updates.
+        - Added new "combination" WarpScan methods for efficiently computing 
+          both inclusive and exclusive prefix scans (and sums).
+    - Bug fixes: 
+        - Workaround for a benign WAW race warning reported by cuda-memcheck
+          in BlockScan specialized for BLOCK_SCAN_WARP_SCANS algorithm.
+        - Fix for bug in DeviceRadixSort where the algorithm may sort more 
+          key bits than the caller specified (up to the nearest radix digit).
+        - Fix for ~3% DeviceRadixSort performance regression on Kepler and 
+          Fermi that was introduced in v1.3.0.  
+
+//-----------------------------------------------------------------------------
+
+1.3.0    05/12/2014
+    - New features:
+        - CUB's collective (block-wide, warp-wide) primitives underwent a minor 
+          interface refactoring:
+            - To provide the appropriate support for multidimensional thread blocks,
+              The interfaces for collective classes are now template-parameterized 
+              by X, Y, and Z block dimensions (with BLOCK_DIM_Y and BLOCK_DIM_Z being 
+              optional, and BLOCK_DIM_X replacing BLOCK_THREADS).  Furthermore, the 
+              constructors that accept remapped linear thread-identifiers have been 
+              removed: all primitives now assume a row-major thread-ranking for 
+              multidimensional thread blocks.  
+            - To allow the host program (compiled by the host-pass) to 
+              accurately determine the device-specific storage requirements for 
+              a given collective (compiled for each device-pass), the interfaces 
+              for collective classes are now (optionally) template-parameterized 
+              by the desired PTX compute capability. This is useful when 
+              aliasing collective storage to shared memory that has been 
+              allocated dynamically by the host at the kernel call site.   
+            - Most CUB programs having typical 1D usage should not require any 
+              changes to accomodate these updates.
     - Bug fixes: 
         - Fixed bug in cub::WarpScan (which affected cub::BlockScan and 
           cub::DeviceScan) where incorrect results (e.g., NAN) would often be 
@@ -34,7 +48,7 @@
 
 //-----------------------------------------------------------------------------
 
-1.2.3    03/03/2014
+1.2.3    04/01/2014
     - Bug fixes: 
         - Fixed access violation bug in DeviceReduce::ReduceByKey for non-primitive value types
         - Fixed code-snippet bug in ArgIndexInputIterator documentation 
@@ -43,18 +57,25 @@
 
 1.2.2    03/03/2014
     - New features:
-        - Added device-wide reduce-by-key (DeviceReduce::ReduceByKey, DeviceReduce::RunLengthEncode)
         - Added MS VC++ project solutions for device-wide and block-wide examples 
     - Performance:
-        - Improved DeviceScan, DeviceSelect, DevicePartition performance
         - Added a third algorithmic variant of cub::BlockReduce for improved performance
           when using commutative operators (e.g., numeric addition)
+    - Bug fixes: 
+        - Fixed bug where inclusion of Thrust headers in a certain order prevented CUB device-wide primitives from working properly
+
+//-----------------------------------------------------------------------------
+
+1.2.0    02/25/2014
+    - New features:
+        - Added device-wide reduce-by-key (DeviceReduce::ReduceByKey, DeviceReduce::RunLengthEncode) 
+    - Performance
+        - Improved DeviceScan, DeviceSelect, DevicePartition performance
     - Documentation and testing:
         - Compatible with CUDA 6.0
-        - Added performance-portabiltiy plots for many device-wide primitives to doc 
+        - Added performance-portability plots for many device-wide primitives to doc 
         - Update doc and tests to reflect iterator (in)compatibilities with CUDA 5.0 (and older) and Thrust 1.6 (and older).
-    - Bug fixes: 
-        - Fixed bug where inclusion of Thrust headers in a certain order prevented CUB device-wide primitives from working properly
+    - Bug fixes 
         - Revised the operation of temporary tile status bookkeeping for DeviceScan (and similar) to be safe for current code run on future platforms (now uses proper fences)  
         - Fixed DeviceScan bug where Win32 alignment disagreements between host and device regarding user-defined data types would corrupt tile status
         - Fixed BlockScan bug where certain exclusive scans on custom data types for the BLOCK_SCAN_WARP_SCANS variant would return incorrect results for the first thread in the block
diff --git a/docs/html/annotated.html b/docs/html/annotated.html
index bcbb2df3e2..93df51ac7c 100644
--- a/docs/html/annotated.html
+++ b/docs/html/annotated.html
@@ -228,7 +228,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/arg__index__input__iterator_8cuh.html b/docs/html/arg__index__input__iterator_8cuh.html
index f42768c60f..a933b092f2 100644
--- a/docs/html/arg__index__input__iterator_8cuh.html
+++ b/docs/html/arg__index__input__iterator_8cuh.html
@@ -134,7 +134,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/arg__index__input__iterator_8cuh_source.html b/docs/html/arg__index__input__iterator_8cuh_source.html
index 674927b7e1..f00a2c65f2 100644
--- a/docs/html/arg__index__input__iterator_8cuh_source.html
+++ b/docs/html/arg__index__input__iterator_8cuh_source.html
@@ -288,7 +288,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__discontinuity_8cuh.html b/docs/html/block__discontinuity_8cuh.html
index b4a535455f..c9fb340986 100644
--- a/docs/html/block__discontinuity_8cuh.html
+++ b/docs/html/block__discontinuity_8cuh.html
@@ -138,7 +138,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__discontinuity_8cuh_source.html b/docs/html/block__discontinuity_8cuh_source.html
index 8a3c12a61d..328f36edec 100644
--- a/docs/html/block__discontinuity_8cuh_source.html
+++ b/docs/html/block__discontinuity_8cuh_source.html
@@ -396,7 +396,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__exchange_8cuh.html b/docs/html/block__exchange_8cuh.html
index 1de817f019..f37700506e 100644
--- a/docs/html/block__exchange_8cuh.html
+++ b/docs/html/block__exchange_8cuh.html
@@ -140,7 +140,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__exchange_8cuh_source.html.REMOVED.git-id b/docs/html/block__exchange_8cuh_source.html.REMOVED.git-id
index 84a1445a09..8d436f3048 100644
--- a/docs/html/block__exchange_8cuh_source.html.REMOVED.git-id
+++ b/docs/html/block__exchange_8cuh_source.html.REMOVED.git-id
@@ -1 +1 @@
-58a08649e45c847ba4b2d22ebe22e8d46e63a836
\ No newline at end of file
+4a654c1a08f97d2377e10c5fa8ac6f5b7a7c555f
\ No newline at end of file
diff --git a/docs/html/block__histogram_8cuh.html b/docs/html/block__histogram_8cuh.html
index 00fa478728..3cf782f5fc 100644
--- a/docs/html/block__histogram_8cuh.html
+++ b/docs/html/block__histogram_8cuh.html
@@ -149,7 +149,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__histogram_8cuh_source.html b/docs/html/block__histogram_8cuh_source.html
index 483d7424fa..4b43184a10 100644
--- a/docs/html/block__histogram_8cuh_source.html
+++ b/docs/html/block__histogram_8cuh_source.html
@@ -295,7 +295,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__load_8cuh.html b/docs/html/block__load_8cuh.html
index a9e11abc76..0ad934ec2a 100644
--- a/docs/html/block__load_8cuh.html
+++ b/docs/html/block__load_8cuh.html
@@ -204,7 +204,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__load_8cuh_source.html.REMOVED.git-id b/docs/html/block__load_8cuh_source.html.REMOVED.git-id
index 4aa4cc533e..f577873aa8 100644
--- a/docs/html/block__load_8cuh_source.html.REMOVED.git-id
+++ b/docs/html/block__load_8cuh_source.html.REMOVED.git-id
@@ -1 +1 @@
-d179a051d3db874e3c1f771bea14100b788e43d5
\ No newline at end of file
+fccac91152c0a9bd47d74f65f996881b13901088
\ No newline at end of file
diff --git a/docs/html/block__radix__sort_8cuh.html b/docs/html/block__radix__sort_8cuh.html
index d8046dec84..9aab574d63 100644
--- a/docs/html/block__radix__sort_8cuh.html
+++ b/docs/html/block__radix__sort_8cuh.html
@@ -141,7 +141,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__radix__sort_8cuh_source.html b/docs/html/block__radix__sort_8cuh_source.html
index d60cf6a179..bfe502519b 100644
--- a/docs/html/block__radix__sort_8cuh_source.html
+++ b/docs/html/block__radix__sort_8cuh_source.html
@@ -237,289 +237,295 @@
 <div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;        UnsignedBits    (&amp;unsigned_keys)[ITEMS_PER_THREAD],</div>
 <div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;        <span class="keywordtype">int</span>             (&amp;ranks)[ITEMS_PER_THREAD],</div>
 <div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;        <span class="keywordtype">int</span>             begin_bit,</div>
-<div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a> is_descending)</div>
-<div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    {</div>
-<div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;        AscendingBlockRadixRank(temp_storage.asending_ranking_storage).RankKeys(</div>
-<div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;            unsigned_keys,</div>
-<div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;            ranks,</div>
-<div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;            begin_bit);</div>
-<div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;    }</div>
-<div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div>
-<div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> RankKeys(</div>
-<div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;        UnsignedBits    (&amp;unsigned_keys)[ITEMS_PER_THREAD],</div>
-<div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;        <span class="keywordtype">int</span>             (&amp;ranks)[ITEMS_PER_THREAD],</div>
-<div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;        <span class="keywordtype">int</span>             begin_bit,</div>
-<div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>  is_descending)</div>
-<div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;    {</div>
-<div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;        DescendingBlockRadixRank(temp_storage.descending_ranking_storage).RankKeys(</div>
-<div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;            unsigned_keys,</div>
-<div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;            ranks,</div>
-<div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;            begin_bit);</div>
-<div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;    }</div>
-<div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div>
-<div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExchangeValues(</div>
-<div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;        Value           (&amp;values)[ITEMS_PER_THREAD],</div>
-<div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;        <span class="keywordtype">int</span>             (&amp;ranks)[ITEMS_PER_THREAD],</div>
-<div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a> is_keys_only,</div>
-<div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>  is_blocked)</div>
-<div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    {</div>
-<div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;        __syncthreads();</div>
-<div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;</div>
-<div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;        <span class="comment">// Exchange values through shared memory in blocked arrangement</span></div>
-<div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;        BlockExchangeValues(temp_storage.exchange_values).ScatterToBlocked(values, ranks);</div>
-<div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;    }</div>
-<div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;</div>
-<div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExchangeValues(</div>
-<div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;        Value           (&amp;values)[ITEMS_PER_THREAD],</div>
-<div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;        <span class="keywordtype">int</span>             (&amp;ranks)[ITEMS_PER_THREAD],</div>
-<div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a> is_keys_only,</div>
-<div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a> is_blocked)</div>
-<div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;    {</div>
-<div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;        __syncthreads();</div>
-<div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;</div>
-<div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;        <span class="comment">// Exchange values through shared memory in blocked arrangement</span></div>
-<div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;        BlockExchangeValues(temp_storage.exchange_values).ScatterToStriped(values, ranks);</div>
-<div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;    }</div>
-<div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div>
-<div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;    <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> IS_BLOCKED&gt;</div>
-<div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExchangeValues(</div>
-<div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;        Value                   (&amp;values)[ITEMS_PER_THREAD],</div>
-<div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;        <span class="keywordtype">int</span>                     (&amp;ranks)[ITEMS_PER_THREAD],</div>
-<div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>          is_keys_only,</div>
-<div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_BLOCKED&gt;</a>    is_blocked)</div>
-<div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;    {}</div>
-<div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;</div>
-<div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;    <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> DESCENDING, <span class="keywordtype">int</span> KEYS_ONLY&gt;</div>
-<div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> SortBlocked(</div>
-<div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;        Key                     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;        Value                   (&amp;values)[ITEMS_PER_THREAD],        </div>
-<div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;        <span class="keywordtype">int</span>                     begin_bit,                          </div>
-<div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;        <span class="keywordtype">int</span>                     end_bit,                            </div>
-<div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;DESCENDING&gt;</a>    is_descending,                      </div>
-<div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>     is_keys_only)                       </div>
-<div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;    {</div>
-<div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;        UnsignedBits (&amp;unsigned_keys)[ITEMS_PER_THREAD] =</div>
-<div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;            <span class="keyword">reinterpret_cast&lt;</span>UnsignedBits (&amp;)[ITEMS_PER_THREAD]<span class="keyword">&gt;</span>(keys);</div>
-<div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;</div>
-<div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;        <span class="comment">// Twiddle bits if necessary</span></div>
-<div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;<span class="preprocessor">        #pragma unroll</span></div>
-<div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;<span class="preprocessor"></span>        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> KEY = 0; KEY &lt; ITEMS_PER_THREAD; KEY++)</div>
-<div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;        {</div>
-<div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;            unsigned_keys[KEY] = KeyTraits::TwiddleIn(unsigned_keys[KEY]);</div>
-<div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;        }</div>
-<div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;</div>
-<div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;        <span class="comment">// Radix sorting passes</span></div>
-<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;        <span class="keywordflow">while</span> (<span class="keyword">true</span>)</div>
-<div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;        {</div>
-<div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;            <span class="comment">// Rank the blocked keys</span></div>
-<div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;            <span class="keywordtype">int</span> ranks[ITEMS_PER_THREAD];</div>
-<div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;            RankKeys(unsigned_keys, ranks, begin_bit, is_descending);</div>
-<div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;            begin_bit += RADIX_BITS;</div>
-<div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;</div>
-<div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;            __syncthreads();</div>
-<div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;</div>
-<div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;            <span class="comment">// Exchange keys through shared memory in blocked arrangement</span></div>
-<div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;            BlockExchangeKeys(temp_storage.exchange_keys).ScatterToBlocked(keys, ranks);</div>
-<div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;</div>
-<div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;            <span class="comment">// Exchange values through shared memory in blocked arrangement</span></div>
-<div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;            ExchangeValues(values, ranks, is_keys_only, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>());</div>
-<div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;</div>
-<div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;            <span class="comment">// Quit if done</span></div>
-<div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;            <span class="keywordflow">if</span> (begin_bit &gt;= end_bit) <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;</div>
-<div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;            __syncthreads();</div>
-<div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;        }</div>
-<div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;</div>
-<div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;        <span class="comment">// Untwiddle bits if necessary</span></div>
-<div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;<span class="preprocessor">        #pragma unroll</span></div>
-<div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;<span class="preprocessor"></span>        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> KEY = 0; KEY &lt; ITEMS_PER_THREAD; KEY++)</div>
-<div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;        {</div>
-<div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;            unsigned_keys[KEY] = KeyTraits::TwiddleOut(unsigned_keys[KEY]);</div>
-<div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;        }</div>
-<div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;    }</div>
-<div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div>
-<div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;    <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> DESCENDING, <span class="keywordtype">int</span> KEYS_ONLY&gt;</div>
-<div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> SortBlockedToStriped(</div>
-<div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;        Key                     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;        Value                   (&amp;values)[ITEMS_PER_THREAD],        </div>
-<div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;        <span class="keywordtype">int</span>                     begin_bit,                          </div>
-<div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;        <span class="keywordtype">int</span>                     end_bit,                            </div>
-<div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;DESCENDING&gt;</a>    is_descending,                      </div>
-<div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>     is_keys_only)                       </div>
-<div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;    {</div>
-<div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;        UnsignedBits (&amp;unsigned_keys)[ITEMS_PER_THREAD] =</div>
-<div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;            <span class="keyword">reinterpret_cast&lt;</span>UnsignedBits (&amp;)[ITEMS_PER_THREAD]<span class="keyword">&gt;</span>(keys);</div>
-<div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;</div>
-<div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;        <span class="comment">// Twiddle bits if necessary</span></div>
-<div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;<span class="preprocessor">        #pragma unroll</span></div>
-<div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;<span class="preprocessor"></span>        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> KEY = 0; KEY &lt; ITEMS_PER_THREAD; KEY++)</div>
-<div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;        {</div>
-<div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;            unsigned_keys[KEY] = KeyTraits::TwiddleIn(unsigned_keys[KEY]);</div>
-<div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;        }</div>
-<div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;</div>
-<div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;        <span class="comment">// Radix sorting passes</span></div>
-<div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;        <span class="keywordflow">while</span> (<span class="keyword">true</span>)</div>
-<div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;        {</div>
-<div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;            <span class="comment">// Rank the blocked keys</span></div>
-<div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;            <span class="keywordtype">int</span> ranks[ITEMS_PER_THREAD];</div>
-<div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;            RankKeys(unsigned_keys, ranks, begin_bit, is_descending);</div>
-<div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;            begin_bit += RADIX_BITS;</div>
-<div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;</div>
-<div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;            __syncthreads();</div>
-<div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;</div>
-<div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;            <span class="comment">// Check if this is the last pass</span></div>
-<div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;            <span class="keywordflow">if</span> (begin_bit &gt;= end_bit)</div>
-<div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;            {</div>
-<div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;                <span class="comment">// Last pass exchanges keys through shared memory in striped arrangement</span></div>
-<div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;                BlockExchangeKeys(temp_storage.exchange_keys).ScatterToStriped(keys, ranks);</div>
+<div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;        <span class="keywordtype">int</span>             pass_bits,</div>
+<div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a> is_descending)</div>
+<div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    {</div>
+<div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;        AscendingBlockRadixRank(temp_storage.asending_ranking_storage).RankKeys(</div>
+<div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;            unsigned_keys,</div>
+<div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;            ranks,</div>
+<div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;            begin_bit,</div>
+<div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;            pass_bits);</div>
+<div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    }</div>
+<div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div>
+<div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> RankKeys(</div>
+<div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;        UnsignedBits    (&amp;unsigned_keys)[ITEMS_PER_THREAD],</div>
+<div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;        <span class="keywordtype">int</span>             (&amp;ranks)[ITEMS_PER_THREAD],</div>
+<div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;        <span class="keywordtype">int</span>             begin_bit,</div>
+<div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>  is_descending)</div>
+<div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    {</div>
+<div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;        DescendingBlockRadixRank(temp_storage.descending_ranking_storage).RankKeys(</div>
+<div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;            unsigned_keys,</div>
+<div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;            ranks,</div>
+<div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;            begin_bit);</div>
+<div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;    }</div>
+<div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div>
+<div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExchangeValues(</div>
+<div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;        Value           (&amp;values)[ITEMS_PER_THREAD],</div>
+<div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;        <span class="keywordtype">int</span>             (&amp;ranks)[ITEMS_PER_THREAD],</div>
+<div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a> is_keys_only,</div>
+<div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>  is_blocked)</div>
+<div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;    {</div>
+<div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;        __syncthreads();</div>
+<div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;</div>
+<div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;        <span class="comment">// Exchange values through shared memory in blocked arrangement</span></div>
+<div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;        BlockExchangeValues(temp_storage.exchange_values).ScatterToBlocked(values, ranks);</div>
+<div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;    }</div>
+<div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;</div>
+<div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExchangeValues(</div>
+<div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;        Value           (&amp;values)[ITEMS_PER_THREAD],</div>
+<div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;        <span class="keywordtype">int</span>             (&amp;ranks)[ITEMS_PER_THREAD],</div>
+<div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a> is_keys_only,</div>
+<div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a> is_blocked)</div>
+<div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;    {</div>
+<div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;        __syncthreads();</div>
+<div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;</div>
+<div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;        <span class="comment">// Exchange values through shared memory in blocked arrangement</span></div>
+<div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;        BlockExchangeValues(temp_storage.exchange_values).ScatterToStriped(values, ranks);</div>
+<div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;    }</div>
+<div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div>
+<div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;    <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> IS_BLOCKED&gt;</div>
+<div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExchangeValues(</div>
+<div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;        Value                   (&amp;values)[ITEMS_PER_THREAD],</div>
+<div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;        <span class="keywordtype">int</span>                     (&amp;ranks)[ITEMS_PER_THREAD],</div>
+<div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>          is_keys_only,</div>
+<div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_BLOCKED&gt;</a>    is_blocked)</div>
+<div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;    {}</div>
+<div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div>
+<div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;    <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> DESCENDING, <span class="keywordtype">int</span> KEYS_ONLY&gt;</div>
+<div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> SortBlocked(</div>
+<div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;        Key                     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;        Value                   (&amp;values)[ITEMS_PER_THREAD],        </div>
+<div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;        <span class="keywordtype">int</span>                     begin_bit,                          </div>
+<div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;        <span class="keywordtype">int</span>                     end_bit,                            </div>
+<div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;DESCENDING&gt;</a>    is_descending,                      </div>
+<div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>     is_keys_only)                       </div>
+<div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;    {</div>
+<div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;        UnsignedBits (&amp;unsigned_keys)[ITEMS_PER_THREAD] =</div>
+<div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;            <span class="keyword">reinterpret_cast&lt;</span>UnsignedBits (&amp;)[ITEMS_PER_THREAD]<span class="keyword">&gt;</span>(keys);</div>
+<div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div>
+<div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;        <span class="comment">// Twiddle bits if necessary</span></div>
+<div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;<span class="preprocessor">        #pragma unroll</span></div>
+<div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;<span class="preprocessor"></span>        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> KEY = 0; KEY &lt; ITEMS_PER_THREAD; KEY++)</div>
+<div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;        {</div>
+<div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;            unsigned_keys[KEY] = KeyTraits::TwiddleIn(unsigned_keys[KEY]);</div>
+<div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;        }</div>
+<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;</div>
+<div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;        <span class="comment">// Radix sorting passes</span></div>
+<div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;        <span class="keywordflow">while</span> (<span class="keyword">true</span>)</div>
+<div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;        {</div>
+<div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;            <span class="keywordtype">int</span> pass_bits = CUB_MIN(RADIX_BITS, end_bit - begin_bit);</div>
+<div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div>
+<div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;            <span class="comment">// Rank the blocked keys</span></div>
+<div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;            <span class="keywordtype">int</span> ranks[ITEMS_PER_THREAD];</div>
+<div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;            RankKeys(unsigned_keys, ranks, begin_bit, pass_bits, is_descending);</div>
+<div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;            begin_bit += RADIX_BITS;</div>
+<div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;</div>
+<div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;            __syncthreads();</div>
+<div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;</div>
+<div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;            <span class="comment">// Exchange keys through shared memory in blocked arrangement</span></div>
+<div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;            BlockExchangeKeys(temp_storage.exchange_keys).ScatterToBlocked(keys, ranks);</div>
+<div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;</div>
+<div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;            <span class="comment">// Exchange values through shared memory in blocked arrangement</span></div>
+<div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;            ExchangeValues(values, ranks, is_keys_only, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>());</div>
+<div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;</div>
+<div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;            <span class="comment">// Quit if done</span></div>
+<div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;            <span class="keywordflow">if</span> (begin_bit &gt;= end_bit) <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;</div>
+<div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;            __syncthreads();</div>
+<div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;        }</div>
+<div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;</div>
+<div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;        <span class="comment">// Untwiddle bits if necessary</span></div>
+<div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;<span class="preprocessor">        #pragma unroll</span></div>
+<div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;<span class="preprocessor"></span>        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> KEY = 0; KEY &lt; ITEMS_PER_THREAD; KEY++)</div>
+<div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;        {</div>
+<div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;            unsigned_keys[KEY] = KeyTraits::TwiddleOut(unsigned_keys[KEY]);</div>
+<div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;        }</div>
+<div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;    }</div>
+<div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div>
+<div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;    <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> DESCENDING, <span class="keywordtype">int</span> KEYS_ONLY&gt;</div>
+<div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> SortBlockedToStriped(</div>
+<div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;        Key                     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;        Value                   (&amp;values)[ITEMS_PER_THREAD],        </div>
+<div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;        <span class="keywordtype">int</span>                     begin_bit,                          </div>
+<div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;        <span class="keywordtype">int</span>                     end_bit,                            </div>
+<div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;DESCENDING&gt;</a>    is_descending,                      </div>
+<div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;        <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>     is_keys_only)                       </div>
+<div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;    {</div>
+<div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;        UnsignedBits (&amp;unsigned_keys)[ITEMS_PER_THREAD] =</div>
+<div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;            <span class="keyword">reinterpret_cast&lt;</span>UnsignedBits (&amp;)[ITEMS_PER_THREAD]<span class="keyword">&gt;</span>(keys);</div>
+<div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;</div>
+<div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;        <span class="comment">// Twiddle bits if necessary</span></div>
+<div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;<span class="preprocessor">        #pragma unroll</span></div>
+<div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;<span class="preprocessor"></span>        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> KEY = 0; KEY &lt; ITEMS_PER_THREAD; KEY++)</div>
+<div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;        {</div>
+<div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;            unsigned_keys[KEY] = KeyTraits::TwiddleIn(unsigned_keys[KEY]);</div>
+<div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;        }</div>
+<div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div>
+<div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;        <span class="comment">// Radix sorting passes</span></div>
+<div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;        <span class="keywordflow">while</span> (<span class="keyword">true</span>)</div>
+<div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;        {</div>
+<div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;            <span class="keywordtype">int</span> pass_bits = CUB_MIN(RADIX_BITS, end_bit - begin_bit);</div>
+<div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;</div>
+<div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;            <span class="comment">// Rank the blocked keys</span></div>
+<div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;            <span class="keywordtype">int</span> ranks[ITEMS_PER_THREAD];</div>
+<div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;            RankKeys(unsigned_keys, ranks, begin_bit, pass_bits, is_descending);</div>
+<div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;            begin_bit += RADIX_BITS;</div>
+<div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;</div>
+<div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;            __syncthreads();</div>
 <div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;</div>
-<div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;                <span class="comment">// Last pass exchanges through shared memory in striped arrangement</span></div>
-<div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;                ExchangeValues(values, ranks, is_keys_only, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>());</div>
-<div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;</div>
-<div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;                <span class="comment">// Quit</span></div>
-<div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;                <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;            }</div>
-<div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;</div>
-<div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;            <span class="comment">// Exchange keys through shared memory in blocked arrangement</span></div>
-<div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;            BlockExchangeKeys(temp_storage.exchange_keys).ScatterToBlocked(keys, ranks);</div>
-<div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;</div>
-<div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;            <span class="comment">// Exchange values through shared memory in blocked arrangement</span></div>
-<div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;            ExchangeValues(values, ranks, is_keys_only, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>());</div>
+<div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;            <span class="comment">// Check if this is the last pass</span></div>
+<div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;            <span class="keywordflow">if</span> (begin_bit &gt;= end_bit)</div>
+<div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;            {</div>
+<div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;                <span class="comment">// Last pass exchanges keys through shared memory in striped arrangement</span></div>
+<div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;                BlockExchangeKeys(temp_storage.exchange_keys).ScatterToStriped(keys, ranks);</div>
+<div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;</div>
+<div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;                <span class="comment">// Last pass exchanges through shared memory in striped arrangement</span></div>
+<div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;                ExchangeValues(values, ranks, is_keys_only, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>());</div>
+<div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;</div>
+<div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;                <span class="comment">// Quit</span></div>
+<div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;                <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;            }</div>
 <div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;</div>
-<div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;            __syncthreads();</div>
-<div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;        }</div>
+<div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;            <span class="comment">// Exchange keys through shared memory in blocked arrangement</span></div>
+<div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;            BlockExchangeKeys(temp_storage.exchange_keys).ScatterToBlocked(keys, ranks);</div>
 <div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;</div>
-<div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;        <span class="comment">// Untwiddle bits if necessary</span></div>
-<div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;<span class="preprocessor">        #pragma unroll</span></div>
-<div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;<span class="preprocessor"></span>        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> KEY = 0; KEY &lt; ITEMS_PER_THREAD; KEY++)</div>
-<div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;        {</div>
-<div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;            unsigned_keys[KEY] = KeyTraits::TwiddleOut(unsigned_keys[KEY]);</div>
-<div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;        }</div>
-<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;    }</div>
-<div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;</div>
-<div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;</div>
-<div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;</div>
-<div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;<span class="keyword">public</span>:</div>
-<div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;</div>
-<div class="line"><a name="l00394"></a><span class="lineno"><a class="code" href="structcub_1_1_block_radix_sort_1_1_temp_storage.html">  394</a></span>&#160;    <span class="keyword">struct </span><a class="code" href="structcub_1_1_block_radix_sort_1_1_temp_storage.html" title="The operations exposed by BlockScan require a temporary memory allocation of this nested type for thr...">TempStorage</a> : <a class="code" href="structcub_1_1_uninitialized.html" title="A storage-backing wrapper that allows types with non-trivial constructors to be aliased in unions...">Uninitialized</a>&lt;_TempStorage&gt; {};</div>
+<div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;            <span class="comment">// Exchange values through shared memory in blocked arrangement</span></div>
+<div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;            ExchangeValues(values, ranks, is_keys_only, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>());</div>
+<div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;</div>
+<div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;            __syncthreads();</div>
+<div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;        }</div>
+<div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;</div>
+<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;        <span class="comment">// Untwiddle bits if necessary</span></div>
+<div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;<span class="preprocessor">        #pragma unroll</span></div>
+<div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;<span class="preprocessor"></span>        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> KEY = 0; KEY &lt; ITEMS_PER_THREAD; KEY++)</div>
+<div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;        {</div>
+<div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;            unsigned_keys[KEY] = KeyTraits::TwiddleOut(unsigned_keys[KEY]);</div>
+<div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;        }</div>
+<div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;    }</div>
+<div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;</div>
 <div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;</div>
 <div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;</div>
-<div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;<span class="keyword">public</span>:</div>
+<div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;</div>
+<div class="line"><a name="l00400"></a><span class="lineno"><a class="code" href="structcub_1_1_block_radix_sort_1_1_temp_storage.html">  400</a></span>&#160;    <span class="keyword">struct </span><a class="code" href="structcub_1_1_block_radix_sort_1_1_temp_storage.html" title="The operations exposed by BlockScan require a temporary memory allocation of this nested type for thr...">TempStorage</a> : <a class="code" href="structcub_1_1_uninitialized.html" title="A storage-backing wrapper that allows types with non-trivial constructors to be aliased in unions...">Uninitialized</a>&lt;_TempStorage&gt; {};</div>
 <div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;</div>
-<div class="line"><a name="l00405"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a61350e5a0912695e7c61dde559fb3b54">  405</a></span>&#160;    __device__ __forceinline__ <a class="code" href="classcub_1_1_block_radix_sort.html#a61350e5a0912695e7c61dde559fb3b54" title="Collective constructor using a private static allocation of shared memory as temporary storage...">BlockRadixSort</a>()</div>
-<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;    :</div>
-<div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;        temp_storage(PrivateStorage()),</div>
-<div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;        linear_tid(<a class="code" href="group___util_ptx.html#gaa3f839b109cc6dc9d9ece4f1acf7d2ce" title="Returns the row-major linear thread identifier for a multidimensional threadblock. ">RowMajorTid</a>(BLOCK_DIM_X, BLOCK_DIM_Y, BLOCK_DIM_Z))</div>
-<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;    {}</div>
-<div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;</div>
-<div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;</div>
-<div class="line"><a name="l00415"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a3db4338c1129aad727f0f60fb3593c73">  415</a></span>&#160;    __device__ __forceinline__ <a class="code" href="classcub_1_1_block_radix_sort.html#a3db4338c1129aad727f0f60fb3593c73" title="Collective constructor using the specified memory allocation as temporary storage. ">BlockRadixSort</a>(</div>
-<div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;        <a class="code" href="structcub_1_1_block_radix_sort_1_1_temp_storage.html" title="The operations exposed by BlockScan require a temporary memory allocation of this nested type for thr...">TempStorage</a> &amp;temp_storage)             </div>
-<div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;    :</div>
-<div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;        temp_storage(temp_storage.Alias()),</div>
-<div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;        linear_tid(<a class="code" href="group___util_ptx.html#gaa3f839b109cc6dc9d9ece4f1acf7d2ce" title="Returns the row-major linear thread identifier for a multidimensional threadblock. ">RowMajorTid</a>(BLOCK_DIM_X, BLOCK_DIM_Y, BLOCK_DIM_Z))</div>
-<div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;    {}</div>
-<div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;</div>
-<div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;</div>
-<div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;</div>
+<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;</div>
+<div class="line"><a name="l00411"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a61350e5a0912695e7c61dde559fb3b54">  411</a></span>&#160;    __device__ __forceinline__ <a class="code" href="classcub_1_1_block_radix_sort.html#a61350e5a0912695e7c61dde559fb3b54" title="Collective constructor using a private static allocation of shared memory as temporary storage...">BlockRadixSort</a>()</div>
+<div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;    :</div>
+<div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;        temp_storage(PrivateStorage()),</div>
+<div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;        linear_tid(<a class="code" href="group___util_ptx.html#gaa3f839b109cc6dc9d9ece4f1acf7d2ce" title="Returns the row-major linear thread identifier for a multidimensional threadblock. ">RowMajorTid</a>(BLOCK_DIM_X, BLOCK_DIM_Y, BLOCK_DIM_Z))</div>
+<div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;    {}</div>
+<div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;</div>
+<div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;</div>
+<div class="line"><a name="l00421"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a3db4338c1129aad727f0f60fb3593c73">  421</a></span>&#160;    __device__ __forceinline__ <a class="code" href="classcub_1_1_block_radix_sort.html#a3db4338c1129aad727f0f60fb3593c73" title="Collective constructor using the specified memory allocation as temporary storage. ">BlockRadixSort</a>(</div>
+<div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;        <a class="code" href="structcub_1_1_block_radix_sort_1_1_temp_storage.html" title="The operations exposed by BlockScan require a temporary memory allocation of this nested type for thr...">TempStorage</a> &amp;temp_storage)             </div>
+<div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;    :</div>
+<div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;        temp_storage(temp_storage.Alias()),</div>
+<div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;        linear_tid(<a class="code" href="group___util_ptx.html#gaa3f839b109cc6dc9d9ece4f1acf7d2ce" title="Returns the row-major linear thread identifier for a multidimensional threadblock. ">RowMajorTid</a>(BLOCK_DIM_X, BLOCK_DIM_Y, BLOCK_DIM_Z))</div>
+<div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;    {}</div>
+<div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;</div>
 <div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;</div>
-<div class="line"><a name="l00466"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#af97311d03e725f43eb7ae4a94422fd8f">  466</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#af97311d03e725f43eb7ae4a94422fd8f" title="Performs an ascending block-wide radix sort over a blocked arrangement of keys. ">Sort</a>(</div>
-<div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
-<div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
-<div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;    {</div>
-<div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;        <a class="code" href="structcub_1_1_null_type.html" title="A simple &quot;NULL&quot; marker type. ">NullType</a> values[ITEMS_PER_THREAD];</div>
-<div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;</div>
-<div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;        SortBlocked(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
-<div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;    }</div>
-<div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;</div>
-<div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;</div>
-<div class="line"><a name="l00521"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#aa6b164f496c319269f83502d7fc53512">  521</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#aa6b164f496c319269f83502d7fc53512" title="Performs an ascending block-wide radix sort across a blocked arrangement of keys and values...">Sort</a>(</div>
-<div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;        Value   (&amp;values)[ITEMS_PER_THREAD],        </div>
-<div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
-<div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
-<div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;    {</div>
-<div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;        SortBlocked(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
-<div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;    }</div>
-<div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;</div>
-<div class="line"><a name="l00567"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a2d8792ad5dff4be936fbdf566aeb7744">  567</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#a2d8792ad5dff4be936fbdf566aeb7744" title="Performs a descending block-wide radix sort over a blocked arrangement of keys. ">SortDescending</a>(</div>
-<div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
-<div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
-<div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;    {</div>
-<div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;        <a class="code" href="structcub_1_1_null_type.html" title="A simple &quot;NULL&quot; marker type. ">NullType</a> values[ITEMS_PER_THREAD];</div>
-<div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;</div>
-<div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;        SortBlocked(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
-<div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;    }</div>
-<div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;</div>
-<div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;</div>
-<div class="line"><a name="l00622"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a94af642346a2a23925795435a9838c9a">  622</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#a94af642346a2a23925795435a9838c9a" title="Performs a descending block-wide radix sort across a blocked arrangement of keys and values...">SortDescending</a>(</div>
-<div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;        Value   (&amp;values)[ITEMS_PER_THREAD],        </div>
-<div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
-<div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
-<div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;    {</div>
-<div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;        SortBlocked(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
-<div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;    }</div>
-<div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;</div>
-<div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;</div>
-<div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;</div>
+<div class="line"><a name="l00472"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#af97311d03e725f43eb7ae4a94422fd8f">  472</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#af97311d03e725f43eb7ae4a94422fd8f" title="Performs an ascending block-wide radix sort over a blocked arrangement of keys. ">Sort</a>(</div>
+<div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
+<div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
+<div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;    {</div>
+<div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;        <a class="code" href="structcub_1_1_null_type.html" title="A simple &quot;NULL&quot; marker type. ">NullType</a> values[ITEMS_PER_THREAD];</div>
+<div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;</div>
+<div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;        SortBlocked(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
+<div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;    }</div>
+<div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;</div>
+<div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;</div>
+<div class="line"><a name="l00527"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#aa6b164f496c319269f83502d7fc53512">  527</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#aa6b164f496c319269f83502d7fc53512" title="Performs an ascending block-wide radix sort across a blocked arrangement of keys and values...">Sort</a>(</div>
+<div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;        Value   (&amp;values)[ITEMS_PER_THREAD],        </div>
+<div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
+<div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
+<div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;    {</div>
+<div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;        SortBlocked(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
+<div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;    }</div>
+<div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;</div>
+<div class="line"><a name="l00573"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a2d8792ad5dff4be936fbdf566aeb7744">  573</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#a2d8792ad5dff4be936fbdf566aeb7744" title="Performs a descending block-wide radix sort over a blocked arrangement of keys. ">SortDescending</a>(</div>
+<div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
+<div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
+<div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;    {</div>
+<div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;        <a class="code" href="structcub_1_1_null_type.html" title="A simple &quot;NULL&quot; marker type. ">NullType</a> values[ITEMS_PER_THREAD];</div>
+<div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;</div>
+<div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;        SortBlocked(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
+<div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;    }</div>
+<div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;</div>
+<div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;</div>
+<div class="line"><a name="l00628"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a94af642346a2a23925795435a9838c9a">  628</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#a94af642346a2a23925795435a9838c9a" title="Performs a descending block-wide radix sort across a blocked arrangement of keys and values...">SortDescending</a>(</div>
+<div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;        Value   (&amp;values)[ITEMS_PER_THREAD],        </div>
+<div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
+<div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
+<div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;    {</div>
+<div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;        SortBlocked(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
+<div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160;    }</div>
+<div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;</div>
 <div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;</div>
-<div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;</div>
-<div class="line"><a name="l00677"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#acef5df1f88f8d56857365c43bd032bc7">  677</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#acef5df1f88f8d56857365c43bd032bc7" title="Performs an ascending radix sort across a blocked arrangement of keys, leaving them in a striped arra...">SortBlockedToStriped</a>(</div>
-<div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00679"></a><span class="lineno">  679</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
-<div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
-<div class="line"><a name="l00681"></a><span class="lineno">  681</span>&#160;    {</div>
-<div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160;        <a class="code" href="structcub_1_1_null_type.html" title="A simple &quot;NULL&quot; marker type. ">NullType</a> values[ITEMS_PER_THREAD];</div>
-<div class="line"><a name="l00683"></a><span class="lineno">  683</span>&#160;</div>
-<div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;        SortBlockedToStriped(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
-<div class="line"><a name="l00685"></a><span class="lineno">  685</span>&#160;    }</div>
-<div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;</div>
-<div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160;</div>
-<div class="line"><a name="l00732"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a088d03f619f4ea9d694c4736f2cdcfe6">  732</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#a088d03f619f4ea9d694c4736f2cdcfe6" title="Performs an ascending radix sort across a blocked arrangement of keys and values, leaving them in a s...">SortBlockedToStriped</a>(</div>
-<div class="line"><a name="l00733"></a><span class="lineno">  733</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160;        Value   (&amp;values)[ITEMS_PER_THREAD],        </div>
-<div class="line"><a name="l00735"></a><span class="lineno">  735</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
-<div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
-<div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160;    {</div>
-<div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;        SortBlockedToStriped(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
-<div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;    }</div>
-<div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;</div>
-<div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;</div>
-<div class="line"><a name="l00780"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#af059067206ac007469b9a3dd8fe87f15">  780</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#af059067206ac007469b9a3dd8fe87f15" title="Performs a descending radix sort across a blocked arrangement of keys, leaving them in a striped arra...">SortDescendingBlockedToStriped</a>(</div>
-<div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00782"></a><span class="lineno">  782</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
-<div class="line"><a name="l00783"></a><span class="lineno">  783</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
-<div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160;    {</div>
-<div class="line"><a name="l00785"></a><span class="lineno">  785</span>&#160;        <a class="code" href="structcub_1_1_null_type.html" title="A simple &quot;NULL&quot; marker type. ">NullType</a> values[ITEMS_PER_THREAD];</div>
-<div class="line"><a name="l00786"></a><span class="lineno">  786</span>&#160;</div>
-<div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;        SortBlockedToStriped(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
-<div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160;    }</div>
-<div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160;</div>
-<div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;</div>
-<div class="line"><a name="l00835"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a261f5e8a77f2b4e47938d67ebd9d4525">  835</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#a261f5e8a77f2b4e47938d67ebd9d4525" title="Performs a descending radix sort across a blocked arrangement of keys and values, leaving them in a s...">SortDescendingBlockedToStriped</a>(</div>
-<div class="line"><a name="l00836"></a><span class="lineno">  836</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
-<div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;        Value   (&amp;values)[ITEMS_PER_THREAD],        </div>
-<div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
-<div class="line"><a name="l00839"></a><span class="lineno">  839</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
-<div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;    {</div>
-<div class="line"><a name="l00841"></a><span class="lineno">  841</span>&#160;        SortBlockedToStriped(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
-<div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;    }</div>
-<div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;</div>
-<div class="line"><a name="l00844"></a><span class="lineno">  844</span>&#160;</div>
-<div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;</div>
-<div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;};</div>
-<div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;</div>
-<div class="line"><a name="l00853"></a><span class="lineno">  853</span>&#160;}               <span class="comment">// CUB namespace</span></div>
-<div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;CUB_NS_POSTFIX  <span class="comment">// Optional outer namespace(s)</span></div>
-<div class="line"><a name="l00855"></a><span class="lineno">  855</span>&#160;</div>
+<div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;</div>
+<div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;</div>
+<div class="line"><a name="l00683"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#acef5df1f88f8d56857365c43bd032bc7">  683</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#acef5df1f88f8d56857365c43bd032bc7" title="Performs an ascending radix sort across a blocked arrangement of keys, leaving them in a striped arra...">SortBlockedToStriped</a>(</div>
+<div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00685"></a><span class="lineno">  685</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
+<div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
+<div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160;    {</div>
+<div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;        <a class="code" href="structcub_1_1_null_type.html" title="A simple &quot;NULL&quot; marker type. ">NullType</a> values[ITEMS_PER_THREAD];</div>
+<div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;</div>
+<div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;        SortBlockedToStriped(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
+<div class="line"><a name="l00691"></a><span class="lineno">  691</span>&#160;    }</div>
+<div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;</div>
+<div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;</div>
+<div class="line"><a name="l00738"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a088d03f619f4ea9d694c4736f2cdcfe6">  738</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#a088d03f619f4ea9d694c4736f2cdcfe6" title="Performs an ascending radix sort across a blocked arrangement of keys and values, leaving them in a s...">SortBlockedToStriped</a>(</div>
+<div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;        Value   (&amp;values)[ITEMS_PER_THREAD],        </div>
+<div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
+<div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
+<div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;    {</div>
+<div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160;        SortBlockedToStriped(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;false&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
+<div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160;    }</div>
+<div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;</div>
+<div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;</div>
+<div class="line"><a name="l00786"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#af059067206ac007469b9a3dd8fe87f15">  786</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#af059067206ac007469b9a3dd8fe87f15" title="Performs a descending radix sort across a blocked arrangement of keys, leaving them in a striped arra...">SortDescendingBlockedToStriped</a>(</div>
+<div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
+<div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
+<div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;    {</div>
+<div class="line"><a name="l00791"></a><span class="lineno">  791</span>&#160;        <a class="code" href="structcub_1_1_null_type.html" title="A simple &quot;NULL&quot; marker type. ">NullType</a> values[ITEMS_PER_THREAD];</div>
+<div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160;</div>
+<div class="line"><a name="l00793"></a><span class="lineno">  793</span>&#160;        SortBlockedToStriped(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
+<div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160;    }</div>
+<div class="line"><a name="l00795"></a><span class="lineno">  795</span>&#160;</div>
+<div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;</div>
+<div class="line"><a name="l00841"></a><span class="lineno"><a class="code" href="classcub_1_1_block_radix_sort.html#a261f5e8a77f2b4e47938d67ebd9d4525">  841</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_block_radix_sort.html#a261f5e8a77f2b4e47938d67ebd9d4525" title="Performs a descending radix sort across a blocked arrangement of keys and values, leaving them in a s...">SortDescendingBlockedToStriped</a>(</div>
+<div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;        Key     (&amp;keys)[ITEMS_PER_THREAD],          </div>
+<div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;        Value   (&amp;values)[ITEMS_PER_THREAD],        </div>
+<div class="line"><a name="l00844"></a><span class="lineno">  844</span>&#160;        <span class="keywordtype">int</span>     begin_bit   = 0,                    </div>
+<div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;        <span class="keywordtype">int</span>     end_bit     = <span class="keyword">sizeof</span>(Key) * 8)      </div>
+<div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;    {</div>
+<div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;        SortBlockedToStriped(keys, values, begin_bit, end_bit, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a>(), <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;KEYS_ONLY&gt;</a>());</div>
+<div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;    }</div>
+<div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;</div>
+<div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;</div>
+<div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;</div>
+<div class="line"><a name="l00853"></a><span class="lineno">  853</span>&#160;};</div>
+<div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;</div>
+<div class="line"><a name="l00859"></a><span class="lineno">  859</span>&#160;}               <span class="comment">// CUB namespace</span></div>
+<div class="line"><a name="l00860"></a><span class="lineno">  860</span>&#160;CUB_NS_POSTFIX  <span class="comment">// Optional outer namespace(s)</span></div>
+<div class="line"><a name="l00861"></a><span class="lineno">  861</span>&#160;</div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__reduce_8cuh.html b/docs/html/block__reduce_8cuh.html
index 58ca2b1e50..54cf646833 100644
--- a/docs/html/block__reduce_8cuh.html
+++ b/docs/html/block__reduce_8cuh.html
@@ -151,7 +151,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__reduce_8cuh_source.html b/docs/html/block__reduce_8cuh_source.html
index e0d9f678a6..c6297bddff 100644
--- a/docs/html/block__reduce_8cuh_source.html
+++ b/docs/html/block__reduce_8cuh_source.html
@@ -328,7 +328,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__scan_8cuh.html b/docs/html/block__scan_8cuh.html
index 9a1abcd5ea..31c00fe4e1 100644
--- a/docs/html/block__scan_8cuh.html
+++ b/docs/html/block__scan_8cuh.html
@@ -151,7 +151,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__scan_8cuh_source.html.REMOVED.git-id b/docs/html/block__scan_8cuh_source.html.REMOVED.git-id
index 905f3cc657..1e6ba7872a 100644
--- a/docs/html/block__scan_8cuh_source.html.REMOVED.git-id
+++ b/docs/html/block__scan_8cuh_source.html.REMOVED.git-id
@@ -1 +1 @@
-841d80cb75904c0b2bf77ef7e64f72f0f68b7141
\ No newline at end of file
+402ec7b45869fdc77cee768440435e3bcc85847b
\ No newline at end of file
diff --git a/docs/html/block__store_8cuh.html b/docs/html/block__store_8cuh.html
index 520ccb0aba..31dd545df2 100644
--- a/docs/html/block__store_8cuh.html
+++ b/docs/html/block__store_8cuh.html
@@ -192,7 +192,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/block__store_8cuh_source.html b/docs/html/block__store_8cuh_source.html
index 451d2e2807..3482b2cb8f 100644
--- a/docs/html/block__store_8cuh_source.html
+++ b/docs/html/block__store_8cuh_source.html
@@ -617,7 +617,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/cache__modified__input__iterator_8cuh.html b/docs/html/cache__modified__input__iterator_8cuh.html
index eebaea2ccb..2e1525d258 100644
--- a/docs/html/cache__modified__input__iterator_8cuh.html
+++ b/docs/html/cache__modified__input__iterator_8cuh.html
@@ -133,7 +133,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/cache__modified__input__iterator_8cuh_source.html b/docs/html/cache__modified__input__iterator_8cuh_source.html
index 484a209d7a..00f552a9ba 100644
--- a/docs/html/cache__modified__input__iterator_8cuh_source.html
+++ b/docs/html/cache__modified__input__iterator_8cuh_source.html
@@ -279,7 +279,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/cache__modified__output__iterator_8cuh.html b/docs/html/cache__modified__output__iterator_8cuh.html
index 1684846daa..4701ec9255 100644
--- a/docs/html/cache__modified__output__iterator_8cuh.html
+++ b/docs/html/cache__modified__output__iterator_8cuh.html
@@ -133,7 +133,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/cache__modified__output__iterator_8cuh_source.html b/docs/html/cache__modified__output__iterator_8cuh_source.html
index ec14de3a13..311be0e013 100644
--- a/docs/html/cache__modified__output__iterator_8cuh_source.html
+++ b/docs/html/cache__modified__output__iterator_8cuh_source.html
@@ -288,7 +288,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_arg_index_input_iterator-members.html b/docs/html/classcub_1_1_arg_index_input_iterator-members.html
index ab0e4bee39..60469a8b52 100644
--- a/docs/html/classcub_1_1_arg_index_input_iterator-members.html
+++ b/docs/html/classcub_1_1_arg_index_input_iterator-members.html
@@ -128,7 +128,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_arg_index_input_iterator.html b/docs/html/classcub_1_1_arg_index_input_iterator.html
index 318464e7e5..e0774ba975 100644
--- a/docs/html/classcub_1_1_arg_index_input_iterator.html
+++ b/docs/html/classcub_1_1_arg_index_input_iterator.html
@@ -315,7 +315,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_discontinuity-members.html b/docs/html/classcub_1_1_block_discontinuity-members.html
index da2167cc8b..95b581fd03 100644
--- a/docs/html/classcub_1_1_block_discontinuity-members.html
+++ b/docs/html/classcub_1_1_block_discontinuity-members.html
@@ -114,7 +114,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_discontinuity.html b/docs/html/classcub_1_1_block_discontinuity.html
index 417c61c31d..f8ff42d146 100644
--- a/docs/html/classcub_1_1_block_discontinuity.html
+++ b/docs/html/classcub_1_1_block_discontinuity.html
@@ -637,7 +637,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_exchange-members.html b/docs/html/classcub_1_1_block_exchange-members.html
index 71b76889c3..bae3a384a2 100644
--- a/docs/html/classcub_1_1_block_exchange-members.html
+++ b/docs/html/classcub_1_1_block_exchange-members.html
@@ -118,7 +118,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_exchange.html b/docs/html/classcub_1_1_block_exchange.html
index 27e2a4ec04..fe6d1b912d 100644
--- a/docs/html/classcub_1_1_block_exchange.html
+++ b/docs/html/classcub_1_1_block_exchange.html
@@ -749,7 +749,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_histogram-members.html b/docs/html/classcub_1_1_block_histogram-members.html
index e4cf4d6775..aa498ac87b 100644
--- a/docs/html/classcub_1_1_block_histogram-members.html
+++ b/docs/html/classcub_1_1_block_histogram-members.html
@@ -113,7 +113,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_histogram.html b/docs/html/classcub_1_1_block_histogram.html
index eb99ca4aa6..ec96bd3a78 100644
--- a/docs/html/classcub_1_1_block_histogram.html
+++ b/docs/html/classcub_1_1_block_histogram.html
@@ -479,7 +479,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_load-members.html b/docs/html/classcub_1_1_block_load-members.html
index 9e89752286..72fd06c841 100644
--- a/docs/html/classcub_1_1_block_load-members.html
+++ b/docs/html/classcub_1_1_block_load-members.html
@@ -113,7 +113,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_load.html b/docs/html/classcub_1_1_block_load.html
index 9703e164b1..d391968ad9 100644
--- a/docs/html/classcub_1_1_block_load.html
+++ b/docs/html/classcub_1_1_block_load.html
@@ -464,7 +464,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_radix_sort-members.html b/docs/html/classcub_1_1_block_radix_sort-members.html
index 6b081f7229..9c1cfd83c7 100644
--- a/docs/html/classcub_1_1_block_radix_sort-members.html
+++ b/docs/html/classcub_1_1_block_radix_sort-members.html
@@ -118,7 +118,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_radix_sort.html b/docs/html/classcub_1_1_block_radix_sort.html
index db7633a1ae..239d58e3dc 100644
--- a/docs/html/classcub_1_1_block_radix_sort.html
+++ b/docs/html/classcub_1_1_block_radix_sort.html
@@ -252,7 +252,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00415">415</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00421">421</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -331,7 +331,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00466">466</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00472">472</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -418,7 +418,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00521">521</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00527">527</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -496,7 +496,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00567">567</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00573">573</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -583,7 +583,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00622">622</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00628">628</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -661,7 +661,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00677">677</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00683">683</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -748,7 +748,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00732">732</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00738">738</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -826,7 +826,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00780">780</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00786">786</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -913,7 +913,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
   </dd>
 </dl>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00835">835</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00841">841</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 
 </div>
 </div>
@@ -924,7 +924,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_reduce-members.html b/docs/html/classcub_1_1_block_reduce-members.html
index 42744c516c..135cadb5cd 100644
--- a/docs/html/classcub_1_1_block_reduce-members.html
+++ b/docs/html/classcub_1_1_block_reduce-members.html
@@ -116,7 +116,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_reduce.html b/docs/html/classcub_1_1_block_reduce.html
index 18d2eba84d..b2a1ab67a1 100644
--- a/docs/html/classcub_1_1_block_reduce.html
+++ b/docs/html/classcub_1_1_block_reduce.html
@@ -708,7 +708,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_scan-members.html b/docs/html/classcub_1_1_block_scan-members.html
index 64db347bfb..60b76f86ad 100644
--- a/docs/html/classcub_1_1_block_scan-members.html
+++ b/docs/html/classcub_1_1_block_scan-members.html
@@ -134,7 +134,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_scan.html.REMOVED.git-id b/docs/html/classcub_1_1_block_scan.html.REMOVED.git-id
index 3bca5c5ffd..88101d7ad8 100644
--- a/docs/html/classcub_1_1_block_scan.html.REMOVED.git-id
+++ b/docs/html/classcub_1_1_block_scan.html.REMOVED.git-id
@@ -1 +1 @@
-10fdfe8a82d8f43e9798bef7ae7b7bd50a268d34
\ No newline at end of file
+8af2a8768b7eef0b0eab9d379aecff4374aa070f
\ No newline at end of file
diff --git a/docs/html/classcub_1_1_block_store-members.html b/docs/html/classcub_1_1_block_store-members.html
index b3a877b086..d1030f4725 100644
--- a/docs/html/classcub_1_1_block_store-members.html
+++ b/docs/html/classcub_1_1_block_store-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_block_store.html b/docs/html/classcub_1_1_block_store.html
index b4083bb930..bdf0c85684 100644
--- a/docs/html/classcub_1_1_block_store.html
+++ b/docs/html/classcub_1_1_block_store.html
@@ -391,7 +391,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_cache_modified_input_iterator-members.html b/docs/html/classcub_1_1_cache_modified_input_iterator-members.html
index d88cbd5d35..c2e7d44319 100644
--- a/docs/html/classcub_1_1_cache_modified_input_iterator-members.html
+++ b/docs/html/classcub_1_1_cache_modified_input_iterator-members.html
@@ -128,7 +128,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_cache_modified_input_iterator.html b/docs/html/classcub_1_1_cache_modified_input_iterator.html
index cff87a2c09..e15f412519 100644
--- a/docs/html/classcub_1_1_cache_modified_input_iterator.html
+++ b/docs/html/classcub_1_1_cache_modified_input_iterator.html
@@ -297,7 +297,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_cache_modified_output_iterator-members.html b/docs/html/classcub_1_1_cache_modified_output_iterator-members.html
index 43088bd27e..a3eb09841f 100644
--- a/docs/html/classcub_1_1_cache_modified_output_iterator-members.html
+++ b/docs/html/classcub_1_1_cache_modified_output_iterator-members.html
@@ -127,7 +127,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_cache_modified_output_iterator.html b/docs/html/classcub_1_1_cache_modified_output_iterator.html
index 2be7bc0d7c..c3840740a4 100644
--- a/docs/html/classcub_1_1_cache_modified_output_iterator.html
+++ b/docs/html/classcub_1_1_cache_modified_output_iterator.html
@@ -297,7 +297,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_constant_input_iterator-members.html b/docs/html/classcub_1_1_constant_input_iterator-members.html
index f9be292f2c..b348c924a9 100644
--- a/docs/html/classcub_1_1_constant_input_iterator-members.html
+++ b/docs/html/classcub_1_1_constant_input_iterator-members.html
@@ -128,7 +128,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_constant_input_iterator.html b/docs/html/classcub_1_1_constant_input_iterator.html
index 2e13ebb4bc..fb50595c87 100644
--- a/docs/html/classcub_1_1_constant_input_iterator.html
+++ b/docs/html/classcub_1_1_constant_input_iterator.html
@@ -302,7 +302,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_counting_input_iterator-members.html b/docs/html/classcub_1_1_counting_input_iterator-members.html
index 1a24f5c3cc..f9b6da0bc8 100644
--- a/docs/html/classcub_1_1_counting_input_iterator-members.html
+++ b/docs/html/classcub_1_1_counting_input_iterator-members.html
@@ -128,7 +128,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_counting_input_iterator.html b/docs/html/classcub_1_1_counting_input_iterator.html
index e3bef85273..dbcd2265c6 100644
--- a/docs/html/classcub_1_1_counting_input_iterator.html
+++ b/docs/html/classcub_1_1_counting_input_iterator.html
@@ -290,7 +290,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_tex_obj_input_iterator-members.html b/docs/html/classcub_1_1_tex_obj_input_iterator-members.html
index e651d1cdef..555b356551 100644
--- a/docs/html/classcub_1_1_tex_obj_input_iterator-members.html
+++ b/docs/html/classcub_1_1_tex_obj_input_iterator-members.html
@@ -130,7 +130,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_tex_obj_input_iterator.html b/docs/html/classcub_1_1_tex_obj_input_iterator.html
index 9ec75cacc9..f677c5d716 100644
--- a/docs/html/classcub_1_1_tex_obj_input_iterator.html
+++ b/docs/html/classcub_1_1_tex_obj_input_iterator.html
@@ -328,7 +328,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_tex_ref_input_iterator-members.html b/docs/html/classcub_1_1_tex_ref_input_iterator-members.html
index d7e1c7121a..1bd05eb3e3 100644
--- a/docs/html/classcub_1_1_tex_ref_input_iterator-members.html
+++ b/docs/html/classcub_1_1_tex_ref_input_iterator-members.html
@@ -130,7 +130,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_tex_ref_input_iterator.html b/docs/html/classcub_1_1_tex_ref_input_iterator.html
index 6e858724be..47aa452440 100644
--- a/docs/html/classcub_1_1_tex_ref_input_iterator.html
+++ b/docs/html/classcub_1_1_tex_ref_input_iterator.html
@@ -333,7 +333,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_transform_input_iterator-members.html b/docs/html/classcub_1_1_transform_input_iterator-members.html
index eae3f64ed2..7f332285c6 100644
--- a/docs/html/classcub_1_1_transform_input_iterator-members.html
+++ b/docs/html/classcub_1_1_transform_input_iterator-members.html
@@ -128,7 +128,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_transform_input_iterator.html b/docs/html/classcub_1_1_transform_input_iterator.html
index c5d3465887..9004c3f1b0 100644
--- a/docs/html/classcub_1_1_transform_input_iterator.html
+++ b/docs/html/classcub_1_1_transform_input_iterator.html
@@ -320,7 +320,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_warp_reduce-members.html b/docs/html/classcub_1_1_warp_reduce-members.html
index e99a3fbe6c..7a346bb99b 100644
--- a/docs/html/classcub_1_1_warp_reduce-members.html
+++ b/docs/html/classcub_1_1_warp_reduce-members.html
@@ -117,7 +117,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_warp_reduce.html b/docs/html/classcub_1_1_warp_reduce.html
index 3970966c4f..fc7a4473ea 100644
--- a/docs/html/classcub_1_1_warp_reduce.html
+++ b/docs/html/classcub_1_1_warp_reduce.html
@@ -200,35 +200,35 @@
 <tr class="separator:ac62468e86401f21b58b9dfb5db9f717b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr><td colspan="2"><div class="groupHeader">Summation reductions</div></td></tr>
 <tr class="memitem:abe4aeeabf8859a7582a0b5858b84ee7a"><td class="memItemLeft" align="right" valign="top">__device__ __forceinline__ T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a">Sum</a> (T input)</td></tr>
-<tr class="memdesc:abe4aeeabf8859a7582a0b5858b84ee7a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a warp-wide sum in each active warp. The output is valid in warp <em>lane</em><sub>0</sub>.  <a href="#abe4aeeabf8859a7582a0b5858b84ee7a">More...</a><br/></td></tr>
+<tr class="memdesc:abe4aeeabf8859a7582a0b5858b84ee7a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a warp-wide sum in the calling warp. The output is valid in warp <em>lane</em><sub>0</sub>.  <a href="#abe4aeeabf8859a7582a0b5858b84ee7a">More...</a><br/></td></tr>
 <tr class="separator:abe4aeeabf8859a7582a0b5858b84ee7a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:ad9c4a8d85a7795cf220713f362c36f30"><td class="memItemLeft" align="right" valign="top">__device__ __forceinline__ T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30">Sum</a> (T input, int valid_items)</td></tr>
-<tr class="memdesc:ad9c4a8d85a7795cf220713f362c36f30"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a partially-full warp-wide sum in each active warp. The output is valid in warp <em>lane</em><sub>0</sub>.  <a href="#ad9c4a8d85a7795cf220713f362c36f30">More...</a><br/></td></tr>
+<tr class="memdesc:ad9c4a8d85a7795cf220713f362c36f30"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a partially-full warp-wide sum in the calling warp. The output is valid in warp <em>lane</em><sub>0</sub>.  <a href="#ad9c4a8d85a7795cf220713f362c36f30">More...</a><br/></td></tr>
 <tr class="separator:ad9c4a8d85a7795cf220713f362c36f30"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a11b16118606a582bf9ce011938873305"><td class="memTemplParams" colspan="2">template&lt;typename Flag &gt; </td></tr>
 <tr class="memitem:a11b16118606a582bf9ce011938873305"><td class="memTemplItemLeft" align="right" valign="top">__device__ __forceinline__ T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcub_1_1_warp_reduce.html#a11b16118606a582bf9ce011938873305">HeadSegmentedSum</a> (T input, Flag head_flag)</td></tr>
-<tr class="memdesc:a11b16118606a582bf9ce011938873305"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a segmented sum in each active warp where segments are defined by head-flags. The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).  <a href="#a11b16118606a582bf9ce011938873305">More...</a><br/></td></tr>
+<tr class="memdesc:a11b16118606a582bf9ce011938873305"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a segmented sum in the calling warp where segments are defined by head-flags. The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).  <a href="#a11b16118606a582bf9ce011938873305">More...</a><br/></td></tr>
 <tr class="separator:a11b16118606a582bf9ce011938873305"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a57747500b876173a6dcb113109306258"><td class="memTemplParams" colspan="2">template&lt;typename Flag &gt; </td></tr>
 <tr class="memitem:a57747500b876173a6dcb113109306258"><td class="memTemplItemLeft" align="right" valign="top">__device__ __forceinline__ T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcub_1_1_warp_reduce.html#a57747500b876173a6dcb113109306258">TailSegmentedSum</a> (T input, Flag tail_flag)</td></tr>
-<tr class="memdesc:a57747500b876173a6dcb113109306258"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a segmented sum in each active warp where segments are defined by tail-flags. The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).  <a href="#a57747500b876173a6dcb113109306258">More...</a><br/></td></tr>
+<tr class="memdesc:a57747500b876173a6dcb113109306258"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a segmented sum in the calling warp where segments are defined by tail-flags. The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).  <a href="#a57747500b876173a6dcb113109306258">More...</a><br/></td></tr>
 <tr class="separator:a57747500b876173a6dcb113109306258"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr><td colspan="2"><div class="groupHeader">Generic reductions</div></td></tr>
 <tr class="memitem:a0dd72fc4cf7e1ecf59e8b15bd6819185"><td class="memTemplParams" colspan="2">template&lt;typename ReductionOp &gt; </td></tr>
 <tr class="memitem:a0dd72fc4cf7e1ecf59e8b15bd6819185"><td class="memTemplItemLeft" align="right" valign="top">__device__ __forceinline__ T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcub_1_1_warp_reduce.html#a0dd72fc4cf7e1ecf59e8b15bd6819185">Reduce</a> (T input, ReductionOp reduction_op)</td></tr>
-<tr class="memdesc:a0dd72fc4cf7e1ecf59e8b15bd6819185"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a warp-wide reduction in each active warp using the specified binary reduction functor. The output is valid in warp <em>lane</em><sub>0</sub>.  <a href="#a0dd72fc4cf7e1ecf59e8b15bd6819185">More...</a><br/></td></tr>
+<tr class="memdesc:a0dd72fc4cf7e1ecf59e8b15bd6819185"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a warp-wide reduction in the calling warp using the specified binary reduction functor. The output is valid in warp <em>lane</em><sub>0</sub>.  <a href="#a0dd72fc4cf7e1ecf59e8b15bd6819185">More...</a><br/></td></tr>
 <tr class="separator:a0dd72fc4cf7e1ecf59e8b15bd6819185"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:ad1ecfeddf0e7fb3f359cf61b60f4745a"><td class="memTemplParams" colspan="2">template&lt;typename ReductionOp &gt; </td></tr>
 <tr class="memitem:ad1ecfeddf0e7fb3f359cf61b60f4745a"><td class="memTemplItemLeft" align="right" valign="top">__device__ __forceinline__ T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcub_1_1_warp_reduce.html#ad1ecfeddf0e7fb3f359cf61b60f4745a">Reduce</a> (T input, ReductionOp reduction_op, int valid_items)</td></tr>
-<tr class="memdesc:ad1ecfeddf0e7fb3f359cf61b60f4745a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a partially-full warp-wide reduction in each active warp using the specified binary reduction functor. The output is valid in warp <em>lane</em><sub>0</sub>.  <a href="#ad1ecfeddf0e7fb3f359cf61b60f4745a">More...</a><br/></td></tr>
+<tr class="memdesc:ad1ecfeddf0e7fb3f359cf61b60f4745a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a partially-full warp-wide reduction in the calling warp using the specified binary reduction functor. The output is valid in warp <em>lane</em><sub>0</sub>.  <a href="#ad1ecfeddf0e7fb3f359cf61b60f4745a">More...</a><br/></td></tr>
 <tr class="separator:ad1ecfeddf0e7fb3f359cf61b60f4745a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a74291c266eaff04ad548f54af69756f8"><td class="memTemplParams" colspan="2">template&lt;typename ReductionOp , typename Flag &gt; </td></tr>
 <tr class="memitem:a74291c266eaff04ad548f54af69756f8"><td class="memTemplItemLeft" align="right" valign="top">__device__ __forceinline__ T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcub_1_1_warp_reduce.html#a74291c266eaff04ad548f54af69756f8">HeadSegmentedReduce</a> (T input, Flag head_flag, ReductionOp reduction_op)</td></tr>
-<tr class="memdesc:a74291c266eaff04ad548f54af69756f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a segmented reduction in each active warp where segments are defined by head-flags. The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).  <a href="#a74291c266eaff04ad548f54af69756f8">More...</a><br/></td></tr>
+<tr class="memdesc:a74291c266eaff04ad548f54af69756f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a segmented reduction in the calling warp where segments are defined by head-flags. The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).  <a href="#a74291c266eaff04ad548f54af69756f8">More...</a><br/></td></tr>
 <tr class="separator:a74291c266eaff04ad548f54af69756f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a1503c473a73c5dcfb3db5c11c2da4daa"><td class="memTemplParams" colspan="2">template&lt;typename ReductionOp , typename Flag &gt; </td></tr>
 <tr class="memitem:a1503c473a73c5dcfb3db5c11c2da4daa"><td class="memTemplItemLeft" align="right" valign="top">__device__ __forceinline__ T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcub_1_1_warp_reduce.html#a1503c473a73c5dcfb3db5c11c2da4daa">TailSegmentedReduce</a> (T input, Flag tail_flag, ReductionOp reduction_op)</td></tr>
-<tr class="memdesc:a1503c473a73c5dcfb3db5c11c2da4daa"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a segmented reduction in each active warp where segments are defined by tail-flags. The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).  <a href="#a1503c473a73c5dcfb3db5c11c2da4daa">More...</a><br/></td></tr>
+<tr class="memdesc:a1503c473a73c5dcfb3db5c11c2da4daa"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a segmented reduction in the calling warp where segments are defined by tail-flags. The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>).  <a href="#a1503c473a73c5dcfb3db5c11c2da4daa">More...</a><br/></td></tr>
 <tr class="separator:a1503c473a73c5dcfb3db5c11c2da4daa"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
@@ -293,7 +293,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 </table>
 </div><div class="memdoc">
 
-<p>Computes a warp-wide sum in each active warp. The output is valid in warp <em>lane</em><sub>0</sub>. </p>
+<p>Computes a warp-wide sum in the calling warp. The output is valid in warp <em>lane</em><sub>0</sub>. </p>
 <p>A subsequent <code>__syncthreads()</code> threadblock barrier should be invoked after calling this method if the collective's temporary storage (e.g., <code>temp_storage</code>) is to be reused or repurposed.</p>
 <dl class="section user"><dt>Snippet</dt><dd>The code snippet below illustrates four concurrent warp sum reductions within a block of 128 threads (one per each of the 32-thread warps). </dd></dl>
 <dl class="section user"><dt></dt><dd><div class="fragment"><div class="line"><span class="preprocessor">#include &lt;<a class="code" href="cub_8cuh.html">cub/cub.cuh</a>&gt;</span></div>
@@ -359,8 +359,8 @@ <h2 class="groupheader">Member Function Documentation</h2>
 </table>
 </div><div class="memdoc">
 
-<p>Computes a partially-full warp-wide sum in each active warp. The output is valid in warp <em>lane</em><sub>0</sub>. </p>
-<p>All threads in each logical warp must agree on the same value for <code>valid_items</code>. Otherwise the result is undefined.</p>
+<p>Computes a partially-full warp-wide sum in the calling warp. The output is valid in warp <em>lane</em><sub>0</sub>. </p>
+<p>All threads across the calling warp must agree on the same value for <code>valid_items</code>. Otherwise the result is undefined.</p>
 <p>A subsequent <code>__syncthreads()</code> threadblock barrier should be invoked after calling this method if the collective's temporary storage (e.g., <code>temp_storage</code>) is to be reused or repurposed.</p>
 <dl class="section user"><dt>Snippet</dt><dd>The code snippet below illustrates a sum reduction within a single, partially-full block of 32 threads (one warp). </dd></dl>
 <dl class="section user"><dt></dt><dd><div class="fragment"><div class="line"><span class="preprocessor">#include &lt;<a class="code" href="cub_8cuh.html">cub/cub.cuh</a>&gt;</span></div>
@@ -431,7 +431,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 </table>
 </div><div class="memdoc">
 
-<p>Computes a segmented sum in each active warp where segments are defined by head-flags. The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>). </p>
+<p>Computes a segmented sum in the calling warp where segments are defined by head-flags. The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>). </p>
 <p>A subsequent <code>__syncthreads()</code> threadblock barrier should be invoked after calling this method if the collective's temporary storage (e.g., <code>temp_storage</code>) is to be reused or repurposed.</p>
 <dl class="section user"><dt>Snippet</dt><dd>The code snippet below illustrates a head-segmented warp sum reduction within a block of 32 threads (one warp). </dd></dl>
 <dl class="section user"><dt></dt><dd><div class="fragment"><div class="line"><span class="preprocessor">#include &lt;<a class="code" href="cub_8cuh.html">cub/cub.cuh</a>&gt;</span></div>
@@ -507,7 +507,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 </table>
 </div><div class="memdoc">
 
-<p>Computes a segmented sum in each active warp where segments are defined by tail-flags. The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>). </p>
+<p>Computes a segmented sum in the calling warp where segments are defined by tail-flags. The sum of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>). </p>
 <p>A subsequent <code>__syncthreads()</code> threadblock barrier should be invoked after calling this method if the collective's temporary storage (e.g., <code>temp_storage</code>) is to be reused or repurposed.</p>
 <dl class="section user"><dt>Snippet</dt><dd>The code snippet below illustrates a tail-segmented warp sum reduction within a block of 32 threads (one warp). </dd></dl>
 <dl class="section user"><dt></dt><dd><div class="fragment"><div class="line"><span class="preprocessor">#include &lt;<a class="code" href="cub_8cuh.html">cub/cub.cuh</a>&gt;</span></div>
@@ -583,7 +583,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 </table>
 </div><div class="memdoc">
 
-<p>Computes a warp-wide reduction in each active warp using the specified binary reduction functor. The output is valid in warp <em>lane</em><sub>0</sub>. </p>
+<p>Computes a warp-wide reduction in the calling warp using the specified binary reduction functor. The output is valid in warp <em>lane</em><sub>0</sub>. </p>
 <p>Supports non-commutative reduction operators</p>
 <p>A subsequent <code>__syncthreads()</code> threadblock barrier should be invoked after calling this method if the collective's temporary storage (e.g., <code>temp_storage</code>) is to be reused or repurposed.</p>
 <dl class="section user"><dt>Snippet</dt><dd>The code snippet below illustrates four concurrent warp max reductions within a block of 128 threads (one per each of the 32-thread warps). </dd></dl>
@@ -666,8 +666,8 @@ <h2 class="groupheader">Member Function Documentation</h2>
 </table>
 </div><div class="memdoc">
 
-<p>Computes a partially-full warp-wide reduction in each active warp using the specified binary reduction functor. The output is valid in warp <em>lane</em><sub>0</sub>. </p>
-<p>All threads in each logical warp must agree on the same value for <code>valid_items</code>. Otherwise the result is undefined.</p>
+<p>Computes a partially-full warp-wide reduction in the calling warp using the specified binary reduction functor. The output is valid in warp <em>lane</em><sub>0</sub>. </p>
+<p>All threads across the calling warp must agree on the same value for <code>valid_items</code>. Otherwise the result is undefined.</p>
 <p>Supports non-commutative reduction operators</p>
 <p>A subsequent <code>__syncthreads()</code> threadblock barrier should be invoked after calling this method if the collective's temporary storage (e.g., <code>temp_storage</code>) is to be reused or repurposed.</p>
 <dl class="section user"><dt>Snippet</dt><dd>The code snippet below illustrates a max reduction within a single, partially-full block of 32 threads (one warp). </dd></dl>
@@ -752,7 +752,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 </table>
 </div><div class="memdoc">
 
-<p>Computes a segmented reduction in each active warp where segments are defined by head-flags. The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>). </p>
+<p>Computes a segmented reduction in the calling warp where segments are defined by head-flags. The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>). </p>
 <p>Supports non-commutative reduction operators</p>
 <p>A subsequent <code>__syncthreads()</code> threadblock barrier should be invoked after calling this method if the collective's temporary storage (e.g., <code>temp_storage</code>) is to be reused or repurposed.</p>
 <dl class="section user"><dt>Snippet</dt><dd>The code snippet below illustrates a head-segmented warp max reduction within a block of 32 threads (one warp). </dd></dl>
@@ -836,7 +836,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 </table>
 </div><div class="memdoc">
 
-<p>Computes a segmented reduction in each active warp where segments are defined by tail-flags. The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>). </p>
+<p>Computes a segmented reduction in the calling warp where segments are defined by tail-flags. The reduction of each segment is returned to the first lane in that segment (which always includes <em>lane</em><sub>0</sub>). </p>
 <p>Supports non-commutative reduction operators</p>
 <p>A subsequent <code>__syncthreads()</code> threadblock barrier should be invoked after calling this method if the collective's temporary storage (e.g., <code>temp_storage</code>) is to be reused or repurposed.</p>
 <dl class="section user"><dt>Snippet</dt><dd>The code snippet below illustrates a tail-segmented warp max reduction within a block of 32 threads (one warp). </dd></dl>
@@ -885,7 +885,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_warp_scan-members.html b/docs/html/classcub_1_1_warp_scan-members.html
index 3bd39d86bb..3835296648 100644
--- a/docs/html/classcub_1_1_warp_scan-members.html
+++ b/docs/html/classcub_1_1_warp_scan-members.html
@@ -119,12 +119,15 @@
   <tr class="even"><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233">InclusiveSum</a>(T input, T &amp;output)</td><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html#a89402b341ee33c5e0a9941d1fc3a69dc">InclusiveSum</a>(T input, T &amp;output, T &amp;warp_aggregate)</td><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html#a5a89b9f8c7edebf6ec6e6c7a77fb10ba">InclusiveSum</a>(T input, T &amp;output, T &amp;warp_aggregate, WarpPrefixCallbackOp &amp;warp_prefix_op)</td><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html#a97e8ea275768d3fed3be69e813675461">WarpScan</a>(TempStorage &amp;temp_storage)</td><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html#a32a247bea83254e7c3f3ae4ed8a1d5c7">Scan</a>(T input, T &amp;inclusive_output, T &amp;exclusive_output, T identity, ScanOp scan_op)</td><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html#a3266a375b79e44f77087cec512e0c1a3">Scan</a>(T input, T &amp;inclusive_output, T &amp;exclusive_output, ScanOp scan_op)</td><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html#a25bd83f795e88b9260ec2bcbf846fb20">Sum</a>(T input, T &amp;inclusive_output, T &amp;exclusive_output)</td><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html#a97e8ea275768d3fed3be69e813675461">WarpScan</a>(TempStorage &amp;temp_storage)</td><td class="entry"><a class="el" href="classcub_1_1_warp_scan.html">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/classcub_1_1_warp_scan.html.REMOVED.git-id b/docs/html/classcub_1_1_warp_scan.html.REMOVED.git-id
index 4c4d2987d8..6419915653 100644
--- a/docs/html/classcub_1_1_warp_scan.html.REMOVED.git-id
+++ b/docs/html/classcub_1_1_warp_scan.html.REMOVED.git-id
@@ -1 +1 @@
-9e41b78e4ff4d0a1687556fc9149d95462015984
\ No newline at end of file
+ddf0ca2f1ff17f995e27a3f33a2347c8c74037fc
\ No newline at end of file
diff --git a/docs/html/classes.html b/docs/html/classes.html
index 95ac1a90cf..6d1e3c4028 100644
--- a/docs/html/classes.html
+++ b/docs/html/classes.html
@@ -141,7 +141,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/constant__input__iterator_8cuh.html b/docs/html/constant__input__iterator_8cuh.html
index 353fe357d2..46f505c2d9 100644
--- a/docs/html/constant__input__iterator_8cuh.html
+++ b/docs/html/constant__input__iterator_8cuh.html
@@ -132,7 +132,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/constant__input__iterator_8cuh_source.html b/docs/html/constant__input__iterator_8cuh_source.html
index b2133c6364..9b1cf509d3 100644
--- a/docs/html/constant__input__iterator_8cuh_source.html
+++ b/docs/html/constant__input__iterator_8cuh_source.html
@@ -282,7 +282,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/counting__input__iterator_8cuh.html b/docs/html/counting__input__iterator_8cuh.html
index 2fef4e7dc7..6d950308a2 100644
--- a/docs/html/counting__input__iterator_8cuh.html
+++ b/docs/html/counting__input__iterator_8cuh.html
@@ -133,7 +133,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/counting__input__iterator_8cuh_source.html b/docs/html/counting__input__iterator_8cuh_source.html
index 7cc841e276..7e59aa7c84 100644
--- a/docs/html/counting__input__iterator_8cuh_source.html
+++ b/docs/html/counting__input__iterator_8cuh_source.html
@@ -277,7 +277,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/cub_8cuh.html b/docs/html/cub_8cuh.html
index dcefe31e10..3ea9cd9902 100644
--- a/docs/html/cub_8cuh.html
+++ b/docs/html/cub_8cuh.html
@@ -137,7 +137,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/cub_8cuh_source.html b/docs/html/cub_8cuh_source.html
index 61dfae5f7e..1dacd93a99 100644
--- a/docs/html/cub_8cuh_source.html
+++ b/docs/html/cub_8cuh_source.html
@@ -195,7 +195,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__histogram_8cuh.html b/docs/html/device__histogram_8cuh.html
index 97fe8ade68..980cd13fcd 100644
--- a/docs/html/device__histogram_8cuh.html
+++ b/docs/html/device__histogram_8cuh.html
@@ -136,7 +136,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__histogram_8cuh_source.html b/docs/html/device__histogram_8cuh_source.html
index 0ce3592056..3551f9e62e 100644
--- a/docs/html/device__histogram_8cuh_source.html
+++ b/docs/html/device__histogram_8cuh_source.html
@@ -399,7 +399,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__partition_8cuh.html b/docs/html/device__partition_8cuh.html
index e3216f4587..2d9f3c68dd 100644
--- a/docs/html/device__partition_8cuh.html
+++ b/docs/html/device__partition_8cuh.html
@@ -136,7 +136,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__partition_8cuh_source.html b/docs/html/device__partition_8cuh_source.html
index 5809b3f624..e026f34d66 100644
--- a/docs/html/device__partition_8cuh_source.html
+++ b/docs/html/device__partition_8cuh_source.html
@@ -226,7 +226,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__radix__sort_8cuh.html b/docs/html/device__radix__sort_8cuh.html
index 9c41da78b7..68b503c5ff 100644
--- a/docs/html/device__radix__sort_8cuh.html
+++ b/docs/html/device__radix__sort_8cuh.html
@@ -136,7 +136,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__radix__sort_8cuh_source.html b/docs/html/device__radix__sort_8cuh_source.html
index 1a74478763..91f113d268 100644
--- a/docs/html/device__radix__sort_8cuh_source.html
+++ b/docs/html/device__radix__sort_8cuh_source.html
@@ -278,7 +278,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__reduce_8cuh.html b/docs/html/device__reduce_8cuh.html
index 9de0471011..a7dd4284bc 100644
--- a/docs/html/device__reduce_8cuh.html
+++ b/docs/html/device__reduce_8cuh.html
@@ -136,7 +136,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__reduce_8cuh_source.html b/docs/html/device__reduce_8cuh_source.html
index c2f22608af..ee054cb8ed 100644
--- a/docs/html/device__reduce_8cuh_source.html
+++ b/docs/html/device__reduce_8cuh_source.html
@@ -440,7 +440,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__scan_8cuh.html b/docs/html/device__scan_8cuh.html
index 3d7edca17e..68565ee06e 100644
--- a/docs/html/device__scan_8cuh.html
+++ b/docs/html/device__scan_8cuh.html
@@ -136,7 +136,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__scan_8cuh_source.html b/docs/html/device__scan_8cuh_source.html
index 466df73006..5e4a7f843a 100644
--- a/docs/html/device__scan_8cuh_source.html
+++ b/docs/html/device__scan_8cuh_source.html
@@ -285,7 +285,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__select_8cuh.html b/docs/html/device__select_8cuh.html
index e67542f10c..aebcfb2100 100644
--- a/docs/html/device__select_8cuh.html
+++ b/docs/html/device__select_8cuh.html
@@ -136,7 +136,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/device__select_8cuh_source.html b/docs/html/device__select_8cuh_source.html
index b3841f68e0..1ef8a22db0 100644
--- a/docs/html/device__select_8cuh_source.html
+++ b/docs/html/device__select_8cuh_source.html
@@ -261,7 +261,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/dir_011e1c944d88f71be72e1e24a5fda7cf.html b/docs/html/dir_011e1c944d88f71be72e1e24a5fda7cf.html
index a08065f1af..b763afd320 100644
--- a/docs/html/dir_011e1c944d88f71be72e1e24a5fda7cf.html
+++ b/docs/html/dir_011e1c944d88f71be72e1e24a5fda7cf.html
@@ -119,7 +119,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/dir_18fc672d63781b5a743137aee24ff656.html b/docs/html/dir_18fc672d63781b5a743137aee24ff656.html
index 02360faa7f..762c3ffee9 100644
--- a/docs/html/dir_18fc672d63781b5a743137aee24ff656.html
+++ b/docs/html/dir_18fc672d63781b5a743137aee24ff656.html
@@ -115,7 +115,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/dir_80932b4cec52750ff92b1a1912314cf5.html b/docs/html/dir_80932b4cec52750ff92b1a1912314cf5.html
index dcdba06be0..a6858691ba 100644
--- a/docs/html/dir_80932b4cec52750ff92b1a1912314cf5.html
+++ b/docs/html/dir_80932b4cec52750ff92b1a1912314cf5.html
@@ -119,7 +119,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/dir_bb50a5ef59f19d030d06415663184d05.html b/docs/html/dir_bb50a5ef59f19d030d06415663184d05.html
index 729eb6b7f2..c332be2ae0 100644
--- a/docs/html/dir_bb50a5ef59f19d030d06415663184d05.html
+++ b/docs/html/dir_bb50a5ef59f19d030d06415663184d05.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/dir_cb3a671affffe7eeb3fdf5ae58e42cc8.html b/docs/html/dir_cb3a671affffe7eeb3fdf5ae58e42cc8.html
index 44252b7618..ed1025221d 100644
--- a/docs/html/dir_cb3a671affffe7eeb3fdf5ae58e42cc8.html
+++ b/docs/html/dir_cb3a671affffe7eeb3fdf5ae58e42cc8.html
@@ -107,7 +107,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/dir_d583f216f1aafe19404e836b0c097ad2.html b/docs/html/dir_d583f216f1aafe19404e836b0c097ad2.html
index 4f024e59d1..bfeec08949 100644
--- a/docs/html/dir_d583f216f1aafe19404e836b0c097ad2.html
+++ b/docs/html/dir_d583f216f1aafe19404e836b0c097ad2.html
@@ -130,7 +130,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/download_cub.html b/docs/html/download_cub.html
index bce34c6d19..68ae20f4aa 100644
--- a/docs/html/download_cub.html
+++ b/docs/html/download_cub.html
@@ -37,14 +37,14 @@
 </head>
 
 <body 
-	onload="downloadURL('https://github.com/NVlabs/cub/archive/1.3.0.zip');" 
+	onload="downloadURL('https://github.com/NVlabs/cub/archive/1.3.1.zip');" 
 	style="color: rgb(102, 102, 102); font-family: Helvetica, arial, freesans, clean, sans-serif; font-size: 13px; font-style: normal; font-variant: normal; font-weight: 300; height: 18px;">
 
 <center>
 If your download doesn't start in 3s:
 <br><br>
-<a href="https://github.com/NVlabs/cub/archive/1.3.0.zip"><img src="download-icon.png" style="position:relative; bottom:-10px; border:0px;"/></a>
-<a href="https://github.com/NVlabs/cub/archive/1.3.0.zip"><em>Download CUB!</em></a>
+<a href="https://github.com/NVlabs/cub/archive/1.3.1.zip"><img src="download-icon.png" style="position:relative; bottom:-10px; border:0px;"/></a>
+<a href="https://github.com/NVlabs/cub/archive/1.3.1.zip"><em>Download CUB!</em></a>
 </center>
 
 </body>
diff --git a/docs/html/example_block_radix_sort_8cu-example.html b/docs/html/example_block_radix_sort_8cu-example.html
index 75c686482c..ed5b7f1d56 100644
--- a/docs/html/example_block_radix_sort_8cu-example.html
+++ b/docs/html/example_block_radix_sort_8cu-example.html
@@ -398,7 +398,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_block_reduce_8cu-example.html b/docs/html/example_block_reduce_8cu-example.html
index b5bdf1d763..d343d28949 100644
--- a/docs/html/example_block_reduce_8cu-example.html
+++ b/docs/html/example_block_reduce_8cu-example.html
@@ -365,7 +365,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_block_scan_8cu-example.html b/docs/html/example_block_scan_8cu-example.html
index 53d93bf07f..cc7130969f 100644
--- a/docs/html/example_block_scan_8cu-example.html
+++ b/docs/html/example_block_scan_8cu-example.html
@@ -414,7 +414,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_histogram_8cu-example.html b/docs/html/example_device_histogram_8cu-example.html
index d9c169d139..9570858070 100644
--- a/docs/html/example_device_histogram_8cu-example.html
+++ b/docs/html/example_device_histogram_8cu-example.html
@@ -312,7 +312,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_partition_flagged_8cu-example.html b/docs/html/example_device_partition_flagged_8cu-example.html
index 671171ebc6..a50c44a10f 100644
--- a/docs/html/example_device_partition_flagged_8cu-example.html
+++ b/docs/html/example_device_partition_flagged_8cu-example.html
@@ -318,7 +318,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_partition_if_8cu-example.html b/docs/html/example_device_partition_if_8cu-example.html
index 0a83f05141..b857e78b13 100644
--- a/docs/html/example_device_partition_if_8cu-example.html
+++ b/docs/html/example_device_partition_if_8cu-example.html
@@ -329,7 +329,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_radix_sort_8cu-example.html b/docs/html/example_device_radix_sort_8cu-example.html
index 25c7b71863..8fe62c81c1 100644
--- a/docs/html/example_device_radix_sort_8cu-example.html
+++ b/docs/html/example_device_radix_sort_8cu-example.html
@@ -311,7 +311,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_reduce_8cu-example.html b/docs/html/example_device_reduce_8cu-example.html
index bec6d5cb2d..3c3b072287 100644
--- a/docs/html/example_device_reduce_8cu-example.html
+++ b/docs/html/example_device_reduce_8cu-example.html
@@ -266,7 +266,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_scan_8cu-example.html b/docs/html/example_device_scan_8cu-example.html
index c431023eff..25d0afe628 100644
--- a/docs/html/example_device_scan_8cu-example.html
+++ b/docs/html/example_device_scan_8cu-example.html
@@ -272,7 +272,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_select_flagged_8cu-example.html b/docs/html/example_device_select_flagged_8cu-example.html
index 350b1fdeb4..6bed07f0e5 100644
--- a/docs/html/example_device_select_flagged_8cu-example.html
+++ b/docs/html/example_device_select_flagged_8cu-example.html
@@ -318,7 +318,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_select_if_8cu-example.html b/docs/html/example_device_select_if_8cu-example.html
index 2090a00b2f..0140fba2df 100644
--- a/docs/html/example_device_select_if_8cu-example.html
+++ b/docs/html/example_device_select_if_8cu-example.html
@@ -327,7 +327,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/example_device_select_unique_8cu-example.html b/docs/html/example_device_select_unique_8cu-example.html
index 8da117c1b5..24a8166e1e 100644
--- a/docs/html/example_device_select_unique_8cu-example.html
+++ b/docs/html/example_device_select_unique_8cu-example.html
@@ -307,7 +307,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:51 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/examples.html b/docs/html/examples.html
index c94ca6e741..03ad1dd0c9 100644
--- a/docs/html/examples.html
+++ b/docs/html/examples.html
@@ -121,7 +121,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:58 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/files.html b/docs/html/files.html
index 0d4f2a2d0d..2ea363efc4 100644
--- a/docs/html/files.html
+++ b/docs/html/files.html
@@ -139,7 +139,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:58 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions.html b/docs/html/functions.html
index 4dfc22aefa..6ead986c12 100644
--- a/docs/html/functions.html
+++ b/docs/html/functions.html
@@ -149,7 +149,7 @@ <h3><a class="anchor" id="index_a"></a>- a -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x62.html b/docs/html/functions_0x62.html
index d268bb4cc7..e63fa141f3 100644
--- a/docs/html/functions_0x62.html
+++ b/docs/html/functions_0x62.html
@@ -168,7 +168,7 @@ <h3><a class="anchor" id="index_b"></a>- b -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x63.html b/docs/html/functions_0x63.html
index 6bf499d6d5..a0546df0f6 100644
--- a/docs/html/functions_0x63.html
+++ b/docs/html/functions_0x63.html
@@ -158,7 +158,7 @@ <h3><a class="anchor" id="index_c"></a>- c -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x64.html b/docs/html/functions_0x64.html
index e1e47a6a31..58d638e031 100644
--- a/docs/html/functions_0x64.html
+++ b/docs/html/functions_0x64.html
@@ -159,7 +159,7 @@ <h3><a class="anchor" id="index_d"></a>- d -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x65.html b/docs/html/functions_0x65.html
index 7a10caeff4..d9a0b01caf 100644
--- a/docs/html/functions_0x65.html
+++ b/docs/html/functions_0x65.html
@@ -151,7 +151,7 @@ <h3><a class="anchor" id="index_e"></a>- e -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x66.html b/docs/html/functions_0x66.html
index 1f68b759d5..095f2def92 100644
--- a/docs/html/functions_0x66.html
+++ b/docs/html/functions_0x66.html
@@ -147,7 +147,7 @@ <h3><a class="anchor" id="index_f"></a>- f -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x68.html b/docs/html/functions_0x68.html
index 8d0cbcb0ab..2a828d4533 100644
--- a/docs/html/functions_0x68.html
+++ b/docs/html/functions_0x68.html
@@ -143,7 +143,7 @@ <h3><a class="anchor" id="index_h"></a>- h -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x69.html b/docs/html/functions_0x69.html
index a3d2adced8..6eb185def3 100644
--- a/docs/html/functions_0x69.html
+++ b/docs/html/functions_0x69.html
@@ -171,7 +171,7 @@ <h3><a class="anchor" id="index_i"></a>- i -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x6b.html b/docs/html/functions_0x6b.html
index eb83e0445d..e1bfe38cce 100644
--- a/docs/html/functions_0x6b.html
+++ b/docs/html/functions_0x6b.html
@@ -140,7 +140,7 @@ <h3><a class="anchor" id="index_k"></a>- k -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x6c.html b/docs/html/functions_0x6c.html
index a79a267aa4..14dc325ef6 100644
--- a/docs/html/functions_0x6c.html
+++ b/docs/html/functions_0x6c.html
@@ -137,7 +137,7 @@ <h3><a class="anchor" id="index_l"></a>- l -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x6d.html b/docs/html/functions_0x6d.html
index 40a7b48a54..a8c06473aa 100644
--- a/docs/html/functions_0x6d.html
+++ b/docs/html/functions_0x6d.html
@@ -149,7 +149,7 @@ <h3><a class="anchor" id="index_m"></a>- m -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x6f.html b/docs/html/functions_0x6f.html
index 7c9d6c0677..75d6545767 100644
--- a/docs/html/functions_0x6f.html
+++ b/docs/html/functions_0x6f.html
@@ -268,7 +268,7 @@ <h3><a class="anchor" id="index_o"></a>- o -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x70.html b/docs/html/functions_0x70.html
index ee7302979a..9b9dfa2e00 100644
--- a/docs/html/functions_0x70.html
+++ b/docs/html/functions_0x70.html
@@ -144,7 +144,7 @@ <h3><a class="anchor" id="index_p"></a>- p -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x72.html b/docs/html/functions_0x72.html
index dfa3518a65..dc3eaa35b8 100644
--- a/docs/html/functions_0x72.html
+++ b/docs/html/functions_0x72.html
@@ -157,7 +157,7 @@ <h3><a class="anchor" id="index_r"></a>- r -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x73.html b/docs/html/functions_0x73.html
index 40e8e8b456..f8434d854c 100644
--- a/docs/html/functions_0x73.html
+++ b/docs/html/functions_0x73.html
@@ -129,6 +129,9 @@
 <div class="textblock">Here is a list of all documented class members with links to the class documentation for each member:</div>
 
 <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
+<li>Scan()
+: <a class="el" href="classcub_1_1_warp_scan.html#a32a247bea83254e7c3f3ae4ed8a1d5c7">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
+</li>
 <li>ScatterToBlocked()
 : <a class="el" href="classcub_1_1_block_exchange.html#a756e7903c5369261fcf6139e5db52824">cub::BlockExchange&lt; T, BLOCK_DIM_X, ITEMS_PER_THREAD, WARP_TIME_SLICING, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
@@ -142,14 +145,14 @@ <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
 : <a class="el" href="structcub_1_1_double_buffer.html#a9641172c847169904c4054856d7c26f4">cub::DoubleBuffer&lt; T &gt;</a>
 </li>
 <li>self_type
-: <a class="el" href="classcub_1_1_cache_modified_output_iterator.html#ad2bf58ff14c663146c5852592f3cd2ec">cub::CacheModifiedOutputIterator&lt; MODIFIER, ValueType, Offset &gt;</a>
+: <a class="el" href="classcub_1_1_arg_index_input_iterator.html#a3535d871eaadb1bac213ae209eca77c5">cub::ArgIndexInputIterator&lt; InputIterator, Offset &gt;</a>
+, <a class="el" href="classcub_1_1_cache_modified_input_iterator.html#a96077dcb9702bfaf5b90a7f85a1f5585">cub::CacheModifiedInputIterator&lt; MODIFIER, ValueType, Offset &gt;</a>
+, <a class="el" href="classcub_1_1_cache_modified_output_iterator.html#ad2bf58ff14c663146c5852592f3cd2ec">cub::CacheModifiedOutputIterator&lt; MODIFIER, ValueType, Offset &gt;</a>
 , <a class="el" href="classcub_1_1_constant_input_iterator.html#ae3bbb4e3448f61f57772c635708c7596">cub::ConstantInputIterator&lt; ValueType, Offset &gt;</a>
 , <a class="el" href="classcub_1_1_counting_input_iterator.html#a1b848a7068f4ca61691192feccdb3c1c">cub::CountingInputIterator&lt; ValueType, Offset &gt;</a>
 , <a class="el" href="classcub_1_1_tex_obj_input_iterator.html#a469f47c9d8b3390eba53ed19aa234947">cub::TexObjInputIterator&lt; T, Offset &gt;</a>
-, <a class="el" href="classcub_1_1_arg_index_input_iterator.html#a3535d871eaadb1bac213ae209eca77c5">cub::ArgIndexInputIterator&lt; InputIterator, Offset &gt;</a>
 , <a class="el" href="classcub_1_1_tex_ref_input_iterator.html#ab5c4e8eb36ba823954c6bc365337682b">cub::TexRefInputIterator&lt; T, UNIQUE_ID, Offset &gt;</a>
 , <a class="el" href="classcub_1_1_transform_input_iterator.html#a6a2953999ccfe4fa91a90ed55ba178e8">cub::TransformInputIterator&lt; ValueType, ConversionOp, InputIterator, Offset &gt;</a>
-, <a class="el" href="classcub_1_1_cache_modified_input_iterator.html#a96077dcb9702bfaf5b90a7f85a1f5585">cub::CacheModifiedInputIterator&lt; MODIFIER, ValueType, Offset &gt;</a>
 </li>
 <li>SetMaxCachedBytes()
 : <a class="el" href="structcub_1_1_caching_device_allocator.html#a2216ab13fdeb11ce61f04f69899fff33">cub::CachingDeviceAllocator</a>
@@ -170,10 +173,10 @@ <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
 : <a class="el" href="classcub_1_1_block_radix_sort.html#acef5df1f88f8d56857365c43bd032bc7">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>SortDescending()
-: <a class="el" href="classcub_1_1_block_radix_sort.html#a94af642346a2a23925795435a9838c9a">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
+: <a class="el" href="classcub_1_1_block_radix_sort.html#a2d8792ad5dff4be936fbdf566aeb7744">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>SortDescendingBlockedToStriped()
-: <a class="el" href="classcub_1_1_block_radix_sort.html#af059067206ac007469b9a3dd8fe87f15">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
+: <a class="el" href="classcub_1_1_block_radix_sort.html#a261f5e8a77f2b4e47938d67ebd9d4525">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>SortKeys()
 : <a class="el" href="structcub_1_1_device_radix_sort.html#aa312d1b1f3626544f1016b866905f162">cub::DeviceRadixSort</a>
@@ -191,25 +194,24 @@ <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
 : <a class="el" href="structcub_1_1_uninitialized.html#a5fa7311d943222333e8c87497ff8e782">cub::Uninitialized&lt; T &gt;</a>
 </li>
 <li>Store()
-: <a class="el" href="classcub_1_1_block_store.html#a1a90b0105ff2bef62b0693b57d1d9df4">cub::BlockStore&lt; OutputIterator, BLOCK_DIM_X, ITEMS_PER_THREAD, ALGORITHM, WARP_TIME_SLICING, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
+: <a class="el" href="classcub_1_1_block_store.html#a6b0c884756320378c66add4972dfde66">cub::BlockStore&lt; OutputIterator, BLOCK_DIM_X, ITEMS_PER_THREAD, ALGORITHM, WARP_TIME_SLICING, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>StripedToBlocked()
 : <a class="el" href="classcub_1_1_block_exchange.html#a2855471bbbcc4d66ac6a29d35a040e0c">cub::BlockExchange&lt; T, BLOCK_DIM_X, ITEMS_PER_THREAD, WARP_TIME_SLICING, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>Sum()
-: <a class="el" href="classcub_1_1_block_reduce.html#ac5d4591d9513f08b180d4112cb0c4c51">cub::BlockReduce&lt; T, BLOCK_DIM_X, ALGORITHM, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
-, <a class="el" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30">cub::WarpReduce&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
-, <a class="el" href="classcub_1_1_block_reduce.html#a33ddffdde07275ab0c4e1bf61b0d9409">cub::BlockReduce&lt; T, BLOCK_DIM_X, ALGORITHM, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
-, <a class="el" href="classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a">cub::WarpReduce&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
-, <a class="el" href="classcub_1_1_block_reduce.html#a7632bd9c8950dd6a3528ca99fa3f0890">cub::BlockReduce&lt; T, BLOCK_DIM_X, ALGORITHM, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
+: <a class="el" href="classcub_1_1_block_reduce.html#a33ddffdde07275ab0c4e1bf61b0d9409">cub::BlockReduce&lt; T, BLOCK_DIM_X, ALGORITHM, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 , <a class="el" href="structcub_1_1_device_reduce.html#aaf68d747ee676df2b5b5ff016ee6c371">cub::DeviceReduce</a>
+, <a class="el" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30">cub::WarpReduce&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
+, <a class="el" href="classcub_1_1_warp_scan.html#a25bd83f795e88b9260ec2bcbf846fb20">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
+, <a class="el" href="classcub_1_1_block_reduce.html#ac5d4591d9513f08b180d4112cb0c4c51">cub::BlockReduce&lt; T, BLOCK_DIM_X, ALGORITHM, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x74.html b/docs/html/functions_0x74.html
index 372e93975f..190c11c1b0 100644
--- a/docs/html/functions_0x74.html
+++ b/docs/html/functions_0x74.html
@@ -155,7 +155,7 @@ <h3><a class="anchor" id="index_t"></a>- t -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x75.html b/docs/html/functions_0x75.html
index 9c89f59e73..f2a2187031 100644
--- a/docs/html/functions_0x75.html
+++ b/docs/html/functions_0x75.html
@@ -141,7 +141,7 @@ <h3><a class="anchor" id="index_u"></a>- u -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x76.html b/docs/html/functions_0x76.html
index 42a4a9782b..a867940d99 100644
--- a/docs/html/functions_0x76.html
+++ b/docs/html/functions_0x76.html
@@ -129,13 +129,13 @@
 <div class="textblock">Here is a list of all documented class members with links to the class documentation for each member:</div>
 
 <h3><a class="anchor" id="index_v"></a>- v -</h3><ul>
-<li>Value
-: <a class="el" href="structcub_1_1_key_value_pair.html#a9fd385872c09fd3757e9ba59b2754955">cub::KeyValuePair&lt; _Key, _Value &gt;</a>
-</li>
 <li>value
 : <a class="el" href="structcub_1_1_item_offset_pair.html#a7faea6eea84a2e5bb4250bd78e765685">cub::ItemOffsetPair&lt; _T, _Offset &gt;</a>
 , <a class="el" href="structcub_1_1_key_value_pair.html#a468bef1440a66f45bd9b5193594bf1a4">cub::KeyValuePair&lt; _Key, _Value &gt;</a>
 </li>
+<li>Value
+: <a class="el" href="structcub_1_1_key_value_pair.html#a9fd385872c09fd3757e9ba59b2754955">cub::KeyValuePair&lt; _Key, _Value &gt;</a>
+</li>
 <li>value_type
 : <a class="el" href="classcub_1_1_tex_obj_input_iterator.html#ad7daad59aaab9b38c1da340831bb9521">cub::TexObjInputIterator&lt; T, Offset &gt;</a>
 , <a class="el" href="classcub_1_1_counting_input_iterator.html#acbf0b49c06d27338f1b2e2ed5b1faece">cub::CountingInputIterator&lt; ValueType, Offset &gt;</a>
@@ -151,7 +151,7 @@ <h3><a class="anchor" id="index_v"></a>- v -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x77.html b/docs/html/functions_0x77.html
index 397839c757..d18002e368 100644
--- a/docs/html/functions_0x77.html
+++ b/docs/html/functions_0x77.html
@@ -143,7 +143,7 @@ <h3><a class="anchor" id="index_w"></a>- w -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_0x7e.html b/docs/html/functions_0x7e.html
index 4eb08db410..70e498c41d 100644
--- a/docs/html/functions_0x7e.html
+++ b/docs/html/functions_0x7e.html
@@ -137,7 +137,7 @@ <h3><a class="anchor" id="index_0x7e"></a>- ~ -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func.html b/docs/html/functions_func.html
index 97db14d56e..f8161700e2 100644
--- a/docs/html/functions_func.html
+++ b/docs/html/functions_func.html
@@ -143,7 +143,7 @@ <h3><a class="anchor" id="index_a"></a>- a -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x62.html b/docs/html/functions_func_0x62.html
index ba4843d638..ba24d14883 100644
--- a/docs/html/functions_func_0x62.html
+++ b/docs/html/functions_func_0x62.html
@@ -165,7 +165,7 @@ <h3><a class="anchor" id="index_b"></a>- b -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x63.html b/docs/html/functions_func_0x63.html
index 7a3742d48c..3479c2091a 100644
--- a/docs/html/functions_func_0x63.html
+++ b/docs/html/functions_func_0x63.html
@@ -152,7 +152,7 @@ <h3><a class="anchor" id="index_c"></a>- c -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x64.html b/docs/html/functions_func_0x64.html
index 0f96764261..a8b3c1e4fc 100644
--- a/docs/html/functions_func_0x64.html
+++ b/docs/html/functions_func_0x64.html
@@ -140,7 +140,7 @@ <h3><a class="anchor" id="index_d"></a>- d -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x65.html b/docs/html/functions_func_0x65.html
index 7e74bd749a..446b3f59dd 100644
--- a/docs/html/functions_func_0x65.html
+++ b/docs/html/functions_func_0x65.html
@@ -148,7 +148,7 @@ <h3><a class="anchor" id="index_e"></a>- e -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x66.html b/docs/html/functions_func_0x66.html
index b5bf6ce429..f14c41a84c 100644
--- a/docs/html/functions_func_0x66.html
+++ b/docs/html/functions_func_0x66.html
@@ -144,7 +144,7 @@ <h3><a class="anchor" id="index_f"></a>- f -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x68.html b/docs/html/functions_func_0x68.html
index 499084a159..6f64ab8a42 100644
--- a/docs/html/functions_func_0x68.html
+++ b/docs/html/functions_func_0x68.html
@@ -140,7 +140,7 @@ <h3><a class="anchor" id="index_h"></a>- h -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x69.html b/docs/html/functions_func_0x69.html
index 351cfea2f6..df49a250db 100644
--- a/docs/html/functions_func_0x69.html
+++ b/docs/html/functions_func_0x69.html
@@ -158,7 +158,7 @@ <h3><a class="anchor" id="index_i"></a>- i -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x6c.html b/docs/html/functions_func_0x6c.html
index eea42d1f71..b7f795258c 100644
--- a/docs/html/functions_func_0x6c.html
+++ b/docs/html/functions_func_0x6c.html
@@ -134,7 +134,7 @@ <h3><a class="anchor" id="index_l"></a>- l -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x6d.html b/docs/html/functions_func_0x6d.html
index cd300ed340..1a45146821 100644
--- a/docs/html/functions_func_0x6d.html
+++ b/docs/html/functions_func_0x6d.html
@@ -146,7 +146,7 @@ <h3><a class="anchor" id="index_m"></a>- m -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x6f.html b/docs/html/functions_func_0x6f.html
index 941c6398c9..ff4641ea32 100644
--- a/docs/html/functions_func_0x6f.html
+++ b/docs/html/functions_func_0x6f.html
@@ -246,7 +246,7 @@ <h3><a class="anchor" id="index_o"></a>- o -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x72.html b/docs/html/functions_func_0x72.html
index 67c931a8cc..813e1d7d03 100644
--- a/docs/html/functions_func_0x72.html
+++ b/docs/html/functions_func_0x72.html
@@ -143,7 +143,7 @@ <h3><a class="anchor" id="index_r"></a>- r -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x73.html b/docs/html/functions_func_0x73.html
index cb261841bd..3bbd714f2d 100644
--- a/docs/html/functions_func_0x73.html
+++ b/docs/html/functions_func_0x73.html
@@ -126,6 +126,9 @@
 &#160;
 
 <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
+<li>Scan()
+: <a class="el" href="classcub_1_1_warp_scan.html#a32a247bea83254e7c3f3ae4ed8a1d5c7">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
+</li>
 <li>ScatterToBlocked()
 : <a class="el" href="classcub_1_1_block_exchange.html#a756e7903c5369261fcf6139e5db52824">cub::BlockExchange&lt; T, BLOCK_DIM_X, ITEMS_PER_THREAD, WARP_TIME_SLICING, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
@@ -154,10 +157,10 @@ <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
 : <a class="el" href="classcub_1_1_block_radix_sort.html#acef5df1f88f8d56857365c43bd032bc7">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>SortDescending()
-: <a class="el" href="classcub_1_1_block_radix_sort.html#a2d8792ad5dff4be936fbdf566aeb7744">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
+: <a class="el" href="classcub_1_1_block_radix_sort.html#a94af642346a2a23925795435a9838c9a">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>SortDescendingBlockedToStriped()
-: <a class="el" href="classcub_1_1_block_radix_sort.html#a261f5e8a77f2b4e47938d67ebd9d4525">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
+: <a class="el" href="classcub_1_1_block_radix_sort.html#af059067206ac007469b9a3dd8fe87f15">cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>SortKeys()
 : <a class="el" href="structcub_1_1_device_radix_sort.html#aa312d1b1f3626544f1016b866905f162">cub::DeviceRadixSort</a>
@@ -172,23 +175,25 @@ <h3><a class="anchor" id="index_s"></a>- s -</h3><ul>
 : <a class="el" href="structcub_1_1_device_radix_sort.html#a14e10d543e45468b5bb77f2c9dd5dd0f">cub::DeviceRadixSort</a>
 </li>
 <li>Store()
-: <a class="el" href="classcub_1_1_block_store.html#a1a90b0105ff2bef62b0693b57d1d9df4">cub::BlockStore&lt; OutputIterator, BLOCK_DIM_X, ITEMS_PER_THREAD, ALGORITHM, WARP_TIME_SLICING, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
+: <a class="el" href="classcub_1_1_block_store.html#a6b0c884756320378c66add4972dfde66">cub::BlockStore&lt; OutputIterator, BLOCK_DIM_X, ITEMS_PER_THREAD, ALGORITHM, WARP_TIME_SLICING, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>StripedToBlocked()
 : <a class="el" href="classcub_1_1_block_exchange.html#a2855471bbbcc4d66ac6a29d35a040e0c">cub::BlockExchange&lt; T, BLOCK_DIM_X, ITEMS_PER_THREAD, WARP_TIME_SLICING, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 <li>Sum()
-: <a class="el" href="structcub_1_1_device_reduce.html#aaf68d747ee676df2b5b5ff016ee6c371">cub::DeviceReduce</a>
-, <a class="el" href="classcub_1_1_block_reduce.html#a33ddffdde07275ab0c4e1bf61b0d9409">cub::BlockReduce&lt; T, BLOCK_DIM_X, ALGORITHM, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
-, <a class="el" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30">cub::WarpReduce&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
+: <a class="el" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30">cub::WarpReduce&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
+, <a class="el" href="classcub_1_1_warp_scan.html#a25bd83f795e88b9260ec2bcbf846fb20">cub::WarpScan&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
+, <a class="el" href="classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a">cub::WarpReduce&lt; T, LOGICAL_WARP_THREADS, PTX_ARCH &gt;</a>
 , <a class="el" href="classcub_1_1_block_reduce.html#ac5d4591d9513f08b180d4112cb0c4c51">cub::BlockReduce&lt; T, BLOCK_DIM_X, ALGORITHM, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
+, <a class="el" href="structcub_1_1_device_reduce.html#aaf68d747ee676df2b5b5ff016ee6c371">cub::DeviceReduce</a>
+, <a class="el" href="classcub_1_1_block_reduce.html#a7632bd9c8950dd6a3528ca99fa3f0890">cub::BlockReduce&lt; T, BLOCK_DIM_X, ALGORITHM, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x74.html b/docs/html/functions_func_0x74.html
index e61cdae9f0..6622971228 100644
--- a/docs/html/functions_func_0x74.html
+++ b/docs/html/functions_func_0x74.html
@@ -146,7 +146,7 @@ <h3><a class="anchor" id="index_t"></a>- t -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x75.html b/docs/html/functions_func_0x75.html
index 3c008c3f71..61d112af06 100644
--- a/docs/html/functions_func_0x75.html
+++ b/docs/html/functions_func_0x75.html
@@ -138,7 +138,7 @@ <h3><a class="anchor" id="index_u"></a>- u -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x77.html b/docs/html/functions_func_0x77.html
index 9a3f796472..e4048adf74 100644
--- a/docs/html/functions_func_0x77.html
+++ b/docs/html/functions_func_0x77.html
@@ -140,7 +140,7 @@ <h3><a class="anchor" id="index_w"></a>- w -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_func_0x7e.html b/docs/html/functions_func_0x7e.html
index 402337dc78..e516879382 100644
--- a/docs/html/functions_func_0x7e.html
+++ b/docs/html/functions_func_0x7e.html
@@ -134,7 +134,7 @@ <h3><a class="anchor" id="index_0x7e"></a>- ~ -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:58 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_rela.html b/docs/html/functions_rela.html
index 5acfae273c..512d381bc4 100644
--- a/docs/html/functions_rela.html
+++ b/docs/html/functions_rela.html
@@ -118,7 +118,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:58 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_type.html b/docs/html/functions_type.html
index f96277bb3e..d58e959300 100644
--- a/docs/html/functions_type.html
+++ b/docs/html/functions_type.html
@@ -233,7 +233,7 @@ <h3><a class="anchor" id="index_v"></a>- v -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:58 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/functions_vars.html b/docs/html/functions_vars.html
index ea0f332dd6..0900baf663 100644
--- a/docs/html/functions_vars.html
+++ b/docs/html/functions_vars.html
@@ -136,7 +136,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:58 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/globals.html b/docs/html/globals.html
index 222a27f43d..bafd9f0e9b 100644
--- a/docs/html/globals.html
+++ b/docs/html/globals.html
@@ -168,7 +168,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:58 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/globals_defs.html b/docs/html/globals_defs.html
index 48dd363737..37b21d8e37 100644
--- a/docs/html/globals_defs.html
+++ b/docs/html/globals_defs.html
@@ -168,7 +168,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:58 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___block_module.html b/docs/html/group___block_module.html
index 8a06823258..8ecdeb1df3 100644
--- a/docs/html/group___block_module.html
+++ b/docs/html/group___block_module.html
@@ -165,7 +165,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___device_module.html b/docs/html/group___device_module.html
index 81133acc55..5213b03415 100644
--- a/docs/html/group___device_module.html
+++ b/docs/html/group___device_module.html
@@ -149,7 +149,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___primitive_module.html b/docs/html/group___primitive_module.html
index b0798134a6..3d91ea6c38 100644
--- a/docs/html/group___primitive_module.html
+++ b/docs/html/group___primitive_module.html
@@ -107,7 +107,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___util_io.html b/docs/html/group___util_io.html
index 84fae1a54e..594619d9d3 100644
--- a/docs/html/group___util_io.html
+++ b/docs/html/group___util_io.html
@@ -1459,7 +1459,7 @@ <h2 class="groupheader">Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___util_iterator.html b/docs/html/group___util_iterator.html
index 74cb41df67..3f3a6135a1 100644
--- a/docs/html/group___util_iterator.html
+++ b/docs/html/group___util_iterator.html
@@ -125,7 +125,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___util_mgmt.html b/docs/html/group___util_mgmt.html
index 0ad68b1fc1..faf00e7152 100644
--- a/docs/html/group___util_mgmt.html
+++ b/docs/html/group___util_mgmt.html
@@ -628,7 +628,7 @@ <h2 class="groupheader">Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___util_module.html b/docs/html/group___util_module.html
index cc6d868aaa..7aca61afb8 100644
--- a/docs/html/group___util_module.html
+++ b/docs/html/group___util_module.html
@@ -193,7 +193,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___util_ptx.html b/docs/html/group___util_ptx.html
index 0977b8c94d..96fd5b499e 100644
--- a/docs/html/group___util_ptx.html
+++ b/docs/html/group___util_ptx.html
@@ -216,7 +216,7 @@ <h2 class="groupheader">Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/group___warp_module.html b/docs/html/group___warp_module.html
index 847abb8be0..c1e2956c9f 100644
--- a/docs/html/group___warp_module.html
+++ b/docs/html/group___warp_module.html
@@ -337,7 +337,7 @@ <h2 class="groupheader">Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/hierarchy.html b/docs/html/hierarchy.html
index 7d05145578..93c5b2015a 100644
--- a/docs/html/hierarchy.html
+++ b/docs/html/hierarchy.html
@@ -235,7 +235,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/index.html b/docs/html/index.html
index cf1be933e9..22065f4c5a 100644
--- a/docs/html/index.html
+++ b/docs/html/index.html
@@ -115,7 +115,7 @@
 
 <a href="download_cub.html"><img src="download-icon.png" style="position:relative; bottom:-10px; border:0px;"/></a>
 &nbsp;&nbsp;
-<a href="download_cub.html"><em><b>Download CUB v1.3.0</b></em></a>
+<a href="download_cub.html"><em><b>Download CUB v1.3.1</b></em></a>
 
 </td><td>
 
@@ -393,23 +393,34 @@ <h1><a class="anchor" id="sec8"></a>
 (8) Recent News</h1>
 <dl class="section user"><dt></dt><dd><table class="doxtable">
 <tr>
+<td style="white-space: nowrap; vertical-align:text-top;">05/22/2014<br/>
+ <b>CUB v1.3.1</b> </td><td style="vertical-align:text-top;"><ul>
+<li>New features:<ul>
+<li>Added new "combination scan" methods to <a class="el" href="classcub_1_1_warp_scan.html" title="The WarpScan class provides collective methods for computing a parallel prefix scan of items partitio...">cub::WarpScan</a> for efficiently computing both inclusive and exclusive prefix scans (and sums).</li>
+</ul>
+</li>
+<li>Bug fixes:<ul>
+<li>Workaround for a benign WAW race warning reported by cuda-memcheck in <a class="el" href="classcub_1_1_block_scan.html" title="The BlockScan class provides collective methods for computing a parallel prefix sum/scan of items par...">cub::BlockScan</a> specialized for <a class="el" href="namespacecub.html#abec44bba36037c547e7e84906d0d23aba7f51e58246eb53f1a97bd1bc8c0f400f">cub::BLOCK_SCAN_WARP_SCANS</a> algorithm.</li>
+<li>Fix for bug in <a class="el" href="structcub_1_1_device_radix_sort.html" title="DeviceRadixSort provides device-wide, parallel operations for computing a radix sort across a sequenc...">cub::DeviceRadixSort</a> where the algorithm may sort more key bits than the caller specified (up to the nearest radix digit).</li>
+<li>Fix for a <a class="el" href="structcub_1_1_device_radix_sort.html" title="DeviceRadixSort provides device-wide, parallel operations for computing a radix sort across a sequenc...">cub::DeviceRadixSort</a> performance regression (~3%) on Kepler and Fermi that was introduced in v1.3.0.</li>
+</ul>
+</li>
+<li>See the <a href="CHANGE_LOG.TXT">change-log</a> for further details, including bug-fixes </li>
+</ul>
+<p class="endtd"></p>
+</td></tr>
+<tr>
 <td style="white-space: nowrap; vertical-align:text-top;">05/12/2014<br/>
  <a href="download_cub.html"><b>CUB v1.3.0</b></a> </td><td style="vertical-align:text-top;"><ul>
-<li>New features:<ul>
 <li>CUB's collective (block-wide, warp-wide) primitives underwent a minor interface refactoring:<ul>
 <li>To provide the appropriate support for multidimensional thread blocks, The interfaces for collective classes are now template-parameterized by X, Y, and Z block dimensions (with <code>BLOCK_DIM_Y</code> and <code>BLOCK_DIM_Z</code> being optional, and <code>BLOCK_DIM_X</code> replacing <code>BLOCK_THREADS</code>). Furthermore, the constructors that accept remapped linear thread-identifiers have been removed: all primitives now assume a row-major thread-ranking for multidimensional thread blocks.</li>
 <li>To allow the host program (compiled by the host-pass) to accurately determine the device-specific storage requirements for a given collective (compiled for each device-pass), the interfaces for collective classes are now (optionally) template-parameterized by the desired PTX compute capability. This is useful when aliasing collective storage to shared memory that has been allocated dynamically by the host at the kernel call site.</li>
 <li>Most CUB programs having typical 1D usage should not require any changes to accomodate these updates.</li>
 </ul>
 </li>
-</ul>
-</li>
-<li>Bug fixes:<ul>
 <li>Fixed bug in <a class="el" href="classcub_1_1_warp_scan.html" title="The WarpScan class provides collective methods for computing a parallel prefix scan of items partitio...">cub::WarpScan</a> (which affected <a class="el" href="classcub_1_1_block_scan.html" title="The BlockScan class provides collective methods for computing a parallel prefix sum/scan of items par...">cub::BlockScan</a> and <a class="el" href="structcub_1_1_device_scan.html" title="DeviceScan provides device-wide, parallel operations for computing a prefix scan across a sequence of...">cub::DeviceScan</a>) where incorrect results (e.g., NAN) would often be returned when parameterized for floating-point types (fp32, fp64).</li>
 <li>Workaround-fix for ptxas error when compiling with with -G flag on Linux (for debug instrumentation)</li>
 <li>Misc. workaround-fixes for certain scan scenarios (using custom scan operators) where code compiled for SM1x is run on newer GPUs of higher compute-capability: the compiler could not tell which memory space was being used collective operations and was mistakenly using global ops instead of shared ops.</li>
-</ul>
-</li>
 <li>See the <a href="CHANGE_LOG.TXT">change-log</a> for further details </li>
 </ul>
 <p class="endtd"></p>
@@ -497,7 +508,7 @@ <h1><a class="anchor" id="sec10"></a>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/modules.html b/docs/html/modules.html
index a2eb96b847..b96c42e77a 100644
--- a/docs/html/modules.html
+++ b/docs/html/modules.html
@@ -108,7 +108,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/namespacecub.html.REMOVED.git-id b/docs/html/namespacecub.html.REMOVED.git-id
index 0f32aeab4a..88b9eaaf78 100644
--- a/docs/html/namespacecub.html.REMOVED.git-id
+++ b/docs/html/namespacecub.html.REMOVED.git-id
@@ -1 +1 @@
-aebfb4926d86d84f2378d7aec2a69840c65fdb7b
\ No newline at end of file
+21c2a6f52695280b17d031e348725c8f29808759
\ No newline at end of file
diff --git a/docs/html/namespacemembers.html b/docs/html/namespacemembers.html
index f683aa939e..b5be82240f 100644
--- a/docs/html/namespacemembers.html
+++ b/docs/html/namespacemembers.html
@@ -374,7 +374,7 @@ <h3><a class="anchor" id="index_w"></a>- w -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/namespacemembers_enum.html b/docs/html/namespacemembers_enum.html
index 129b705b95..665cbaf823 100644
--- a/docs/html/namespacemembers_enum.html
+++ b/docs/html/namespacemembers_enum.html
@@ -131,7 +131,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/namespacemembers_eval.html b/docs/html/namespacemembers_eval.html
index 49ba91d5d4..45f97dcd2a 100644
--- a/docs/html/namespacemembers_eval.html
+++ b/docs/html/namespacemembers_eval.html
@@ -194,7 +194,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/namespacemembers_func.html b/docs/html/namespacemembers_func.html
index 83da4ba82c..ed03d3f32f 100644
--- a/docs/html/namespacemembers_func.html
+++ b/docs/html/namespacemembers_func.html
@@ -258,7 +258,7 @@ <h3><a class="anchor" id="index_w"></a>- w -</h3><ul>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/namespaces.html b/docs/html/namespaces.html
index 52b71d2a43..12cc6cd0bb 100644
--- a/docs/html/namespaces.html
+++ b/docs/html/namespaces.html
@@ -106,7 +106,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/search/all_73.js b/docs/html/search/all_73.js
index 7050060ebb..5b9e4d403f 100644
--- a/docs/html/search/all_73.js
+++ b/docs/html/search/all_73.js
@@ -1,5 +1,6 @@
 var searchData=
 [
+  ['scan',['Scan',['../classcub_1_1_warp_scan.html#a32a247bea83254e7c3f3ae4ed8a1d5c7',1,'cub::WarpScan::Scan(T input, T &amp;inclusive_output, T &amp;exclusive_output, T identity, ScanOp scan_op)'],['../classcub_1_1_warp_scan.html#a3266a375b79e44f77087cec512e0c1a3',1,'cub::WarpScan::Scan(T input, T &amp;inclusive_output, T &amp;exclusive_output, ScanOp scan_op)']]],
   ['scattertoblocked',['ScatterToBlocked',['../classcub_1_1_block_exchange.html#a756e7903c5369261fcf6139e5db52824',1,'cub::BlockExchange']]],
   ['scattertostriped',['ScatterToStriped',['../classcub_1_1_block_exchange.html#a2ba02edda6bfed9327cd4ee1748aa678',1,'cub::BlockExchange::ScatterToStriped(T items[ITEMS_PER_THREAD], Offset ranks[ITEMS_PER_THREAD])'],['../classcub_1_1_block_exchange.html#a171c90da1f2d5572b22acf059e0b06ea',1,'cub::BlockExchange::ScatterToStriped(T items[ITEMS_PER_THREAD], Offset ranks[ITEMS_PER_THREAD], ValidFlag is_valid[ITEMS_PER_THREAD])']]],
   ['scattertostripedguarded',['ScatterToStripedGuarded',['../classcub_1_1_block_exchange.html#a0232bb6ad4bdfe1f1578e1ba8d175beb',1,'cub::BlockExchange']]],
@@ -36,6 +37,6 @@ var searchData=
   ['storedirectstriped',['StoreDirectStriped',['../group___util_io.html#gafa774cd981172f96137620c868e628ba',1,'cub::StoreDirectStriped(int linear_tid, OutputIterator block_itr, T(&amp;items)[ITEMS_PER_THREAD])'],['../group___util_io.html#gac9ab95ee7528c9acb3f92c2dd0fc7992',1,'cub::StoreDirectStriped(int linear_tid, OutputIterator block_itr, T(&amp;items)[ITEMS_PER_THREAD], int valid_items)']]],
   ['storedirectwarpstriped',['StoreDirectWarpStriped',['../group___util_io.html#ga8ffe6de6fbf7c5a617b863c460b0de48',1,'cub::StoreDirectWarpStriped(int linear_tid, OutputIterator block_itr, T(&amp;items)[ITEMS_PER_THREAD])'],['../group___util_io.html#gae201cc0d0cc452e5500a5f28c7e4a234',1,'cub::StoreDirectWarpStriped(int linear_tid, OutputIterator block_itr, T(&amp;items)[ITEMS_PER_THREAD], int valid_items)']]],
   ['stripedtoblocked',['StripedToBlocked',['../classcub_1_1_block_exchange.html#a2855471bbbcc4d66ac6a29d35a040e0c',1,'cub::BlockExchange']]],
-  ['sum',['Sum',['../structcub_1_1_sum.html',1,'cub']]],
-  ['sum',['Sum',['../classcub_1_1_block_reduce.html#a7632bd9c8950dd6a3528ca99fa3f0890',1,'cub::BlockReduce::Sum(T input)'],['../classcub_1_1_block_reduce.html#ac5d4591d9513f08b180d4112cb0c4c51',1,'cub::BlockReduce::Sum(T(&amp;inputs)[ITEMS_PER_THREAD])'],['../classcub_1_1_block_reduce.html#a33ddffdde07275ab0c4e1bf61b0d9409',1,'cub::BlockReduce::Sum(T input, int num_valid)'],['../structcub_1_1_device_reduce.html#aaf68d747ee676df2b5b5ff016ee6c371',1,'cub::DeviceReduce::Sum()'],['../classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a',1,'cub::WarpReduce::Sum(T input)'],['../classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30',1,'cub::WarpReduce::Sum(T input, int valid_items)']]]
+  ['sum',['Sum',['../classcub_1_1_block_reduce.html#a7632bd9c8950dd6a3528ca99fa3f0890',1,'cub::BlockReduce::Sum(T input)'],['../classcub_1_1_block_reduce.html#ac5d4591d9513f08b180d4112cb0c4c51',1,'cub::BlockReduce::Sum(T(&amp;inputs)[ITEMS_PER_THREAD])'],['../classcub_1_1_block_reduce.html#a33ddffdde07275ab0c4e1bf61b0d9409',1,'cub::BlockReduce::Sum(T input, int num_valid)'],['../structcub_1_1_device_reduce.html#aaf68d747ee676df2b5b5ff016ee6c371',1,'cub::DeviceReduce::Sum()'],['../classcub_1_1_warp_scan.html#a25bd83f795e88b9260ec2bcbf846fb20',1,'cub::WarpScan::Sum()'],['../classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a',1,'cub::WarpReduce::Sum(T input)'],['../classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30',1,'cub::WarpReduce::Sum(T input, int valid_items)']]],
+  ['sum',['Sum',['../structcub_1_1_sum.html',1,'cub']]]
 ];
diff --git a/docs/html/search/all_76.js b/docs/html/search/all_76.js
index 3f5e1f4a55..021b8d7f85 100644
--- a/docs/html/search/all_76.js
+++ b/docs/html/search/all_76.js
@@ -1,5 +1,5 @@
 var searchData=
 [
-  ['value',['Value',['../structcub_1_1_key_value_pair.html#a9fd385872c09fd3757e9ba59b2754955',1,'cub::KeyValuePair::Value()'],['../structcub_1_1_item_offset_pair.html#a7faea6eea84a2e5bb4250bd78e765685',1,'cub::ItemOffsetPair::value()'],['../structcub_1_1_key_value_pair.html#a468bef1440a66f45bd9b5193594bf1a4',1,'cub::KeyValuePair::value()']]],
+  ['value',['value',['../structcub_1_1_item_offset_pair.html#a7faea6eea84a2e5bb4250bd78e765685',1,'cub::ItemOffsetPair::value()'],['../structcub_1_1_key_value_pair.html#a468bef1440a66f45bd9b5193594bf1a4',1,'cub::KeyValuePair::value()'],['../structcub_1_1_key_value_pair.html#a9fd385872c09fd3757e9ba59b2754955',1,'cub::KeyValuePair::Value()']]],
   ['value_5ftype',['value_type',['../classcub_1_1_arg_index_input_iterator.html#ada4b2b51d9e2957c4839590c7ac135c3',1,'cub::ArgIndexInputIterator::value_type()'],['../classcub_1_1_cache_modified_input_iterator.html#aaaaa98e306495a1e4107144f97e35737',1,'cub::CacheModifiedInputIterator::value_type()'],['../classcub_1_1_cache_modified_output_iterator.html#a5137ea14538ce430886974945005cfef',1,'cub::CacheModifiedOutputIterator::value_type()'],['../classcub_1_1_constant_input_iterator.html#acde3cbd43e78ba2f8a8435cacee84990',1,'cub::ConstantInputIterator::value_type()'],['../classcub_1_1_counting_input_iterator.html#acbf0b49c06d27338f1b2e2ed5b1faece',1,'cub::CountingInputIterator::value_type()'],['../classcub_1_1_tex_obj_input_iterator.html#ad7daad59aaab9b38c1da340831bb9521',1,'cub::TexObjInputIterator::value_type()'],['../classcub_1_1_tex_ref_input_iterator.html#ae4525990cb440826692f7e99abb41ee0',1,'cub::TexRefInputIterator::value_type()'],['../classcub_1_1_transform_input_iterator.html#a71f31c0245f2a927e12d469e91287960',1,'cub::TransformInputIterator::value_type()']]]
 ];
diff --git a/docs/html/search/functions_73.js b/docs/html/search/functions_73.js
index 2ba6e181a6..ea0f06e70b 100644
--- a/docs/html/search/functions_73.js
+++ b/docs/html/search/functions_73.js
@@ -1,5 +1,6 @@
 var searchData=
 [
+  ['scan',['Scan',['../classcub_1_1_warp_scan.html#a32a247bea83254e7c3f3ae4ed8a1d5c7',1,'cub::WarpScan::Scan(T input, T &amp;inclusive_output, T &amp;exclusive_output, T identity, ScanOp scan_op)'],['../classcub_1_1_warp_scan.html#a3266a375b79e44f77087cec512e0c1a3',1,'cub::WarpScan::Scan(T input, T &amp;inclusive_output, T &amp;exclusive_output, ScanOp scan_op)']]],
   ['scattertoblocked',['ScatterToBlocked',['../classcub_1_1_block_exchange.html#a756e7903c5369261fcf6139e5db52824',1,'cub::BlockExchange']]],
   ['scattertostriped',['ScatterToStriped',['../classcub_1_1_block_exchange.html#a2ba02edda6bfed9327cd4ee1748aa678',1,'cub::BlockExchange::ScatterToStriped(T items[ITEMS_PER_THREAD], Offset ranks[ITEMS_PER_THREAD])'],['../classcub_1_1_block_exchange.html#a171c90da1f2d5572b22acf059e0b06ea',1,'cub::BlockExchange::ScatterToStriped(T items[ITEMS_PER_THREAD], Offset ranks[ITEMS_PER_THREAD], ValidFlag is_valid[ITEMS_PER_THREAD])']]],
   ['scattertostripedguarded',['ScatterToStripedGuarded',['../classcub_1_1_block_exchange.html#a0232bb6ad4bdfe1f1578e1ba8d175beb',1,'cub::BlockExchange']]],
@@ -27,5 +28,5 @@ var searchData=
   ['storedirectstriped',['StoreDirectStriped',['../group___util_io.html#gafa774cd981172f96137620c868e628ba',1,'cub::StoreDirectStriped(int linear_tid, OutputIterator block_itr, T(&amp;items)[ITEMS_PER_THREAD])'],['../group___util_io.html#gac9ab95ee7528c9acb3f92c2dd0fc7992',1,'cub::StoreDirectStriped(int linear_tid, OutputIterator block_itr, T(&amp;items)[ITEMS_PER_THREAD], int valid_items)']]],
   ['storedirectwarpstriped',['StoreDirectWarpStriped',['../group___util_io.html#ga8ffe6de6fbf7c5a617b863c460b0de48',1,'cub::StoreDirectWarpStriped(int linear_tid, OutputIterator block_itr, T(&amp;items)[ITEMS_PER_THREAD])'],['../group___util_io.html#gae201cc0d0cc452e5500a5f28c7e4a234',1,'cub::StoreDirectWarpStriped(int linear_tid, OutputIterator block_itr, T(&amp;items)[ITEMS_PER_THREAD], int valid_items)']]],
   ['stripedtoblocked',['StripedToBlocked',['../classcub_1_1_block_exchange.html#a2855471bbbcc4d66ac6a29d35a040e0c',1,'cub::BlockExchange']]],
-  ['sum',['Sum',['../classcub_1_1_block_reduce.html#a7632bd9c8950dd6a3528ca99fa3f0890',1,'cub::BlockReduce::Sum(T input)'],['../classcub_1_1_block_reduce.html#ac5d4591d9513f08b180d4112cb0c4c51',1,'cub::BlockReduce::Sum(T(&amp;inputs)[ITEMS_PER_THREAD])'],['../classcub_1_1_block_reduce.html#a33ddffdde07275ab0c4e1bf61b0d9409',1,'cub::BlockReduce::Sum(T input, int num_valid)'],['../structcub_1_1_device_reduce.html#aaf68d747ee676df2b5b5ff016ee6c371',1,'cub::DeviceReduce::Sum()'],['../classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a',1,'cub::WarpReduce::Sum(T input)'],['../classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30',1,'cub::WarpReduce::Sum(T input, int valid_items)']]]
+  ['sum',['Sum',['../classcub_1_1_block_reduce.html#a7632bd9c8950dd6a3528ca99fa3f0890',1,'cub::BlockReduce::Sum(T input)'],['../classcub_1_1_block_reduce.html#ac5d4591d9513f08b180d4112cb0c4c51',1,'cub::BlockReduce::Sum(T(&amp;inputs)[ITEMS_PER_THREAD])'],['../classcub_1_1_block_reduce.html#a33ddffdde07275ab0c4e1bf61b0d9409',1,'cub::BlockReduce::Sum(T input, int num_valid)'],['../structcub_1_1_device_reduce.html#aaf68d747ee676df2b5b5ff016ee6c371',1,'cub::DeviceReduce::Sum()'],['../classcub_1_1_warp_scan.html#a25bd83f795e88b9260ec2bcbf846fb20',1,'cub::WarpScan::Sum()'],['../classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a',1,'cub::WarpReduce::Sum(T input)'],['../classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30',1,'cub::WarpReduce::Sum(T input, int valid_items)']]]
 ];
diff --git a/docs/html/structcub_1_1_arg_max-members.html b/docs/html/structcub_1_1_arg_max-members.html
index 2c153ad368..a839e2fc81 100644
--- a/docs/html/structcub_1_1_arg_max-members.html
+++ b/docs/html/structcub_1_1_arg_max-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_arg_max.html b/docs/html/structcub_1_1_arg_max.html
index 4dc6180580..55b0dae93e 100644
--- a/docs/html/structcub_1_1_arg_max.html
+++ b/docs/html/structcub_1_1_arg_max.html
@@ -126,7 +126,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_arg_min-members.html b/docs/html/structcub_1_1_arg_min-members.html
index c9754ebacc..97544ed0ab 100644
--- a/docs/html/structcub_1_1_arg_min-members.html
+++ b/docs/html/structcub_1_1_arg_min-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_arg_min.html b/docs/html/structcub_1_1_arg_min.html
index 1e1af1b22b..bfc6f79e54 100644
--- a/docs/html/structcub_1_1_arg_min.html
+++ b/docs/html/structcub_1_1_arg_min.html
@@ -126,7 +126,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_base_traits-members.html b/docs/html/structcub_1_1_base_traits-members.html
index fa4fc6416e..8d4bc59d40 100644
--- a/docs/html/structcub_1_1_base_traits-members.html
+++ b/docs/html/structcub_1_1_base_traits-members.html
@@ -111,7 +111,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_base_traits.html b/docs/html/structcub_1_1_base_traits.html
index ed026d28cd..4339d455d3 100644
--- a/docs/html/structcub_1_1_base_traits.html
+++ b/docs/html/structcub_1_1_base_traits.html
@@ -138,7 +138,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_discontinuity_1_1_temp_storage-members.html b/docs/html/structcub_1_1_block_discontinuity_1_1_temp_storage-members.html
index 092f52c954..3057311087 100644
--- a/docs/html/structcub_1_1_block_discontinuity_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_block_discontinuity_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_discontinuity_1_1_temp_storage.html b/docs/html/structcub_1_1_block_discontinuity_1_1_temp_storage.html
index 955a4a0e72..13776e8fd3 100644
--- a/docs/html/structcub_1_1_block_discontinuity_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_discontinuity_1_1_temp_storage.html
@@ -154,7 +154,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_exchange_1_1_temp_storage-members.html b/docs/html/structcub_1_1_block_exchange_1_1_temp_storage-members.html
index f0f39366f2..d03631e7ec 100644
--- a/docs/html/structcub_1_1_block_exchange_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_block_exchange_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_exchange_1_1_temp_storage.html b/docs/html/structcub_1_1_block_exchange_1_1_temp_storage.html
index 1584898cc4..e2ca2c21da 100644
--- a/docs/html/structcub_1_1_block_exchange_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_exchange_1_1_temp_storage.html
@@ -156,7 +156,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_histogram_1_1_temp_storage-members.html b/docs/html/structcub_1_1_block_histogram_1_1_temp_storage-members.html
index 81349a3424..4946591fc4 100644
--- a/docs/html/structcub_1_1_block_histogram_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_block_histogram_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_histogram_1_1_temp_storage.html b/docs/html/structcub_1_1_block_histogram_1_1_temp_storage.html
index 0d9f57c6b0..7a94adb7e4 100644
--- a/docs/html/structcub_1_1_block_histogram_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_histogram_1_1_temp_storage.html
@@ -157,7 +157,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___t_r_a_n_s_p_o_s_e_00_01_d_5ea8dad2df262b118ec77ecff8dc9dd3.html b/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___t_r_a_n_s_p_o_s_e_00_01_d_5ea8dad2df262b118ec77ecff8dc9dd3.html
index 8b49ae5326..9a57a20f29 100644
--- a/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___t_r_a_n_s_p_o_s_e_00_01_d_5ea8dad2df262b118ec77ecff8dc9dd3.html
+++ b/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___t_r_a_n_s_p_o_s_e_00_01_d_5ea8dad2df262b118ec77ecff8dc9dd3.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___t_r_a_n_s_p_o_s_e_00_01_d_u_m_m_y_01_4_1_1_temp_storage.html b/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___t_r_a_n_s_p_o_s_e_00_01_d_u_m_m_y_01_4_1_1_temp_storage.html
index 30da1b12f5..fd16a16f30 100644
--- a/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___t_r_a_n_s_p_o_s_e_00_01_d_u_m_m_y_01_4_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___t_r_a_n_s_p_o_s_e_00_01_d_u_m_m_y_01_4_1_1_temp_storage.html
@@ -159,7 +159,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___w_a_r_p___t_r_a_n_s_p_o_s_402c3164d23f1ec647db5dad06a54584.html b/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___w_a_r_p___t_r_a_n_s_p_o_s_402c3164d23f1ec647db5dad06a54584.html
index 37c201d30f..0c52c814e9 100644
--- a/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___w_a_r_p___t_r_a_n_s_p_o_s_402c3164d23f1ec647db5dad06a54584.html
+++ b/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___w_a_r_p___t_r_a_n_s_p_o_s_402c3164d23f1ec647db5dad06a54584.html
@@ -159,7 +159,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___w_a_r_p___t_r_a_n_s_p_o_s_b58863673477c12a4e46def6747d1835.html b/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___w_a_r_p___t_r_a_n_s_p_o_s_b58863673477c12a4e46def6747d1835.html
index 863100ece0..d1dfec4c11 100644
--- a/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___w_a_r_p___t_r_a_n_s_p_o_s_b58863673477c12a4e46def6747d1835.html
+++ b/docs/html/structcub_1_1_block_load_1_1_load_internal_3_01_b_l_o_c_k___l_o_a_d___w_a_r_p___t_r_a_n_s_p_o_s_b58863673477c12a4e46def6747d1835.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_load_1_1_temp_storage-members.html b/docs/html/structcub_1_1_block_load_1_1_temp_storage-members.html
index 419bad30cb..bdec8c3993 100644
--- a/docs/html/structcub_1_1_block_load_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_block_load_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_load_1_1_temp_storage.html b/docs/html/structcub_1_1_block_load_1_1_temp_storage.html
index 7a6844cec4..a59a4f59e0 100644
--- a/docs/html/structcub_1_1_block_load_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_load_1_1_temp_storage.html
@@ -157,7 +157,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_radix_sort_1_1_temp_storage-members.html b/docs/html/structcub_1_1_block_radix_sort_1_1_temp_storage-members.html
index adc85c3089..7df83dae72 100644
--- a/docs/html/structcub_1_1_block_radix_sort_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_block_radix_sort_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_radix_sort_1_1_temp_storage.html b/docs/html/structcub_1_1_block_radix_sort_1_1_temp_storage.html
index 862df76df9..e159f09b03 100644
--- a/docs/html/structcub_1_1_block_radix_sort_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_radix_sort_1_1_temp_storage.html
@@ -120,7 +120,7 @@
 
 <p>The operations exposed by <a class="el" href="classcub_1_1_block_scan.html" title="The BlockScan class provides collective methods for computing a parallel prefix sum/scan of items par...">BlockScan</a> require a temporary memory allocation of this nested type for thread communication. This opaque storage can be allocated directly using the <code>__shared__</code> keyword. Alternatively, it can be aliased to externally allocated memory (shared or global) or <code>union</code>'d with other storage allocation types to facilitate memory reuse. </p>
 
-<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00394">394</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
+<p>Definition at line <a class="el" href="block__radix__sort_8cuh_source.html#l00400">400</a> of file <a class="el" href="block__radix__sort_8cuh_source.html">block_radix_sort.cuh</a>.</p>
 </div><div class="dynheader">
 Inheritance diagram for cub::BlockRadixSort&lt; Key, BLOCK_DIM_X, ITEMS_PER_THREAD, Value, RADIX_BITS, MEMOIZE_OUTER_SCAN, INNER_SCAN_ALGORITHM, SMEM_CONFIG, BLOCK_DIM_Y, BLOCK_DIM_Z, PTX_ARCH &gt;::TempStorage:</div>
 <div class="dyncontent">
@@ -160,7 +160,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_reduce_1_1_temp_storage-members.html b/docs/html/structcub_1_1_block_reduce_1_1_temp_storage-members.html
index 8b31087517..48fd4cc3c0 100644
--- a/docs/html/structcub_1_1_block_reduce_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_block_reduce_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_reduce_1_1_temp_storage.html b/docs/html/structcub_1_1_block_reduce_1_1_temp_storage.html
index 5347a92e40..6cbbd079d1 100644
--- a/docs/html/structcub_1_1_block_reduce_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_reduce_1_1_temp_storage.html
@@ -155,7 +155,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_scan_1_1_temp_storage-members.html b/docs/html/structcub_1_1_block_scan_1_1_temp_storage-members.html
index 5d92c7002f..e353966fa5 100644
--- a/docs/html/structcub_1_1_block_scan_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_block_scan_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_scan_1_1_temp_storage.html b/docs/html/structcub_1_1_block_scan_1_1_temp_storage.html
index 7bd8cc3d99..6dcdf13944 100644
--- a/docs/html/structcub_1_1_block_scan_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_scan_1_1_temp_storage.html
@@ -155,7 +155,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:55 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___t_r_a_n_s_p_o_s_e_00_07dc8a0abd37bbc1ba3abf8440890a6c0.html b/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___t_r_a_n_s_p_o_s_e_00_07dc8a0abd37bbc1ba3abf8440890a6c0.html
index 96c1bbcd89..f54a9583e5 100644
--- a/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___t_r_a_n_s_p_o_s_e_00_07dc8a0abd37bbc1ba3abf8440890a6c0.html
+++ b/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___t_r_a_n_s_p_o_s_e_00_07dc8a0abd37bbc1ba3abf8440890a6c0.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___t_r_a_n_s_p_o_s_e_00_09dfae03f13932c7dbdb41be30a5767ba.html b/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___t_r_a_n_s_p_o_s_e_00_09dfae03f13932c7dbdb41be30a5767ba.html
index b311357a8d..dba56a4881 100644
--- a/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___t_r_a_n_s_p_o_s_e_00_09dfae03f13932c7dbdb41be30a5767ba.html
+++ b/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___t_r_a_n_s_p_o_s_e_00_09dfae03f13932c7dbdb41be30a5767ba.html
@@ -159,7 +159,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___w_a_r_p___t_r_a_n_s_p_2a6ef8c29850a6a6dfbf5e4acbc50c1f.html b/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___w_a_r_p___t_r_a_n_s_p_2a6ef8c29850a6a6dfbf5e4acbc50c1f.html
index 08eac3944a..1df4ea282b 100644
--- a/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___w_a_r_p___t_r_a_n_s_p_2a6ef8c29850a6a6dfbf5e4acbc50c1f.html
+++ b/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___w_a_r_p___t_r_a_n_s_p_2a6ef8c29850a6a6dfbf5e4acbc50c1f.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___w_a_r_p___t_r_a_n_s_p_8d170856b7ed1df0ed565731a681b449.html b/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___w_a_r_p___t_r_a_n_s_p_8d170856b7ed1df0ed565731a681b449.html
index 1a149a7ee4..c082fc271a 100644
--- a/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___w_a_r_p___t_r_a_n_s_p_8d170856b7ed1df0ed565731a681b449.html
+++ b/docs/html/structcub_1_1_block_store_1_1_store_internal_3_01_b_l_o_c_k___s_t_o_r_e___w_a_r_p___t_r_a_n_s_p_8d170856b7ed1df0ed565731a681b449.html
@@ -159,7 +159,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_store_1_1_temp_storage-members.html b/docs/html/structcub_1_1_block_store_1_1_temp_storage-members.html
index 9a4a0f5b4b..62e57e359f 100644
--- a/docs/html/structcub_1_1_block_store_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_block_store_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_block_store_1_1_temp_storage.html b/docs/html/structcub_1_1_block_store_1_1_temp_storage.html
index 12c0b134a1..b531b073c4 100644
--- a/docs/html/structcub_1_1_block_store_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_block_store_1_1_temp_storage.html
@@ -157,7 +157,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_caching_device_allocator-members.html b/docs/html/structcub_1_1_caching_device_allocator-members.html
index 87d464f1fa..68749b3e6a 100644
--- a/docs/html/structcub_1_1_caching_device_allocator-members.html
+++ b/docs/html/structcub_1_1_caching_device_allocator-members.html
@@ -117,7 +117,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_caching_device_allocator.html b/docs/html/structcub_1_1_caching_device_allocator.html
index 2eea3456c8..13246d6563 100644
--- a/docs/html/structcub_1_1_caching_device_allocator.html
+++ b/docs/html/structcub_1_1_caching_device_allocator.html
@@ -281,7 +281,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_cast-members.html b/docs/html/structcub_1_1_cast-members.html
index a89ea87777..f3045df1fe 100644
--- a/docs/html/structcub_1_1_cast-members.html
+++ b/docs/html/structcub_1_1_cast-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_cast.html b/docs/html/structcub_1_1_cast.html
index 6ace142407..293378be9a 100644
--- a/docs/html/structcub_1_1_cast.html
+++ b/docs/html/structcub_1_1_cast.html
@@ -129,7 +129,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_cub_vector.html b/docs/html/structcub_1_1_cub_vector.html
index fdf03d40e7..9f90577453 100644
--- a/docs/html/structcub_1_1_cub_vector.html
+++ b/docs/html/structcub_1_1_cub_vector.html
@@ -117,7 +117,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_histogram-members.html b/docs/html/structcub_1_1_device_histogram-members.html
index da41b212dd..afe13f2cea 100644
--- a/docs/html/structcub_1_1_device_histogram-members.html
+++ b/docs/html/structcub_1_1_device_histogram-members.html
@@ -114,7 +114,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_histogram.html b/docs/html/structcub_1_1_device_histogram.html
index ae3b6badce..a74e0eda41 100644
--- a/docs/html/structcub_1_1_device_histogram.html
+++ b/docs/html/structcub_1_1_device_histogram.html
@@ -951,7 +951,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_partition-members.html b/docs/html/structcub_1_1_device_partition-members.html
index 6ebbe32d35..245c268e2c 100644
--- a/docs/html/structcub_1_1_device_partition-members.html
+++ b/docs/html/structcub_1_1_device_partition-members.html
@@ -110,7 +110,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_partition.html b/docs/html/structcub_1_1_device_partition.html
index 857bbf7a16..ab5699a458 100644
--- a/docs/html/structcub_1_1_device_partition.html
+++ b/docs/html/structcub_1_1_device_partition.html
@@ -467,7 +467,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_radix_sort-members.html b/docs/html/structcub_1_1_device_radix_sort-members.html
index 3be9aeefbd..f13be7d8de 100644
--- a/docs/html/structcub_1_1_device_radix_sort-members.html
+++ b/docs/html/structcub_1_1_device_radix_sort-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_radix_sort.html b/docs/html/structcub_1_1_device_radix_sort.html
index ec2df01b0e..20552a2576 100644
--- a/docs/html/structcub_1_1_device_radix_sort.html
+++ b/docs/html/structcub_1_1_device_radix_sort.html
@@ -699,7 +699,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_reduce-members.html b/docs/html/structcub_1_1_device_reduce-members.html
index 0f756907e7..1d7f5e9517 100644
--- a/docs/html/structcub_1_1_device_reduce-members.html
+++ b/docs/html/structcub_1_1_device_reduce-members.html
@@ -116,7 +116,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_reduce.html b/docs/html/structcub_1_1_device_reduce.html
index 5d63263d89..af78a95a14 100644
--- a/docs/html/structcub_1_1_device_reduce.html
+++ b/docs/html/structcub_1_1_device_reduce.html
@@ -1251,7 +1251,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_scan-members.html b/docs/html/structcub_1_1_device_scan-members.html
index 183c119ac6..44cf72f85c 100644
--- a/docs/html/structcub_1_1_device_scan-members.html
+++ b/docs/html/structcub_1_1_device_scan-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_scan.html b/docs/html/structcub_1_1_device_scan.html
index 5b1853117c..9b4f1e46be 100644
--- a/docs/html/structcub_1_1_device_scan.html
+++ b/docs/html/structcub_1_1_device_scan.html
@@ -680,7 +680,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_select-members.html b/docs/html/structcub_1_1_device_select-members.html
index 670a29fb1d..d56d7b055b 100644
--- a/docs/html/structcub_1_1_device_select-members.html
+++ b/docs/html/structcub_1_1_device_select-members.html
@@ -111,7 +111,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_device_select.html b/docs/html/structcub_1_1_device_select.html
index 7399afb716..7673e958ca 100644
--- a/docs/html/structcub_1_1_device_select.html
+++ b/docs/html/structcub_1_1_device_select.html
@@ -630,7 +630,7 @@ <h2 class="groupheader">Member Function Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:56 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_double_buffer-members.html b/docs/html/structcub_1_1_double_buffer-members.html
index 6768386776..c499429fe5 100644
--- a/docs/html/structcub_1_1_double_buffer-members.html
+++ b/docs/html/structcub_1_1_double_buffer-members.html
@@ -113,7 +113,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_double_buffer.html b/docs/html/structcub_1_1_double_buffer.html
index cd333fbb8c..07f9d7ee7b 100644
--- a/docs/html/structcub_1_1_double_buffer.html
+++ b/docs/html/structcub_1_1_double_buffer.html
@@ -197,7 +197,7 @@ <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_equality-members.html b/docs/html/structcub_1_1_equality-members.html
index 27e86c9ef0..c8d2ff00c3 100644
--- a/docs/html/structcub_1_1_equality-members.html
+++ b/docs/html/structcub_1_1_equality-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_equality.html b/docs/html/structcub_1_1_equality.html
index c17339ff4f..d0caf9d14d 100644
--- a/docs/html/structcub_1_1_equality.html
+++ b/docs/html/structcub_1_1_equality.html
@@ -125,7 +125,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_equals-members.html b/docs/html/structcub_1_1_equals-members.html
index 0b1e1d30c0..c7fdeae9b8 100644
--- a/docs/html/structcub_1_1_equals-members.html
+++ b/docs/html/structcub_1_1_equals-members.html
@@ -110,7 +110,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_equals.html b/docs/html/structcub_1_1_equals.html
index a16674c95f..7162af5d75 100644
--- a/docs/html/structcub_1_1_equals.html
+++ b/docs/html/structcub_1_1_equals.html
@@ -128,7 +128,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_if-members.html b/docs/html/structcub_1_1_if-members.html
index cfa4daa4e6..10156a2ebb 100644
--- a/docs/html/structcub_1_1_if-members.html
+++ b/docs/html/structcub_1_1_if-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_if.html b/docs/html/structcub_1_1_if.html
index f34d51aa9d..28ea210498 100644
--- a/docs/html/structcub_1_1_if.html
+++ b/docs/html/structcub_1_1_if.html
@@ -129,7 +129,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_inequality-members.html b/docs/html/structcub_1_1_inequality-members.html
index 0bbc9c0ece..3ecbc03b89 100644
--- a/docs/html/structcub_1_1_inequality-members.html
+++ b/docs/html/structcub_1_1_inequality-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_inequality.html b/docs/html/structcub_1_1_inequality.html
index 88c6fa9074..79295940df 100644
--- a/docs/html/structcub_1_1_inequality.html
+++ b/docs/html/structcub_1_1_inequality.html
@@ -125,7 +125,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_inequality_wrapper-members.html b/docs/html/structcub_1_1_inequality_wrapper-members.html
index f40a1ad9bf..414a432711 100644
--- a/docs/html/structcub_1_1_inequality_wrapper-members.html
+++ b/docs/html/structcub_1_1_inequality_wrapper-members.html
@@ -111,7 +111,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_inequality_wrapper.html b/docs/html/structcub_1_1_inequality_wrapper.html
index d23fe8c277..3a97c277ea 100644
--- a/docs/html/structcub_1_1_inequality_wrapper.html
+++ b/docs/html/structcub_1_1_inequality_wrapper.html
@@ -141,7 +141,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_int2_type-members.html b/docs/html/structcub_1_1_int2_type-members.html
index 96758c9178..10d0b41bc0 100644
--- a/docs/html/structcub_1_1_int2_type-members.html
+++ b/docs/html/structcub_1_1_int2_type-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_int2_type.html b/docs/html/structcub_1_1_int2_type.html
index 4a1c732ff7..233c9fa8eb 100644
--- a/docs/html/structcub_1_1_int2_type.html
+++ b/docs/html/structcub_1_1_int2_type.html
@@ -126,7 +126,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_item_offset_pair-members.html b/docs/html/structcub_1_1_item_offset_pair-members.html
index 2edf0f2147..65cd880310 100644
--- a/docs/html/structcub_1_1_item_offset_pair-members.html
+++ b/docs/html/structcub_1_1_item_offset_pair-members.html
@@ -114,7 +114,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_item_offset_pair.html b/docs/html/structcub_1_1_item_offset_pair.html
index 7713cdb2de..aa422daf36 100644
--- a/docs/html/structcub_1_1_item_offset_pair.html
+++ b/docs/html/structcub_1_1_item_offset_pair.html
@@ -159,7 +159,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_key_value_pair-members.html b/docs/html/structcub_1_1_key_value_pair-members.html
index 28fdea2328..28041c195f 100644
--- a/docs/html/structcub_1_1_key_value_pair-members.html
+++ b/docs/html/structcub_1_1_key_value_pair-members.html
@@ -113,7 +113,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_key_value_pair.html b/docs/html/structcub_1_1_key_value_pair.html
index b279ac3d0e..3058ceec8b 100644
--- a/docs/html/structcub_1_1_key_value_pair.html
+++ b/docs/html/structcub_1_1_key_value_pair.html
@@ -153,7 +153,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_log2-members.html b/docs/html/structcub_1_1_log2-members.html
index 4228f55cbd..5c45140b42 100644
--- a/docs/html/structcub_1_1_log2-members.html
+++ b/docs/html/structcub_1_1_log2-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_log2.html b/docs/html/structcub_1_1_log2.html
index f9ebd5b805..26a035c5c5 100644
--- a/docs/html/structcub_1_1_log2.html
+++ b/docs/html/structcub_1_1_log2.html
@@ -130,7 +130,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_max-members.html b/docs/html/structcub_1_1_max-members.html
index 810a54e75a..474d2b1e5f 100644
--- a/docs/html/structcub_1_1_max-members.html
+++ b/docs/html/structcub_1_1_max-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_max.html b/docs/html/structcub_1_1_max.html
index a3c1bc963e..1846cb319c 100644
--- a/docs/html/structcub_1_1_max.html
+++ b/docs/html/structcub_1_1_max.html
@@ -125,7 +125,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_min-members.html b/docs/html/structcub_1_1_min-members.html
index 4a8f2f73cb..adcd71e36c 100644
--- a/docs/html/structcub_1_1_min-members.html
+++ b/docs/html/structcub_1_1_min-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_min.html b/docs/html/structcub_1_1_min.html
index 5fe76148c7..7c6690edc6 100644
--- a/docs/html/structcub_1_1_min.html
+++ b/docs/html/structcub_1_1_min.html
@@ -125,7 +125,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_null_type.html b/docs/html/structcub_1_1_null_type.html
index 80b7de067f..5752f3238e 100644
--- a/docs/html/structcub_1_1_null_type.html
+++ b/docs/html/structcub_1_1_null_type.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_numeric_traits-members.html b/docs/html/structcub_1_1_numeric_traits-members.html
index 491a2899b2..c0b417bd15 100644
--- a/docs/html/structcub_1_1_numeric_traits-members.html
+++ b/docs/html/structcub_1_1_numeric_traits-members.html
@@ -111,7 +111,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_numeric_traits.html b/docs/html/structcub_1_1_numeric_traits.html
index e7c8eace38..32e147a868 100644
--- a/docs/html/structcub_1_1_numeric_traits.html
+++ b/docs/html/structcub_1_1_numeric_traits.html
@@ -139,7 +139,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_power_of_two-members.html b/docs/html/structcub_1_1_power_of_two-members.html
index 2e404ae8d0..41e091d15d 100644
--- a/docs/html/structcub_1_1_power_of_two-members.html
+++ b/docs/html/structcub_1_1_power_of_two-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_power_of_two.html b/docs/html/structcub_1_1_power_of_two.html
index 47028f30ea..8516dd2117 100644
--- a/docs/html/structcub_1_1_power_of_two.html
+++ b/docs/html/structcub_1_1_power_of_two.html
@@ -126,7 +126,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_sum-members.html b/docs/html/structcub_1_1_sum-members.html
index 47219abb61..4342785205 100644
--- a/docs/html/structcub_1_1_sum-members.html
+++ b/docs/html/structcub_1_1_sum-members.html
@@ -109,7 +109,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_sum.html b/docs/html/structcub_1_1_sum.html
index 0a07794f05..6f6f8e64c8 100644
--- a/docs/html/structcub_1_1_sum.html
+++ b/docs/html/structcub_1_1_sum.html
@@ -125,7 +125,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:31 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_traits-members.html b/docs/html/structcub_1_1_traits-members.html
index 9ed0248c88..92ad4b6fa4 100644
--- a/docs/html/structcub_1_1_traits-members.html
+++ b/docs/html/structcub_1_1_traits-members.html
@@ -111,7 +111,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_traits.html b/docs/html/structcub_1_1_traits.html
index cbf940880a..a03704f665 100644
--- a/docs/html/structcub_1_1_traits.html
+++ b/docs/html/structcub_1_1_traits.html
@@ -140,7 +140,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_uninitialized-members.html b/docs/html/structcub_1_1_uninitialized-members.html
index 886454dc7d..964ff02db3 100644
--- a/docs/html/structcub_1_1_uninitialized-members.html
+++ b/docs/html/structcub_1_1_uninitialized-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_uninitialized.html b/docs/html/structcub_1_1_uninitialized.html
index 8ef04ccedc..68fb59603d 100644
--- a/docs/html/structcub_1_1_uninitialized.html
+++ b/docs/html/structcub_1_1_uninitialized.html
@@ -147,7 +147,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:54 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_warp_reduce_1_1_temp_storage-members.html b/docs/html/structcub_1_1_warp_reduce_1_1_temp_storage-members.html
index ad5591f721..438d69f321 100644
--- a/docs/html/structcub_1_1_warp_reduce_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_warp_reduce_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_warp_reduce_1_1_temp_storage.html b/docs/html/structcub_1_1_warp_reduce_1_1_temp_storage.html
index 9bbb3a7868..38a4c2b76b 100644
--- a/docs/html/structcub_1_1_warp_reduce_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_warp_reduce_1_1_temp_storage.html
@@ -152,7 +152,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:33 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_warp_scan_1_1_temp_storage-members.html b/docs/html/structcub_1_1_warp_scan_1_1_temp_storage-members.html
index d5950756bd..cd87af4932 100644
--- a/docs/html/structcub_1_1_warp_scan_1_1_temp_storage-members.html
+++ b/docs/html/structcub_1_1_warp_scan_1_1_temp_storage-members.html
@@ -112,7 +112,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/structcub_1_1_warp_scan_1_1_temp_storage.html b/docs/html/structcub_1_1_warp_scan_1_1_temp_storage.html
index 038213f6a2..baf46e939c 100644
--- a/docs/html/structcub_1_1_warp_scan_1_1_temp_storage.html
+++ b/docs/html/structcub_1_1_warp_scan_1_1_temp_storage.html
@@ -152,7 +152,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:57 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:32 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/tex__obj__input__iterator_8cuh.html b/docs/html/tex__obj__input__iterator_8cuh.html
index 0beee7075a..866b400e5b 100644
--- a/docs/html/tex__obj__input__iterator_8cuh.html
+++ b/docs/html/tex__obj__input__iterator_8cuh.html
@@ -134,7 +134,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/tex__obj__input__iterator_8cuh_source.html b/docs/html/tex__obj__input__iterator_8cuh_source.html
index e3fe648003..61a4a4c769 100644
--- a/docs/html/tex__obj__input__iterator_8cuh_source.html
+++ b/docs/html/tex__obj__input__iterator_8cuh_source.html
@@ -339,7 +339,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/tex__ref__input__iterator_8cuh.html b/docs/html/tex__ref__input__iterator_8cuh.html
index 672ac26e37..185417a26f 100644
--- a/docs/html/tex__ref__input__iterator_8cuh.html
+++ b/docs/html/tex__ref__input__iterator_8cuh.html
@@ -134,7 +134,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/tex__ref__input__iterator_8cuh_source.html b/docs/html/tex__ref__input__iterator_8cuh_source.html
index 28a4805bfe..e5b24993b5 100644
--- a/docs/html/tex__ref__input__iterator_8cuh_source.html
+++ b/docs/html/tex__ref__input__iterator_8cuh_source.html
@@ -389,7 +389,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/thread__load_8cuh.html b/docs/html/thread__load_8cuh.html
index c925b70cd9..a9447296fd 100644
--- a/docs/html/thread__load_8cuh.html
+++ b/docs/html/thread__load_8cuh.html
@@ -152,7 +152,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/thread__load_8cuh_source.html b/docs/html/thread__load_8cuh_source.html
index ecb8057f0d..2594f3b42e 100644
--- a/docs/html/thread__load_8cuh_source.html
+++ b/docs/html/thread__load_8cuh_source.html
@@ -378,76 +378,84 @@
 <div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> UnitWord&lt;T&gt;::VolatileWord VolatileWord;   <span class="comment">// Word type for memcopying</span></div>
 <div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;</div>
 <div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;    <span class="keyword">const</span> <span class="keywordtype">int</span> VOLATILE_MULTIPLE = <span class="keyword">sizeof</span>(T) / <span class="keyword">sizeof</span>(VolatileWord);</div>
-<div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;</div>
-<div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;    VolatileWord words[VOLATILE_MULTIPLE];</div>
-<div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;</div>
-<div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;    IterateThreadLoad&lt;0, VOLATILE_MULTIPLE&gt;::Dereference(</div>
-<div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;        reinterpret_cast&lt;volatile VolatileWord*&gt;(ptr),</div>
-<div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;        words);</div>
-<div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;</div>
-<div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">reinterpret_cast&lt;</span>T*<span class="keyword">&gt;</span>(words);</div>
-<div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;</div>
-<div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;<span class="preprocessor">#endif  // CUB_PTX_ARCH &lt;= 130</span></div>
-<div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;<span class="preprocessor"></span>}</div>
-<div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;</div>
-<div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;</div>
-<div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div>
-<div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;__device__ __forceinline__ T <a class="code" href="group___util_io.html#ga1e390b9fee4c8012a021d49d9b76b1e8" title="Thread utility for reading memory using cub::CacheLoadModifier cache modifiers. Can be used to load a...">ThreadLoad</a>(</div>
-<div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    T                       *ptr,</div>
-<div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;    Int2Type&lt;LOAD_VOLATILE&gt; modifier,</div>
-<div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;    Int2Type&lt;true&gt;          is_pointer)</div>
-<div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;{</div>
-<div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;    <span class="comment">// Apply tags for partial-specialization</span></div>
-<div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;    <span class="keywordflow">return</span> ThreadLoadVolatilePointer(ptr, Int2Type&lt;Traits&lt;T&gt;::PRIMITIVE&gt;());</div>
-<div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;}</div>
-<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;</div>
-<div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;</div>
-<div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> MODIFIER&gt;</div>
-<div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;__device__ __forceinline__ T <a class="code" href="group___util_io.html#ga1e390b9fee4c8012a021d49d9b76b1e8" title="Thread utility for reading memory using cub::CacheLoadModifier cache modifiers. Can be used to load a...">ThreadLoad</a>(</div>
-<div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;    T                       *ptr,</div>
-<div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;    Int2Type&lt;MODIFIER&gt;      modifier,</div>
-<div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;    Int2Type&lt;true&gt;          is_pointer)</div>
-<div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;{</div>
-<div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> UnitWord&lt;T&gt;::DeviceWord DeviceWord;</div>
-<div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;</div>
-<div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;    <span class="keyword">const</span> <span class="keywordtype">int</span> DEVICE_MULTIPLE = <span class="keyword">sizeof</span>(T) / <span class="keyword">sizeof</span>(DeviceWord);</div>
-<div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;</div>
-<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;    DeviceWord words[DEVICE_MULTIPLE];</div>
-<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;</div>
-<div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;    IterateThreadLoad&lt;0, DEVICE_MULTIPLE&gt;::template Load&lt;CacheLoadModifier(MODIFIER)&gt;(</div>
-<div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;        <span class="keyword">reinterpret_cast&lt;</span>DeviceWord*<span class="keyword">&gt;</span>(ptr),</div>
-<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;        words);</div>
+<div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;<span class="comment">/*</span></div>
+<div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;<span class="comment">    VolatileWord words[VOLATILE_MULTIPLE];</span></div>
+<div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;<span class="comment"></span></div>
+<div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;<span class="comment">    IterateThreadLoad&lt;0, VOLATILE_MULTIPLE&gt;::Dereference(</span></div>
+<div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;<span class="comment">        reinterpret_cast&lt;volatile VolatileWord*&gt;(ptr),</span></div>
+<div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;<span class="comment">        words);</span></div>
+<div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;<span class="comment"></span></div>
+<div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;<span class="comment">    return *reinterpret_cast&lt;T*&gt;(words);</span></div>
+<div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;<span class="comment">*/</span></div>
+<div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;</div>
+<div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;    T retval;</div>
+<div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;    VolatileWord *words = <span class="keyword">reinterpret_cast&lt;</span>VolatileWord*<span class="keyword">&gt;</span>(&amp;retval);</div>
+<div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;    IterateThreadLoad&lt;0, VOLATILE_MULTIPLE&gt;::Dereference(</div>
+<div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;        reinterpret_cast&lt;volatile VolatileWord*&gt;(ptr),</div>
+<div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;        words);</div>
+<div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;    <span class="keywordflow">return</span> retval;</div>
+<div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;</div>
+<div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;<span class="preprocessor">#endif  // CUB_PTX_ARCH &lt;= 130</span></div>
+<div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;<span class="preprocessor"></span>}</div>
+<div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;</div>
+<div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;</div>
+<div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div>
+<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;__device__ __forceinline__ T <a class="code" href="group___util_io.html#ga1e390b9fee4c8012a021d49d9b76b1e8" title="Thread utility for reading memory using cub::CacheLoadModifier cache modifiers. Can be used to load a...">ThreadLoad</a>(</div>
+<div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;    T                       *ptr,</div>
+<div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;    Int2Type&lt;LOAD_VOLATILE&gt; modifier,</div>
+<div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;    Int2Type&lt;true&gt;          is_pointer)</div>
+<div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;{</div>
+<div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;    <span class="comment">// Apply tags for partial-specialization</span></div>
+<div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;    <span class="keywordflow">return</span> ThreadLoadVolatilePointer(ptr, Int2Type&lt;Traits&lt;T&gt;::PRIMITIVE&gt;());</div>
+<div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;}</div>
+<div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;</div>
+<div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;</div>
+<div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> MODIFIER&gt;</div>
+<div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;__device__ __forceinline__ T <a class="code" href="group___util_io.html#ga1e390b9fee4c8012a021d49d9b76b1e8" title="Thread utility for reading memory using cub::CacheLoadModifier cache modifiers. Can be used to load a...">ThreadLoad</a>(</div>
+<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;    T                       *ptr,</div>
+<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    Int2Type&lt;MODIFIER&gt;      modifier,</div>
+<div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;    Int2Type&lt;true&gt;          is_pointer)</div>
+<div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;{</div>
+<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> UnitWord&lt;T&gt;::DeviceWord DeviceWord;</div>
 <div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;</div>
-<div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">reinterpret_cast&lt;</span>T*<span class="keyword">&gt;</span>(words);</div>
-<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;}</div>
-<div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;</div>
+<div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;    <span class="keyword">const</span> <span class="keywordtype">int</span> DEVICE_MULTIPLE = <span class="keyword">sizeof</span>(T) / <span class="keyword">sizeof</span>(DeviceWord);</div>
+<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;</div>
+<div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;    DeviceWord words[DEVICE_MULTIPLE];</div>
 <div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;</div>
-<div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;<span class="keyword">template</span> &lt;</div>
-<div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;    <a class="code" href="group___util_io.html#gac5f2805ad56fdd0f2860a5421d76d9b9" title="Enumeration of cache modifiers for memory load operations. ">CacheLoadModifier</a> MODIFIER,</div>
-<div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;    <span class="keyword">typename</span> InputIterator&gt;</div>
-<div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;__device__ __forceinline__ <span class="keyword">typename</span> std::iterator_traits&lt;InputIterator&gt;::value_type <a class="code" href="group___util_io.html#ga1e390b9fee4c8012a021d49d9b76b1e8" title="Thread utility for reading memory using cub::CacheLoadModifier cache modifiers. Can be used to load a...">ThreadLoad</a>(InputIterator itr)</div>
-<div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;{</div>
-<div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;    <span class="comment">// Apply tags for partial-specialization</span></div>
-<div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="group___util_io.html#ga1e390b9fee4c8012a021d49d9b76b1e8" title="Thread utility for reading memory using cub::CacheLoadModifier cache modifiers. Can be used to load a...">ThreadLoad</a>(</div>
-<div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;        itr,</div>
-<div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;        Int2Type&lt;MODIFIER&gt;(),</div>
-<div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;        Int2Type&lt;IsPointer&lt;InputIterator&gt;::VALUE&gt;());</div>
-<div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;}</div>
-<div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;</div>
-<div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;</div>
-<div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;</div>
-<div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;<span class="preprocessor">#endif // DOXYGEN_SHOULD_SKIP_THIS</span></div>
-<div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;<span class="preprocessor"></span></div>
-<div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;       <span class="comment">// end group UtilIo</span></div>
-<div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;</div>
+<div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;    IterateThreadLoad&lt;0, DEVICE_MULTIPLE&gt;::template Load&lt;CacheLoadModifier(MODIFIER)&gt;(</div>
+<div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;        <span class="keyword">reinterpret_cast&lt;</span>DeviceWord*<span class="keyword">&gt;</span>(ptr),</div>
+<div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;        words);</div>
+<div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;</div>
+<div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">reinterpret_cast&lt;</span>T*<span class="keyword">&gt;</span>(words);</div>
+<div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;}</div>
+<div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;</div>
+<div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;</div>
+<div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;<span class="keyword">template</span> &lt;</div>
+<div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;    <a class="code" href="group___util_io.html#gac5f2805ad56fdd0f2860a5421d76d9b9" title="Enumeration of cache modifiers for memory load operations. ">CacheLoadModifier</a> MODIFIER,</div>
+<div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;    <span class="keyword">typename</span> InputIterator&gt;</div>
+<div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;__device__ __forceinline__ <span class="keyword">typename</span> std::iterator_traits&lt;InputIterator&gt;::value_type <a class="code" href="group___util_io.html#ga1e390b9fee4c8012a021d49d9b76b1e8" title="Thread utility for reading memory using cub::CacheLoadModifier cache modifiers. Can be used to load a...">ThreadLoad</a>(InputIterator itr)</div>
+<div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;{</div>
+<div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;    <span class="comment">// Apply tags for partial-specialization</span></div>
+<div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="group___util_io.html#ga1e390b9fee4c8012a021d49d9b76b1e8" title="Thread utility for reading memory using cub::CacheLoadModifier cache modifiers. Can be used to load a...">ThreadLoad</a>(</div>
+<div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;        itr,</div>
+<div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;        Int2Type&lt;MODIFIER&gt;(),</div>
+<div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;        Int2Type&lt;IsPointer&lt;InputIterator&gt;::VALUE&gt;());</div>
+<div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;}</div>
 <div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;</div>
-<div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;}               <span class="comment">// CUB namespace</span></div>
-<div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;CUB_NS_POSTFIX  <span class="comment">// Optional outer namespace(s)</span></div>
+<div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;</div>
+<div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;</div>
+<div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;<span class="preprocessor">#endif // DOXYGEN_SHOULD_SKIP_THIS</span></div>
+<div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;<span class="preprocessor"></span></div>
+<div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;       <span class="comment">// end group UtilIo</span></div>
+<div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;</div>
+<div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;</div>
+<div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;}               <span class="comment">// CUB namespace</span></div>
+<div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;CUB_NS_POSTFIX  <span class="comment">// Optional outer namespace(s)</span></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/thread__operators_8cuh.html b/docs/html/thread__operators_8cuh.html
index 98af22f3a8..c06228492f 100644
--- a/docs/html/thread__operators_8cuh.html
+++ b/docs/html/thread__operators_8cuh.html
@@ -154,7 +154,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/thread__operators_8cuh_source.html b/docs/html/thread__operators_8cuh_source.html
index eae181722e..c84448de95 100644
--- a/docs/html/thread__operators_8cuh_source.html
+++ b/docs/html/thread__operators_8cuh_source.html
@@ -260,7 +260,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/thread__store_8cuh.html b/docs/html/thread__store_8cuh.html
index b06b0699b3..4e75827dd0 100644
--- a/docs/html/thread__store_8cuh.html
+++ b/docs/html/thread__store_8cuh.html
@@ -148,7 +148,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/thread__store_8cuh_source.html b/docs/html/thread__store_8cuh_source.html
index ad3c694e7f..bc726b71ca 100644
--- a/docs/html/thread__store_8cuh_source.html
+++ b/docs/html/thread__store_8cuh_source.html
@@ -353,71 +353,73 @@
 <div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;    VolatileWord words[VOLATILE_MULTIPLE];</div>
 <div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;    *<span class="keyword">reinterpret_cast&lt;</span>T*<span class="keyword">&gt;</span>(words) = val;</div>
 <div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;</div>
-<div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;    IterateThreadStore&lt;0, VOLATILE_MULTIPLE&gt;::template Dereference(</div>
-<div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;        reinterpret_cast&lt;volatile VolatileWord*&gt;(ptr),</div>
-<div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;        words);</div>
-<div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;</div>
-<div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;<span class="preprocessor">#endif  // CUB_PTX_ARCH &lt;= 130</span></div>
-<div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;<span class="preprocessor"></span></div>
-<div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;}</div>
-<div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div>
-<div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;</div>
-<div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div>
-<div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;__device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="group___util_io.html#ga336a7ab0ff431dd31fd8a5e31c1ae5fd" title="Thread utility for writing memory using cub::CacheStoreModifier cache modifiers. Can be used to store...">ThreadStore</a>(</div>
-<div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;    T                           *ptr,</div>
-<div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    T                           val,</div>
-<div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    Int2Type&lt;STORE_VOLATILE&gt;    modifier,</div>
-<div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;    Int2Type&lt;true&gt;              is_pointer)</div>
-<div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;{</div>
-<div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;    ThreadStoreVolatilePtr(ptr, val, Int2Type&lt;Traits&lt;T&gt;::PRIMITIVE&gt;());</div>
-<div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;}</div>
-<div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;</div>
-<div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;</div>
-<div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> MODIFIER&gt;</div>
-<div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;__device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="group___util_io.html#ga336a7ab0ff431dd31fd8a5e31c1ae5fd" title="Thread utility for writing memory using cub::CacheStoreModifier cache modifiers. Can be used to store...">ThreadStore</a>(</div>
-<div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;    T                           *ptr,</div>
-<div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;    T                           val,</div>
-<div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;    Int2Type&lt;MODIFIER&gt;          modifier,</div>
-<div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;    Int2Type&lt;true&gt;              is_pointer)</div>
-<div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;{</div>
-<div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> UnitWord&lt;T&gt;::DeviceWord DeviceWord;   <span class="comment">// Word type for memcopying</span></div>
-<div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;</div>
-<div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;    <span class="keyword">const</span> <span class="keywordtype">int</span> DEVICE_MULTIPLE = <span class="keyword">sizeof</span>(T) / <span class="keyword">sizeof</span>(DeviceWord);</div>
+<div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;<span class="comment">//    VolatileWord *words = reinterpret_cast&lt;VolatileWord*&gt;(&amp;val);</span></div>
+<div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div>
+<div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;    IterateThreadStore&lt;0, VOLATILE_MULTIPLE&gt;::template Dereference(</div>
+<div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;        reinterpret_cast&lt;volatile VolatileWord*&gt;(ptr),</div>
+<div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;        words);</div>
+<div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;</div>
+<div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;<span class="preprocessor">#endif  // CUB_PTX_ARCH &lt;= 130</span></div>
+<div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;<span class="preprocessor"></span></div>
+<div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;}</div>
+<div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div>
+<div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;</div>
+<div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div>
+<div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;__device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="group___util_io.html#ga336a7ab0ff431dd31fd8a5e31c1ae5fd" title="Thread utility for writing memory using cub::CacheStoreModifier cache modifiers. Can be used to store...">ThreadStore</a>(</div>
+<div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    T                           *ptr,</div>
+<div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;    T                           val,</div>
+<div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;    Int2Type&lt;STORE_VOLATILE&gt;    modifier,</div>
+<div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;    Int2Type&lt;true&gt;              is_pointer)</div>
+<div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;{</div>
+<div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;    ThreadStoreVolatilePtr(ptr, val, Int2Type&lt;Traits&lt;T&gt;::PRIMITIVE&gt;());</div>
+<div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;}</div>
+<div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;</div>
+<div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;</div>
+<div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> MODIFIER&gt;</div>
+<div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;__device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="group___util_io.html#ga336a7ab0ff431dd31fd8a5e31c1ae5fd" title="Thread utility for writing memory using cub::CacheStoreModifier cache modifiers. Can be used to store...">ThreadStore</a>(</div>
+<div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;    T                           *ptr,</div>
+<div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;    T                           val,</div>
+<div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;    Int2Type&lt;MODIFIER&gt;          modifier,</div>
+<div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;    Int2Type&lt;true&gt;              is_pointer)</div>
+<div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;{</div>
+<div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> UnitWord&lt;T&gt;::DeviceWord DeviceWord;   <span class="comment">// Word type for memcopying</span></div>
 <div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;</div>
-<div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    DeviceWord words[DEVICE_MULTIPLE];</div>
+<div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    <span class="keyword">const</span> <span class="keywordtype">int</span> DEVICE_MULTIPLE = <span class="keyword">sizeof</span>(T) / <span class="keyword">sizeof</span>(DeviceWord);</div>
 <div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;</div>
-<div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;    *<span class="keyword">reinterpret_cast&lt;</span>T*<span class="keyword">&gt;</span>(words) = val;</div>
+<div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;    DeviceWord words[DEVICE_MULTIPLE];</div>
 <div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;</div>
-<div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;    IterateThreadStore&lt;0, DEVICE_MULTIPLE&gt;::template Store&lt;CacheStoreModifier(MODIFIER)&gt;(</div>
-<div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;        <span class="keyword">reinterpret_cast&lt;</span>DeviceWord*<span class="keyword">&gt;</span>(ptr),</div>
-<div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;        words);</div>
-<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;}</div>
-<div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;</div>
-<div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;</div>
-<div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;<span class="keyword">template</span> &lt;CacheStoreModifier MODIFIER, <span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> T&gt;</div>
-<div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;__device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="group___util_io.html#ga336a7ab0ff431dd31fd8a5e31c1ae5fd" title="Thread utility for writing memory using cub::CacheStoreModifier cache modifiers. Can be used to store...">ThreadStore</a>(OutputIterator itr, T val)</div>
-<div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;{</div>
-<div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;    <a class="code" href="group___util_io.html#ga336a7ab0ff431dd31fd8a5e31c1ae5fd" title="Thread utility for writing memory using cub::CacheStoreModifier cache modifiers. Can be used to store...">ThreadStore</a>(</div>
-<div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;        itr,</div>
-<div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;        val,</div>
-<div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;        Int2Type&lt;MODIFIER&gt;(),</div>
-<div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;        Int2Type&lt;IsPointer&lt;OutputIterator&gt;::VALUE&gt;());</div>
-<div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;}</div>
-<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;</div>
-<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;</div>
+<div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;    *<span class="keyword">reinterpret_cast&lt;</span>T*<span class="keyword">&gt;</span>(words) = val;</div>
+<div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;</div>
+<div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;    IterateThreadStore&lt;0, DEVICE_MULTIPLE&gt;::template Store&lt;CacheStoreModifier(MODIFIER)&gt;(</div>
+<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;        <span class="keyword">reinterpret_cast&lt;</span>DeviceWord*<span class="keyword">&gt;</span>(ptr),</div>
+<div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;        words);</div>
+<div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;}</div>
+<div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;</div>
+<div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;</div>
+<div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;<span class="keyword">template</span> &lt;CacheStoreModifier MODIFIER, <span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> T&gt;</div>
+<div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;__device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="group___util_io.html#ga336a7ab0ff431dd31fd8a5e31c1ae5fd" title="Thread utility for writing memory using cub::CacheStoreModifier cache modifiers. Can be used to store...">ThreadStore</a>(OutputIterator itr, T val)</div>
+<div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;{</div>
+<div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;    <a class="code" href="group___util_io.html#ga336a7ab0ff431dd31fd8a5e31c1ae5fd" title="Thread utility for writing memory using cub::CacheStoreModifier cache modifiers. Can be used to store...">ThreadStore</a>(</div>
+<div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;        itr,</div>
+<div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;        val,</div>
+<div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;        Int2Type&lt;MODIFIER&gt;(),</div>
+<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;        Int2Type&lt;IsPointer&lt;OutputIterator&gt;::VALUE&gt;());</div>
+<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;}</div>
 <div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;</div>
-<div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;<span class="preprocessor">#endif // DOXYGEN_SHOULD_SKIP_THIS</span></div>
-<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;<span class="preprocessor"></span></div>
-<div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;       <span class="comment">// end group UtilIo</span></div>
-<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;</div>
-<div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;</div>
-<div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;}               <span class="comment">// CUB namespace</span></div>
-<div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;CUB_NS_POSTFIX  <span class="comment">// Optional outer namespace(s)</span></div>
+<div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;</div>
+<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;</div>
+<div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;<span class="preprocessor">#endif // DOXYGEN_SHOULD_SKIP_THIS</span></div>
+<div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;<span class="preprocessor"></span></div>
+<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;       <span class="comment">// end group UtilIo</span></div>
+<div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;</div>
+<div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;</div>
+<div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;}               <span class="comment">// CUB namespace</span></div>
+<div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;CUB_NS_POSTFIX  <span class="comment">// Optional outer namespace(s)</span></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/transform__input__iterator_8cuh.html b/docs/html/transform__input__iterator_8cuh.html
index 1356f2c50c..e05357789c 100644
--- a/docs/html/transform__input__iterator_8cuh.html
+++ b/docs/html/transform__input__iterator_8cuh.html
@@ -133,7 +133,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/transform__input__iterator_8cuh_source.html b/docs/html/transform__input__iterator_8cuh_source.html
index 347b13e44f..28adf74272 100644
--- a/docs/html/transform__input__iterator_8cuh_source.html
+++ b/docs/html/transform__input__iterator_8cuh_source.html
@@ -280,7 +280,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__allocator_8cuh_source.html b/docs/html/util__allocator_8cuh_source.html
index 5a126ad4a6..bff10c07dd 100644
--- a/docs/html/util__allocator_8cuh_source.html
+++ b/docs/html/util__allocator_8cuh_source.html
@@ -675,7 +675,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__arch_8cuh.html b/docs/html/util__arch_8cuh.html
index 05e4fbd28d..f4f02a641f 100644
--- a/docs/html/util__arch_8cuh.html
+++ b/docs/html/util__arch_8cuh.html
@@ -188,7 +188,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__arch_8cuh_source.html b/docs/html/util__arch_8cuh_source.html
index 9899f2bca8..8b95a6eaba 100644
--- a/docs/html/util__arch_8cuh_source.html
+++ b/docs/html/util__arch_8cuh_source.html
@@ -270,7 +270,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__debug_8cuh.html b/docs/html/util__debug_8cuh.html
index f070f7c415..515fe3f265 100644
--- a/docs/html/util__debug_8cuh.html
+++ b/docs/html/util__debug_8cuh.html
@@ -151,7 +151,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__debug_8cuh_source.html b/docs/html/util__debug_8cuh_source.html
index 6c05c0c1b9..52c1d2c361 100644
--- a/docs/html/util__debug_8cuh_source.html
+++ b/docs/html/util__debug_8cuh_source.html
@@ -188,7 +188,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__device_8cuh.html b/docs/html/util__device_8cuh.html
index 4e7dcc67d5..8e87c60625 100644
--- a/docs/html/util__device_8cuh.html
+++ b/docs/html/util__device_8cuh.html
@@ -142,7 +142,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__device_8cuh_source.html b/docs/html/util__device_8cuh_source.html
index b6de359b00..652680d3d8 100644
--- a/docs/html/util__device_8cuh_source.html
+++ b/docs/html/util__device_8cuh_source.html
@@ -413,7 +413,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__ptx_8cuh.html b/docs/html/util__ptx_8cuh.html
index 274c94fae5..ecdfb7f019 100644
--- a/docs/html/util__ptx_8cuh.html
+++ b/docs/html/util__ptx_8cuh.html
@@ -228,7 +228,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__ptx_8cuh_source.html b/docs/html/util__ptx_8cuh_source.html
index d38d24acd6..1ed517faa9 100644
--- a/docs/html/util__ptx_8cuh_source.html
+++ b/docs/html/util__ptx_8cuh_source.html
@@ -514,7 +514,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:29 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__type_8cuh.html b/docs/html/util__type_8cuh.html
index 9c1e9ac696..4dd099152c 100644
--- a/docs/html/util__type_8cuh.html
+++ b/docs/html/util__type_8cuh.html
@@ -182,7 +182,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/util__type_8cuh_source.html.REMOVED.git-id b/docs/html/util__type_8cuh_source.html.REMOVED.git-id
index 92c9a27cbf..913971646e 100644
--- a/docs/html/util__type_8cuh_source.html.REMOVED.git-id
+++ b/docs/html/util__type_8cuh_source.html.REMOVED.git-id
@@ -1 +1 @@
-dc4aa91876ad363c1904f266b038493ac3fa741a
\ No newline at end of file
+9bf38f8cdb2756a62c2088b15f6248c2c3bbfb35
\ No newline at end of file
diff --git a/docs/html/warp__reduce_8cuh.html b/docs/html/warp__reduce_8cuh.html
index 45b2d74353..f12fb74185 100644
--- a/docs/html/warp__reduce_8cuh.html
+++ b/docs/html/warp__reduce_8cuh.html
@@ -141,7 +141,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/warp__reduce_8cuh_source.html b/docs/html/warp__reduce_8cuh_source.html
index 3c93bc5b95..77a71d97f6 100644
--- a/docs/html/warp__reduce_8cuh_source.html
+++ b/docs/html/warp__reduce_8cuh_source.html
@@ -207,13 +207,13 @@
 <div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;    <span class="comment">/******************************************************************/</span></div>
 <div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div>
 <div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div>
-<div class="line"><a name="l00251"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a">  251</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a" title="Computes a warp-wide sum in each active warp. The output is valid in warp lane0. ">Sum</a>(</div>
+<div class="line"><a name="l00251"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a">  251</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#abe4aeeabf8859a7582a0b5858b84ee7a" title="Computes a warp-wide sum in the calling warp. The output is valid in warp lane0. ">Sum</a>(</div>
 <div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;        T                   input)              </div>
 <div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;    {</div>
 <div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;        <span class="keywordflow">return</span> InternalWarpReduce(temp_storage).Sum&lt;<span class="keyword">true</span>, 1&gt;(input, LOGICAL_WARP_THREADS);</div>
 <div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;    }</div>
 <div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;</div>
-<div class="line"><a name="l00295"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30">  295</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30" title="Computes a partially-full warp-wide sum in each active warp. The output is valid in warp lane0...">Sum</a>(</div>
+<div class="line"><a name="l00295"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30">  295</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#ad9c4a8d85a7795cf220713f362c36f30" title="Computes a partially-full warp-wide sum in the calling warp. The output is valid in warp lane0...">Sum</a>(</div>
 <div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;        T                   input,              </div>
 <div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;        <span class="keywordtype">int</span>                 valid_items)        </div>
 <div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;    {</div>
@@ -231,21 +231,21 @@
 <div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;</div>
 <div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;    <span class="keyword">template</span> &lt;</div>
 <div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;        <span class="keyword">typename</span>            Flag&gt;</div>
-<div class="line"><a name="l00351"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a11b16118606a582bf9ce011938873305">  351</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a11b16118606a582bf9ce011938873305" title="Computes a segmented sum in each active warp where segments are defined by head-flags. The sum of each segment is returned to the first lane in that segment (which always includes lane0). ">HeadSegmentedSum</a>(</div>
+<div class="line"><a name="l00351"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a11b16118606a582bf9ce011938873305">  351</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a11b16118606a582bf9ce011938873305" title="Computes a segmented sum in the calling warp where segments are defined by head-flags. The sum of each segment is returned to the first lane in that segment (which always includes lane0). ">HeadSegmentedSum</a>(</div>
 <div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;        T                   input,              </div>
 <div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;        Flag                head_flag)          </div>
 <div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;    {</div>
-<div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;        <span class="keywordflow">return</span> <a class="code" href="classcub_1_1_warp_reduce.html#a74291c266eaff04ad548f54af69756f8" title="Computes a segmented reduction in each active warp where segments are defined by head-flags. The reduction of each segment is returned to the first lane in that segment (which always includes lane0). ">HeadSegmentedReduce</a>(input, head_flag, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>());</div>
+<div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;        <span class="keywordflow">return</span> <a class="code" href="classcub_1_1_warp_reduce.html#a74291c266eaff04ad548f54af69756f8" title="Computes a segmented reduction in the calling warp where segments are defined by head-flags. The reduction of each segment is returned to the first lane in that segment (which always includes lane0). ">HeadSegmentedReduce</a>(input, head_flag, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>());</div>
 <div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;    }</div>
 <div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;</div>
 <div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;</div>
 <div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;    <span class="keyword">template</span> &lt;</div>
 <div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;        <span class="keyword">typename</span>            Flag&gt;</div>
-<div class="line"><a name="l00398"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a57747500b876173a6dcb113109306258">  398</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a57747500b876173a6dcb113109306258" title="Computes a segmented sum in each active warp where segments are defined by tail-flags. The sum of each segment is returned to the first lane in that segment (which always includes lane0). ">TailSegmentedSum</a>(</div>
+<div class="line"><a name="l00398"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a57747500b876173a6dcb113109306258">  398</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a57747500b876173a6dcb113109306258" title="Computes a segmented sum in the calling warp where segments are defined by tail-flags. The sum of each segment is returned to the first lane in that segment (which always includes lane0). ">TailSegmentedSum</a>(</div>
 <div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;        T                   input,              </div>
 <div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;        Flag                tail_flag)          </div>
 <div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;    {</div>
-<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;        <span class="keywordflow">return</span> <a class="code" href="classcub_1_1_warp_reduce.html#a1503c473a73c5dcfb3db5c11c2da4daa" title="Computes a segmented reduction in each active warp where segments are defined by tail-flags. The reduction of each segment is returned to the first lane in that segment (which always includes lane0). ">TailSegmentedReduce</a>(input, tail_flag, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>());</div>
+<div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;        <span class="keywordflow">return</span> <a class="code" href="classcub_1_1_warp_reduce.html#a1503c473a73c5dcfb3db5c11c2da4daa" title="Computes a segmented reduction in the calling warp where segments are defined by tail-flags. The reduction of each segment is returned to the first lane in that segment (which always includes lane0). ">TailSegmentedReduce</a>(input, tail_flag, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>());</div>
 <div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    }</div>
 <div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;</div>
 <div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;</div>
@@ -253,7 +253,7 @@
 <div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;    <span class="comment">/******************************************************************/</span></div>
 <div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;</div>
 <div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ReductionOp&gt;</div>
-<div class="line"><a name="l00452"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a0dd72fc4cf7e1ecf59e8b15bd6819185">  452</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a0dd72fc4cf7e1ecf59e8b15bd6819185" title="Computes a warp-wide reduction in each active warp using the specified binary reduction functor...">Reduce</a>(</div>
+<div class="line"><a name="l00452"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a0dd72fc4cf7e1ecf59e8b15bd6819185">  452</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a0dd72fc4cf7e1ecf59e8b15bd6819185" title="Computes a warp-wide reduction in the calling warp using the specified binary reduction functor...">Reduce</a>(</div>
 <div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;        T                   input,              </div>
 <div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;        ReductionOp         reduction_op)       </div>
 <div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;    {</div>
@@ -261,7 +261,7 @@
 <div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;    }</div>
 <div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;</div>
 <div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ReductionOp&gt;</div>
-<div class="line"><a name="l00501"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#ad1ecfeddf0e7fb3f359cf61b60f4745a">  501</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#ad1ecfeddf0e7fb3f359cf61b60f4745a" title="Computes a partially-full warp-wide reduction in each active warp using the specified binary reductio...">Reduce</a>(</div>
+<div class="line"><a name="l00501"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#ad1ecfeddf0e7fb3f359cf61b60f4745a">  501</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#ad1ecfeddf0e7fb3f359cf61b60f4745a" title="Computes a partially-full warp-wide reduction in the calling warp using the specified binary reductio...">Reduce</a>(</div>
 <div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;        T                   input,              </div>
 <div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;        ReductionOp         reduction_op,       </div>
 <div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;        <span class="keywordtype">int</span>                 valid_items)        </div>
@@ -281,7 +281,7 @@
 <div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;    <span class="keyword">template</span> &lt;</div>
 <div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;        <span class="keyword">typename</span>            ReductionOp,</div>
 <div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;        <span class="keyword">typename</span>            Flag&gt;</div>
-<div class="line"><a name="l00560"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a74291c266eaff04ad548f54af69756f8">  560</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a74291c266eaff04ad548f54af69756f8" title="Computes a segmented reduction in each active warp where segments are defined by head-flags. The reduction of each segment is returned to the first lane in that segment (which always includes lane0). ">HeadSegmentedReduce</a>(</div>
+<div class="line"><a name="l00560"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a74291c266eaff04ad548f54af69756f8">  560</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a74291c266eaff04ad548f54af69756f8" title="Computes a segmented reduction in the calling warp where segments are defined by head-flags. The reduction of each segment is returned to the first lane in that segment (which always includes lane0). ">HeadSegmentedReduce</a>(</div>
 <div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;        T                   input,              </div>
 <div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;        Flag                head_flag,          </div>
 <div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;        ReductionOp         reduction_op)       </div>
@@ -293,7 +293,7 @@
 <div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;    <span class="keyword">template</span> &lt;</div>
 <div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;        <span class="keyword">typename</span>            ReductionOp,</div>
 <div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;        <span class="keyword">typename</span>            Flag&gt;</div>
-<div class="line"><a name="l00611"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a1503c473a73c5dcfb3db5c11c2da4daa">  611</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a1503c473a73c5dcfb3db5c11c2da4daa" title="Computes a segmented reduction in each active warp where segments are defined by tail-flags. The reduction of each segment is returned to the first lane in that segment (which always includes lane0). ">TailSegmentedReduce</a>(</div>
+<div class="line"><a name="l00611"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_reduce.html#a1503c473a73c5dcfb3db5c11c2da4daa">  611</a></span>&#160;    __device__ __forceinline__ T <a class="code" href="classcub_1_1_warp_reduce.html#a1503c473a73c5dcfb3db5c11c2da4daa" title="Computes a segmented reduction in the calling warp where segments are defined by tail-flags. The reduction of each segment is returned to the first lane in that segment (which always includes lane0). ">TailSegmentedReduce</a>(</div>
 <div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;        T                   input,              </div>
 <div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;        Flag                tail_flag,          </div>
 <div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;        ReductionOp         reduction_op)       </div>
@@ -312,7 +312,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/warp__scan_8cuh.html b/docs/html/warp__scan_8cuh.html
index 61ff9420c6..81881d28ca 100644
--- a/docs/html/warp__scan_8cuh.html
+++ b/docs/html/warp__scan_8cuh.html
@@ -141,7 +141,7 @@
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:53 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/html/warp__scan_8cuh_source.html b/docs/html/warp__scan_8cuh_source.html
index 868a0f49a9..662332a033 100644
--- a/docs/html/warp__scan_8cuh_source.html
+++ b/docs/html/warp__scan_8cuh_source.html
@@ -202,32 +202,32 @@
 <div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    <span class="comment">/******************************************************************/</span></div>
 <div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div>
 <div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div>
-<div class="line"><a name="l00251"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233">  251</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum in each logical warp. ">InclusiveSum</a>(</div>
+<div class="line"><a name="l00251"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233">  251</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum across the calling warp. ">InclusiveSum</a>(</div>
 <div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;        T               input,              </div>
 <div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;        T               &amp;output)            </div>
 <div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    {</div>
-<div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;        InternalWarpScan(temp_storage).InclusiveSum(input, output);</div>
+<div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;        InternalWarpScan(temp_storage).InclusiveScan(input, output, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>());</div>
 <div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;    }</div>
 <div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div>
 <div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;</div>
-<div class="line"><a name="l00295"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a89402b341ee33c5e0a9941d1fc3a69dc">  295</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a89402b341ee33c5e0a9941d1fc3a69dc" title="Computes an inclusive prefix sum in each logical warp. Also provides every thread with the warp-wide ...">InclusiveSum</a>(</div>
+<div class="line"><a name="l00295"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a89402b341ee33c5e0a9941d1fc3a69dc">  295</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a89402b341ee33c5e0a9941d1fc3a69dc" title="Computes an inclusive prefix sum across the calling warp. Also provides every thread with the warp-wi...">InclusiveSum</a>(</div>
 <div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;        T               input,              </div>
 <div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;        T               &amp;output,            </div>
 <div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;        T               &amp;warp_aggregate)    </div>
 <div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;    {</div>
-<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;        InternalWarpScan(temp_storage).InclusiveSum(input, output, warp_aggregate);</div>
+<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;        InternalWarpScan(temp_storage).InclusiveScan(input, output, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>(), warp_aggregate);</div>
 <div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;    }</div>
 <div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;</div>
 <div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;</div>
 <div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
-<div class="line"><a name="l00380"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a5a89b9f8c7edebf6ec6e6c7a77fb10ba">  380</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a5a89b9f8c7edebf6ec6e6c7a77fb10ba" title="Computes an inclusive prefix sum in each logical warp. Instead of using 0 as the warp-wide prefix...">InclusiveSum</a>(</div>
+<div class="line"><a name="l00380"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a5a89b9f8c7edebf6ec6e6c7a77fb10ba">  380</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a5a89b9f8c7edebf6ec6e6c7a77fb10ba" title="Computes an inclusive prefix sum across the calling warp. Instead of using 0 as the warp-wide prefix...">InclusiveSum</a>(</div>
 <div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;        T                       input,              </div>
 <div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;        T                       &amp;output,            </div>
 <div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;        T                       &amp;warp_aggregate,    </div>
 <div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
 <div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;    {</div>
 <div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;        <span class="comment">// Compute inclusive warp scan</span></div>
-<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum in each logical warp. ">InclusiveSum</a>(input, output, warp_aggregate);</div>
+<div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum across the calling warp. ">InclusiveSum</a>(input, output, warp_aggregate);</div>
 <div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;</div>
 <div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;        <span class="comment">// Compute warp-wide prefix from aggregate, then broadcast to other lanes</span></div>
 <div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;        T prefix;</div>
@@ -241,240 +241,290 @@
 <div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;</div>
 <div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;<span class="keyword">private</span>:</div>
 <div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;</div>
-<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a> is_integer)</div>
+<div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">Sum</a>(T input, T &amp;inclusive_output, T &amp;exclusive_output, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;true&gt;</a> is_integer)</div>
 <div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;    {</div>
 <div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;        <span class="comment">// Compute exclusive warp scan from inclusive warp scan</span></div>
-<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;        T inclusive;</div>
-<div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum in each logical warp. ">InclusiveSum</a>(input, inclusive);</div>
-<div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;        output = inclusive - input;</div>
-<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;    }</div>
-<div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;</div>
-<div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, Int2Type&lt;false&gt; is_integer)</div>
-<div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;    {</div>
-<div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;        <span class="comment">// Delegate to regular scan for non-integer types (because we won&#39;t be able to use subtraction)</span></div>
-<div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;        T identity = ZeroInitialize&lt;T&gt;();</div>
-<div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(input, output, identity, Sum());</div>
-<div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;    }</div>
-<div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;</div>
-<div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, T &amp;warp_aggregate, Int2Type&lt;true&gt; is_integer)</div>
-<div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;    {</div>
-<div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;        <span class="comment">// Compute exclusive warp scan from inclusive warp scan</span></div>
-<div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;        T inclusive;</div>
-<div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum in each logical warp. ">InclusiveSum</a>(input, inclusive, warp_aggregate);</div>
-<div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;        output = inclusive - input;</div>
-<div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;    }</div>
-<div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;</div>
-<div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, T &amp;warp_aggregate, Int2Type&lt;false&gt; is_integer)</div>
-<div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;    {</div>
-<div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;        <span class="comment">// Delegate to regular scan for non-integer types (because we won&#39;t be able to use subtraction)</span></div>
-<div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;        T identity = ZeroInitialize&lt;T&gt;();</div>
-<div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(input, output, identity, Sum(), warp_aggregate);</div>
-<div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;    }</div>
-<div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;</div>
-<div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
-<div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, T &amp;warp_aggregate, WarpPrefixCallbackOp &amp;warp_prefix_op, Int2Type&lt;true&gt; is_integer)</div>
-<div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;    {</div>
-<div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;        <span class="comment">// Compute exclusive warp scan from inclusive warp scan</span></div>
-<div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;        T inclusive;</div>
-<div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum in each logical warp. ">InclusiveSum</a>(input, inclusive, warp_aggregate, warp_prefix_op);</div>
-<div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;        output = inclusive - input;</div>
-<div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;    }</div>
-<div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;</div>
-<div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
-<div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, T &amp;warp_aggregate, WarpPrefixCallbackOp &amp;warp_prefix_op, Int2Type&lt;false&gt; is_integer)</div>
-<div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;    {</div>
-<div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;        <span class="comment">// Delegate to regular scan for non-integer types (because we won&#39;t be able to use subtraction)</span></div>
-<div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;        T identity = ZeroInitialize&lt;T&gt;();</div>
-<div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(input, output, identity, Sum(), warp_aggregate, warp_prefix_op);</div>
-<div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;    }</div>
-<div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;</div>
-<div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;<span class="keyword">public</span>:</div>
-<div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;</div>
-<div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;</div>
-<div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;    <span class="comment">/******************************************************************/</span></div>
-<div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;</div>
-<div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;</div>
-<div class="line"><a name="l00503"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#ae65304a415bfa8d4c8c38871fff50903">  503</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#ae65304a415bfa8d4c8c38871fff50903" title="Computes an exclusive prefix sum in each logical warp. ">ExclusiveSum</a>(</div>
-<div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;        T               input,              </div>
-<div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;        T               &amp;output)            </div>
-<div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;    {</div>
-<div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;        ExclusiveSum(input, output, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_INTEGER&gt;</a>());</div>
-<div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;    }</div>
-<div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;</div>
-<div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;</div>
-<div class="line"><a name="l00550"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a51429741a6b14cb8b12e8118d958d976">  550</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a51429741a6b14cb8b12e8118d958d976" title="Computes an exclusive prefix sum in each logical warp. Also provides every thread with the warp-wide ...">ExclusiveSum</a>(</div>
-<div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;        T               input,              </div>
-<div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;        T               &amp;output,            </div>
-<div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;        T               &amp;warp_aggregate)    </div>
-<div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;    {</div>
-<div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;        ExclusiveSum(input, output, warp_aggregate, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_INTEGER&gt;</a>());</div>
-<div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;    }</div>
-<div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;</div>
-<div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;</div>
-<div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
-<div class="line"><a name="l00638"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a28bc23ef55cfdcb94819ef931544e2c6">  638</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a28bc23ef55cfdcb94819ef931544e2c6" title="Computes an exclusive prefix sum in each logical warp. Instead of using 0 as the warp-wide prefix...">ExclusiveSum</a>(</div>
-<div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;        T                       input,              </div>
-<div class="line"><a name="l00640"></a><span class="lineno">  640</span>&#160;        T                       &amp;output,            </div>
-<div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;        T                       &amp;warp_aggregate,    </div>
-<div class="line"><a name="l00642"></a><span class="lineno">  642</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
-<div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;    {</div>
-<div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;        ExclusiveSum(input, output, warp_aggregate, warp_prefix_op, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_INTEGER&gt;</a>());</div>
-<div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;    }</div>
-<div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;</div>
-<div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160;</div>
-<div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160;    <span class="comment">/******************************************************************/</span></div>
-<div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;</div>
-<div class="line"><a name="l00691"></a><span class="lineno">  691</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
-<div class="line"><a name="l00692"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#ae7cf1429e0d7d3895c40e6edbfe0ea48">  692</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#ae7cf1429e0d7d3895c40e6edbfe0ea48" title="Computes an inclusive prefix sum using the specified binary scan functor in each logical warp...">InclusiveScan</a>(</div>
-<div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;        T               input,              </div>
-<div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160;        T               &amp;output,            </div>
-<div class="line"><a name="l00695"></a><span class="lineno">  695</span>&#160;        ScanOp          scan_op)            </div>
-<div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;    {</div>
-<div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;        InternalWarpScan(temp_storage).InclusiveScan(input, output, scan_op);</div>
-<div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160;    }</div>
-<div class="line"><a name="l00699"></a><span class="lineno">  699</span>&#160;</div>
-<div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160;</div>
-<div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
-<div class="line"><a name="l00743"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#ae49afdc3dcafe6c12267bf714ceb7498">  743</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#ae49afdc3dcafe6c12267bf714ceb7498" title="Computes an inclusive prefix sum using the specified binary scan functor in each logical warp...">InclusiveScan</a>(</div>
-<div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160;        T               input,              </div>
-<div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160;        T               &amp;output,            </div>
-<div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;        ScanOp          scan_op,            </div>
-<div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;        T               &amp;warp_aggregate)    </div>
-<div class="line"><a name="l00748"></a><span class="lineno">  748</span>&#160;    {</div>
-<div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;        InternalWarpScan(temp_storage).InclusiveScan(input, output, scan_op, warp_aggregate);</div>
-<div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160;    }</div>
-<div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160;</div>
-<div class="line"><a name="l00752"></a><span class="lineno">  752</span>&#160;</div>
-<div class="line"><a name="l00830"></a><span class="lineno">  830</span>&#160;    <span class="keyword">template</span> &lt;</div>
-<div class="line"><a name="l00831"></a><span class="lineno">  831</span>&#160;        <span class="keyword">typename</span> ScanOp,</div>
-<div class="line"><a name="l00832"></a><span class="lineno">  832</span>&#160;        <span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
-<div class="line"><a name="l00833"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a3e56ff1cb1cc1e46eb80d2130b17157a">  833</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a3e56ff1cb1cc1e46eb80d2130b17157a" title="Computes an inclusive prefix sum using the specified binary scan functor in each logical warp...">InclusiveScan</a>(</div>
-<div class="line"><a name="l00834"></a><span class="lineno">  834</span>&#160;        T                       input,              </div>
-<div class="line"><a name="l00835"></a><span class="lineno">  835</span>&#160;        T                       &amp;output,            </div>
-<div class="line"><a name="l00836"></a><span class="lineno">  836</span>&#160;        ScanOp                  scan_op,            </div>
-<div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;        T                       &amp;warp_aggregate,    </div>
-<div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
-<div class="line"><a name="l00839"></a><span class="lineno">  839</span>&#160;    {</div>
-<div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;        <span class="comment">// Compute inclusive warp scan</span></div>
-<div class="line"><a name="l00841"></a><span class="lineno">  841</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#ae7cf1429e0d7d3895c40e6edbfe0ea48" title="Computes an inclusive prefix sum using the specified binary scan functor in each logical warp...">InclusiveScan</a>(input, output, scan_op, warp_aggregate);</div>
-<div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;</div>
-<div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;        <span class="comment">// Compute warp-wide prefix from aggregate, then broadcast to other lanes</span></div>
-<div class="line"><a name="l00844"></a><span class="lineno">  844</span>&#160;        T prefix;</div>
-<div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;        prefix = warp_prefix_op(warp_aggregate);</div>
-<div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;        prefix = InternalWarpScan(temp_storage).Broadcast(prefix, 0);</div>
-<div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;</div>
-<div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;        <span class="comment">// Update output</span></div>
-<div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;        output = scan_op(prefix, output);</div>
-<div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;    }</div>
-<div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;</div>
-<div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;</div>
-<div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum across the calling warp. ">InclusiveSum</a>(input, inclusive_output);</div>
+<div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;        exclusive_output = inclusive_output - input;</div>
+<div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;    }</div>
+<div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;</div>
+<div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> Sum(T input, T &amp;inclusive_output, T &amp;exclusive_output, Int2Type&lt;false&gt; is_integer)</div>
+<div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;    {</div>
+<div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;        <span class="comment">// Delegate to regular scan for non-integer types (because we won&#39;t be able to use subtraction)</span></div>
+<div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;        T identity = ZeroInitialize&lt;T&gt;();</div>
+<div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;        InternalWarpScan(temp_storage).Scan(input, inclusive_output, exclusive_output, identity, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>());</div>
+<div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;    }</div>
+<div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;</div>
+<div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, Int2Type&lt;true&gt; is_integer)</div>
+<div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;    {</div>
+<div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;        <span class="comment">// Compute exclusive warp scan from inclusive warp scan</span></div>
+<div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;        T inclusive;</div>
+<div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum across the calling warp. ">InclusiveSum</a>(input, inclusive);</div>
+<div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;        output = inclusive - input;</div>
+<div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;    }</div>
+<div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;</div>
+<div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, Int2Type&lt;false&gt; is_integer)</div>
+<div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;    {</div>
+<div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;        <span class="comment">// Delegate to regular scan for non-integer types (because we won&#39;t be able to use subtraction)</span></div>
+<div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;        T identity = ZeroInitialize&lt;T&gt;();</div>
+<div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(input, output, identity, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>());</div>
+<div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;    }</div>
+<div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;</div>
+<div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, T &amp;warp_aggregate, Int2Type&lt;true&gt; is_integer)</div>
+<div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;    {</div>
+<div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;        <span class="comment">// Compute exclusive warp scan from inclusive warp scan</span></div>
+<div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;        T inclusive;</div>
+<div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum across the calling warp. ">InclusiveSum</a>(input, inclusive, warp_aggregate);</div>
+<div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;        output = inclusive - input;</div>
+<div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;    }</div>
+<div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;</div>
+<div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, T &amp;warp_aggregate, Int2Type&lt;false&gt; is_integer)</div>
+<div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;    {</div>
+<div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;        <span class="comment">// Delegate to regular scan for non-integer types (because we won&#39;t be able to use subtraction)</span></div>
+<div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;        T identity = ZeroInitialize&lt;T&gt;();</div>
+<div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(input, output, identity, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>(), warp_aggregate);</div>
+<div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;    }</div>
+<div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;</div>
+<div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
+<div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, T &amp;warp_aggregate, WarpPrefixCallbackOp &amp;warp_prefix_op, Int2Type&lt;true&gt; is_integer)</div>
+<div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;    {</div>
+<div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;        <span class="comment">// Compute exclusive warp scan from inclusive warp scan</span></div>
+<div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;        T inclusive;</div>
+<div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a10ca8891d04473f6d80c74f66882c233" title="Computes an inclusive prefix sum across the calling warp. ">InclusiveSum</a>(input, inclusive, warp_aggregate, warp_prefix_op);</div>
+<div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;        output = inclusive - input;</div>
+<div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;    }</div>
+<div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;</div>
+<div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
+<div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> ExclusiveSum(T input, T &amp;output, T &amp;warp_aggregate, WarpPrefixCallbackOp &amp;warp_prefix_op, Int2Type&lt;false&gt; is_integer)</div>
+<div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;    {</div>
+<div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;        <span class="comment">// Delegate to regular scan for non-integer types (because we won&#39;t be able to use subtraction)</span></div>
+<div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;        T identity = ZeroInitialize&lt;T&gt;();</div>
+<div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(input, output, identity, <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">cub::Sum</a>(), warp_aggregate, warp_prefix_op);</div>
+<div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;    }</div>
+<div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;</div>
+<div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;<span class="keyword">public</span>:</div>
+<div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;</div>
+<div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;</div>
+<div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;</div>
+<div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;</div>
+<div class="line"><a name="l00519"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#ae65304a415bfa8d4c8c38871fff50903">  519</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#ae65304a415bfa8d4c8c38871fff50903" title="Computes an exclusive prefix sum across the calling warp. ">ExclusiveSum</a>(</div>
+<div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;        T               input,              </div>
+<div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;        T               &amp;output)            </div>
+<div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;    {</div>
+<div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;        ExclusiveSum(input, output, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_INTEGER&gt;</a>());</div>
+<div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;    }</div>
+<div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;</div>
+<div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;</div>
+<div class="line"><a name="l00566"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a51429741a6b14cb8b12e8118d958d976">  566</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a51429741a6b14cb8b12e8118d958d976" title="Computes an exclusive prefix sum across the calling warp. Also provides every thread with the warp-wi...">ExclusiveSum</a>(</div>
+<div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;        T               input,              </div>
+<div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;        T               &amp;output,            </div>
+<div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;        T               &amp;warp_aggregate)    </div>
+<div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;    {</div>
+<div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;        ExclusiveSum(input, output, warp_aggregate, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_INTEGER&gt;</a>());</div>
+<div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;    }</div>
+<div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;</div>
+<div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;</div>
+<div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
+<div class="line"><a name="l00654"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a28bc23ef55cfdcb94819ef931544e2c6">  654</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a28bc23ef55cfdcb94819ef931544e2c6" title="Computes an exclusive prefix sum across the calling warp. Instead of using 0 as the warp-wide prefix...">ExclusiveSum</a>(</div>
+<div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;        T                       input,              </div>
+<div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;        T                       &amp;output,            </div>
+<div class="line"><a name="l00657"></a><span class="lineno">  657</span>&#160;        T                       &amp;warp_aggregate,    </div>
+<div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
+<div class="line"><a name="l00659"></a><span class="lineno">  659</span>&#160;    {</div>
+<div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;        ExclusiveSum(input, output, warp_aggregate, warp_prefix_op, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_INTEGER&gt;</a>());</div>
+<div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;    }</div>
+<div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;</div>
+<div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160;</div>
+<div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;</div>
+<div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
+<div class="line"><a name="l00708"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#ae7cf1429e0d7d3895c40e6edbfe0ea48">  708</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#ae7cf1429e0d7d3895c40e6edbfe0ea48" title="Computes an inclusive prefix scan using the specified binary scan functor across the calling warp...">InclusiveScan</a>(</div>
+<div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;        T               input,              </div>
+<div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;        T               &amp;output,            </div>
+<div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;        ScanOp          scan_op)            </div>
+<div class="line"><a name="l00712"></a><span class="lineno">  712</span>&#160;    {</div>
+<div class="line"><a name="l00713"></a><span class="lineno">  713</span>&#160;        InternalWarpScan(temp_storage).InclusiveScan(input, output, scan_op);</div>
+<div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;    }</div>
+<div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;</div>
+<div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;</div>
+<div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
+<div class="line"><a name="l00759"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#ae49afdc3dcafe6c12267bf714ceb7498">  759</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#ae49afdc3dcafe6c12267bf714ceb7498" title="Computes an inclusive prefix scan using the specified binary scan functor across the calling warp...">InclusiveScan</a>(</div>
+<div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160;        T               input,              </div>
+<div class="line"><a name="l00761"></a><span class="lineno">  761</span>&#160;        T               &amp;output,            </div>
+<div class="line"><a name="l00762"></a><span class="lineno">  762</span>&#160;        ScanOp          scan_op,            </div>
+<div class="line"><a name="l00763"></a><span class="lineno">  763</span>&#160;        T               &amp;warp_aggregate)    </div>
+<div class="line"><a name="l00764"></a><span class="lineno">  764</span>&#160;    {</div>
+<div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;        InternalWarpScan(temp_storage).InclusiveScan(input, output, scan_op, warp_aggregate);</div>
+<div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;    }</div>
+<div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;</div>
+<div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160;</div>
+<div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;    <span class="keyword">template</span> &lt;</div>
+<div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;        <span class="keyword">typename</span> ScanOp,</div>
+<div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;        <span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
+<div class="line"><a name="l00849"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a3e56ff1cb1cc1e46eb80d2130b17157a">  849</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a3e56ff1cb1cc1e46eb80d2130b17157a" title="Computes an inclusive prefix scan using the specified binary scan functor across the calling warp...">InclusiveScan</a>(</div>
+<div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;        T                       input,              </div>
+<div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;        T                       &amp;output,            </div>
+<div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;        ScanOp                  scan_op,            </div>
+<div class="line"><a name="l00853"></a><span class="lineno">  853</span>&#160;        T                       &amp;warp_aggregate,    </div>
+<div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
+<div class="line"><a name="l00855"></a><span class="lineno">  855</span>&#160;    {</div>
+<div class="line"><a name="l00856"></a><span class="lineno">  856</span>&#160;        <span class="comment">// Compute inclusive warp scan</span></div>
+<div class="line"><a name="l00857"></a><span class="lineno">  857</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#ae7cf1429e0d7d3895c40e6edbfe0ea48" title="Computes an inclusive prefix scan using the specified binary scan functor across the calling warp...">InclusiveScan</a>(input, output, scan_op, warp_aggregate);</div>
 <div class="line"><a name="l00858"></a><span class="lineno">  858</span>&#160;</div>
-<div class="line"><a name="l00896"></a><span class="lineno">  896</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
-<div class="line"><a name="l00897"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a">  897</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(</div>
-<div class="line"><a name="l00898"></a><span class="lineno">  898</span>&#160;        T               input,              </div>
-<div class="line"><a name="l00899"></a><span class="lineno">  899</span>&#160;        T               &amp;output,            </div>
-<div class="line"><a name="l00900"></a><span class="lineno">  900</span>&#160;        T               identity,           </div>
-<div class="line"><a name="l00901"></a><span class="lineno">  901</span>&#160;        ScanOp          scan_op)            </div>
-<div class="line"><a name="l00902"></a><span class="lineno">  902</span>&#160;    {</div>
-<div class="line"><a name="l00903"></a><span class="lineno">  903</span>&#160;        InternalWarpScan(temp_storage).ExclusiveScan(input, output, identity, scan_op);</div>
-<div class="line"><a name="l00904"></a><span class="lineno">  904</span>&#160;    }</div>
-<div class="line"><a name="l00905"></a><span class="lineno">  905</span>&#160;</div>
-<div class="line"><a name="l00906"></a><span class="lineno">  906</span>&#160;</div>
-<div class="line"><a name="l00947"></a><span class="lineno">  947</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
-<div class="line"><a name="l00948"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a460cabefa9fce321b3f9673c9fbdb525">  948</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a460cabefa9fce321b3f9673c9fbdb525" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(</div>
-<div class="line"><a name="l00949"></a><span class="lineno">  949</span>&#160;        T               input,              </div>
-<div class="line"><a name="l00950"></a><span class="lineno">  950</span>&#160;        T               &amp;output,            </div>
-<div class="line"><a name="l00951"></a><span class="lineno">  951</span>&#160;        T               identity,           </div>
-<div class="line"><a name="l00952"></a><span class="lineno">  952</span>&#160;        ScanOp          scan_op,            </div>
-<div class="line"><a name="l00953"></a><span class="lineno">  953</span>&#160;        T               &amp;warp_aggregate)    </div>
-<div class="line"><a name="l00954"></a><span class="lineno">  954</span>&#160;    {</div>
-<div class="line"><a name="l00955"></a><span class="lineno">  955</span>&#160;        InternalWarpScan(temp_storage).ExclusiveScan(input, output, identity, scan_op, warp_aggregate);</div>
-<div class="line"><a name="l00956"></a><span class="lineno">  956</span>&#160;    }</div>
-<div class="line"><a name="l00957"></a><span class="lineno">  957</span>&#160;</div>
-<div class="line"><a name="l00958"></a><span class="lineno">  958</span>&#160;</div>
-<div class="line"><a name="l01036"></a><span class="lineno"> 1036</span>&#160;    <span class="keyword">template</span> &lt;</div>
-<div class="line"><a name="l01037"></a><span class="lineno"> 1037</span>&#160;        <span class="keyword">typename</span> ScanOp,</div>
-<div class="line"><a name="l01038"></a><span class="lineno"> 1038</span>&#160;        <span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
-<div class="line"><a name="l01039"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a3690d6ff828d1e1b5e21cad379ccb2d8"> 1039</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a3690d6ff828d1e1b5e21cad379ccb2d8" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(</div>
-<div class="line"><a name="l01040"></a><span class="lineno"> 1040</span>&#160;        T                       input,              </div>
-<div class="line"><a name="l01041"></a><span class="lineno"> 1041</span>&#160;        T                       &amp;output,            </div>
-<div class="line"><a name="l01042"></a><span class="lineno"> 1042</span>&#160;        T                       identity,           </div>
-<div class="line"><a name="l01043"></a><span class="lineno"> 1043</span>&#160;        ScanOp                  scan_op,            </div>
-<div class="line"><a name="l01044"></a><span class="lineno"> 1044</span>&#160;        T                       &amp;warp_aggregate,    </div>
-<div class="line"><a name="l01045"></a><span class="lineno"> 1045</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
-<div class="line"><a name="l01046"></a><span class="lineno"> 1046</span>&#160;    {</div>
-<div class="line"><a name="l01047"></a><span class="lineno"> 1047</span>&#160;        <span class="comment">// Exclusive warp scan</span></div>
-<div class="line"><a name="l01048"></a><span class="lineno"> 1048</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(input, output, identity, scan_op, warp_aggregate);</div>
-<div class="line"><a name="l01049"></a><span class="lineno"> 1049</span>&#160;</div>
-<div class="line"><a name="l01050"></a><span class="lineno"> 1050</span>&#160;        <span class="comment">// Compute warp-wide prefix from aggregate, then broadcast to other lanes</span></div>
-<div class="line"><a name="l01051"></a><span class="lineno"> 1051</span>&#160;        T prefix = warp_prefix_op(warp_aggregate);</div>
-<div class="line"><a name="l01052"></a><span class="lineno"> 1052</span>&#160;        prefix = InternalWarpScan(temp_storage).Broadcast(prefix, 0);</div>
-<div class="line"><a name="l01053"></a><span class="lineno"> 1053</span>&#160;</div>
-<div class="line"><a name="l01054"></a><span class="lineno"> 1054</span>&#160;        <span class="comment">// Update output</span></div>
-<div class="line"><a name="l01055"></a><span class="lineno"> 1055</span>&#160;        output = (lane_id == 0) ?</div>
-<div class="line"><a name="l01056"></a><span class="lineno"> 1056</span>&#160;            prefix :</div>
-<div class="line"><a name="l01057"></a><span class="lineno"> 1057</span>&#160;            scan_op(prefix, output);</div>
-<div class="line"><a name="l01058"></a><span class="lineno"> 1058</span>&#160;    }</div>
-<div class="line"><a name="l01059"></a><span class="lineno"> 1059</span>&#160;</div>
-<div class="line"><a name="l01060"></a><span class="lineno"> 1060</span>&#160;</div>
-<div class="line"><a name="l01062"></a><span class="lineno"> 1062</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00859"></a><span class="lineno">  859</span>&#160;        <span class="comment">// Compute warp-wide prefix from aggregate, then broadcast to other lanes</span></div>
+<div class="line"><a name="l00860"></a><span class="lineno">  860</span>&#160;        T prefix;</div>
+<div class="line"><a name="l00861"></a><span class="lineno">  861</span>&#160;        prefix = warp_prefix_op(warp_aggregate);</div>
+<div class="line"><a name="l00862"></a><span class="lineno">  862</span>&#160;        prefix = InternalWarpScan(temp_storage).Broadcast(prefix, 0);</div>
+<div class="line"><a name="l00863"></a><span class="lineno">  863</span>&#160;</div>
+<div class="line"><a name="l00864"></a><span class="lineno">  864</span>&#160;        <span class="comment">// Update output</span></div>
+<div class="line"><a name="l00865"></a><span class="lineno">  865</span>&#160;        output = scan_op(prefix, output);</div>
+<div class="line"><a name="l00866"></a><span class="lineno">  866</span>&#160;    }</div>
+<div class="line"><a name="l00867"></a><span class="lineno">  867</span>&#160;</div>
+<div class="line"><a name="l00868"></a><span class="lineno">  868</span>&#160;</div>
+<div class="line"><a name="l00870"></a><span class="lineno">  870</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l00874"></a><span class="lineno">  874</span>&#160;</div>
+<div class="line"><a name="l00912"></a><span class="lineno">  912</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
+<div class="line"><a name="l00913"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a">  913</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(</div>
+<div class="line"><a name="l00914"></a><span class="lineno">  914</span>&#160;        T               input,              </div>
+<div class="line"><a name="l00915"></a><span class="lineno">  915</span>&#160;        T               &amp;output,            </div>
+<div class="line"><a name="l00916"></a><span class="lineno">  916</span>&#160;        T               identity,           </div>
+<div class="line"><a name="l00917"></a><span class="lineno">  917</span>&#160;        ScanOp          scan_op)            </div>
+<div class="line"><a name="l00918"></a><span class="lineno">  918</span>&#160;    {</div>
+<div class="line"><a name="l00919"></a><span class="lineno">  919</span>&#160;        T inclusive_output;</div>
+<div class="line"><a name="l00920"></a><span class="lineno">  920</span>&#160;        InternalWarpScan(temp_storage).Scan(input, inclusive_output, output, identity, scan_op);</div>
+<div class="line"><a name="l00921"></a><span class="lineno">  921</span>&#160;    }</div>
+<div class="line"><a name="l00922"></a><span class="lineno">  922</span>&#160;</div>
+<div class="line"><a name="l00923"></a><span class="lineno">  923</span>&#160;</div>
+<div class="line"><a name="l00964"></a><span class="lineno">  964</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
+<div class="line"><a name="l00965"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a460cabefa9fce321b3f9673c9fbdb525">  965</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a460cabefa9fce321b3f9673c9fbdb525" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(</div>
+<div class="line"><a name="l00966"></a><span class="lineno">  966</span>&#160;        T               input,              </div>
+<div class="line"><a name="l00967"></a><span class="lineno">  967</span>&#160;        T               &amp;output,            </div>
+<div class="line"><a name="l00968"></a><span class="lineno">  968</span>&#160;        T               identity,           </div>
+<div class="line"><a name="l00969"></a><span class="lineno">  969</span>&#160;        ScanOp          scan_op,            </div>
+<div class="line"><a name="l00970"></a><span class="lineno">  970</span>&#160;        T               &amp;warp_aggregate)    </div>
+<div class="line"><a name="l00971"></a><span class="lineno">  971</span>&#160;    {</div>
+<div class="line"><a name="l00972"></a><span class="lineno">  972</span>&#160;        InternalWarpScan(temp_storage).ExclusiveScan(input, output, identity, scan_op, warp_aggregate);</div>
+<div class="line"><a name="l00973"></a><span class="lineno">  973</span>&#160;    }</div>
+<div class="line"><a name="l00974"></a><span class="lineno">  974</span>&#160;</div>
+<div class="line"><a name="l00975"></a><span class="lineno">  975</span>&#160;</div>
+<div class="line"><a name="l01053"></a><span class="lineno"> 1053</span>&#160;    <span class="keyword">template</span> &lt;</div>
+<div class="line"><a name="l01054"></a><span class="lineno"> 1054</span>&#160;        <span class="keyword">typename</span> ScanOp,</div>
+<div class="line"><a name="l01055"></a><span class="lineno"> 1055</span>&#160;        <span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
+<div class="line"><a name="l01056"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a3690d6ff828d1e1b5e21cad379ccb2d8"> 1056</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a3690d6ff828d1e1b5e21cad379ccb2d8" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(</div>
+<div class="line"><a name="l01057"></a><span class="lineno"> 1057</span>&#160;        T                       input,              </div>
+<div class="line"><a name="l01058"></a><span class="lineno"> 1058</span>&#160;        T                       &amp;output,            </div>
+<div class="line"><a name="l01059"></a><span class="lineno"> 1059</span>&#160;        T                       identity,           </div>
+<div class="line"><a name="l01060"></a><span class="lineno"> 1060</span>&#160;        ScanOp                  scan_op,            </div>
+<div class="line"><a name="l01061"></a><span class="lineno"> 1061</span>&#160;        T                       &amp;warp_aggregate,    </div>
+<div class="line"><a name="l01062"></a><span class="lineno"> 1062</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
+<div class="line"><a name="l01063"></a><span class="lineno"> 1063</span>&#160;    {</div>
+<div class="line"><a name="l01064"></a><span class="lineno"> 1064</span>&#160;        <span class="comment">// Exclusive warp scan</span></div>
+<div class="line"><a name="l01065"></a><span class="lineno"> 1065</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(input, output, identity, scan_op, warp_aggregate);</div>
 <div class="line"><a name="l01066"></a><span class="lineno"> 1066</span>&#160;</div>
-<div class="line"><a name="l01067"></a><span class="lineno"> 1067</span>&#160;</div>
-<div class="line"><a name="l01106"></a><span class="lineno"> 1106</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
-<div class="line"><a name="l01107"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#aaa70b8e943d8efafc8bc8f39b012a581"> 1107</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#aaa70b8e943d8efafc8bc8f39b012a581" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(</div>
-<div class="line"><a name="l01108"></a><span class="lineno"> 1108</span>&#160;        T               input,              </div>
-<div class="line"><a name="l01109"></a><span class="lineno"> 1109</span>&#160;        T               &amp;output,            </div>
-<div class="line"><a name="l01110"></a><span class="lineno"> 1110</span>&#160;        ScanOp          scan_op)            </div>
-<div class="line"><a name="l01111"></a><span class="lineno"> 1111</span>&#160;    {</div>
-<div class="line"><a name="l01112"></a><span class="lineno"> 1112</span>&#160;        InternalWarpScan(temp_storage).ExclusiveScan(input, output, scan_op);</div>
-<div class="line"><a name="l01113"></a><span class="lineno"> 1113</span>&#160;    }</div>
-<div class="line"><a name="l01114"></a><span class="lineno"> 1114</span>&#160;</div>
-<div class="line"><a name="l01115"></a><span class="lineno"> 1115</span>&#160;</div>
-<div class="line"><a name="l01156"></a><span class="lineno"> 1156</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
-<div class="line"><a name="l01157"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#afdf5e134de95f43d9c7749d6f1e22f2d"> 1157</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#afdf5e134de95f43d9c7749d6f1e22f2d" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(</div>
-<div class="line"><a name="l01158"></a><span class="lineno"> 1158</span>&#160;        T               input,              </div>
-<div class="line"><a name="l01159"></a><span class="lineno"> 1159</span>&#160;        T               &amp;output,            </div>
-<div class="line"><a name="l01160"></a><span class="lineno"> 1160</span>&#160;        ScanOp          scan_op,            </div>
-<div class="line"><a name="l01161"></a><span class="lineno"> 1161</span>&#160;        T               &amp;warp_aggregate)    </div>
-<div class="line"><a name="l01162"></a><span class="lineno"> 1162</span>&#160;    {</div>
-<div class="line"><a name="l01163"></a><span class="lineno"> 1163</span>&#160;        InternalWarpScan(temp_storage).ExclusiveScan(input, output, scan_op, warp_aggregate);</div>
-<div class="line"><a name="l01164"></a><span class="lineno"> 1164</span>&#160;    }</div>
-<div class="line"><a name="l01165"></a><span class="lineno"> 1165</span>&#160;</div>
-<div class="line"><a name="l01166"></a><span class="lineno"> 1166</span>&#160;</div>
-<div class="line"><a name="l01244"></a><span class="lineno"> 1244</span>&#160;    <span class="keyword">template</span> &lt;</div>
-<div class="line"><a name="l01245"></a><span class="lineno"> 1245</span>&#160;        <span class="keyword">typename</span> ScanOp,</div>
-<div class="line"><a name="l01246"></a><span class="lineno"> 1246</span>&#160;        <span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
-<div class="line"><a name="l01247"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a23b45f9e634fa4d39325630e168d23fb"> 1247</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a23b45f9e634fa4d39325630e168d23fb" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(</div>
-<div class="line"><a name="l01248"></a><span class="lineno"> 1248</span>&#160;        T                       input,              </div>
-<div class="line"><a name="l01249"></a><span class="lineno"> 1249</span>&#160;        T                       &amp;output,            </div>
-<div class="line"><a name="l01250"></a><span class="lineno"> 1250</span>&#160;        ScanOp                  scan_op,            </div>
-<div class="line"><a name="l01251"></a><span class="lineno"> 1251</span>&#160;        T                       &amp;warp_aggregate,    </div>
-<div class="line"><a name="l01252"></a><span class="lineno"> 1252</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
-<div class="line"><a name="l01253"></a><span class="lineno"> 1253</span>&#160;    {</div>
-<div class="line"><a name="l01254"></a><span class="lineno"> 1254</span>&#160;        <span class="comment">// Exclusive warp scan</span></div>
-<div class="line"><a name="l01255"></a><span class="lineno"> 1255</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor in each logical warp...">ExclusiveScan</a>(input, output, scan_op, warp_aggregate);</div>
-<div class="line"><a name="l01256"></a><span class="lineno"> 1256</span>&#160;</div>
-<div class="line"><a name="l01257"></a><span class="lineno"> 1257</span>&#160;        <span class="comment">// Compute warp-wide prefix from aggregate, then broadcast to other lanes</span></div>
-<div class="line"><a name="l01258"></a><span class="lineno"> 1258</span>&#160;        T prefix = warp_prefix_op(warp_aggregate);</div>
-<div class="line"><a name="l01259"></a><span class="lineno"> 1259</span>&#160;        prefix = InternalWarpScan(temp_storage).Broadcast(prefix, 0);</div>
-<div class="line"><a name="l01260"></a><span class="lineno"> 1260</span>&#160;</div>
-<div class="line"><a name="l01261"></a><span class="lineno"> 1261</span>&#160;        <span class="comment">// Update output with prefix</span></div>
-<div class="line"><a name="l01262"></a><span class="lineno"> 1262</span>&#160;        output = (lane_id == 0) ?</div>
-<div class="line"><a name="l01263"></a><span class="lineno"> 1263</span>&#160;            prefix :</div>
-<div class="line"><a name="l01264"></a><span class="lineno"> 1264</span>&#160;            scan_op(prefix, output);</div>
-<div class="line"><a name="l01265"></a><span class="lineno"> 1265</span>&#160;    }</div>
-<div class="line"><a name="l01266"></a><span class="lineno"> 1266</span>&#160;</div>
-<div class="line"><a name="l01268"></a><span class="lineno"> 1268</span>&#160;};</div>
-<div class="line"><a name="l01269"></a><span class="lineno"> 1269</span>&#160;       <span class="comment">// end group WarpModule</span></div>
-<div class="line"><a name="l01271"></a><span class="lineno"> 1271</span>&#160;</div>
-<div class="line"><a name="l01272"></a><span class="lineno"> 1272</span>&#160;}               <span class="comment">// CUB namespace</span></div>
-<div class="line"><a name="l01273"></a><span class="lineno"> 1273</span>&#160;CUB_NS_POSTFIX  <span class="comment">// Optional outer namespace(s)</span></div>
+<div class="line"><a name="l01067"></a><span class="lineno"> 1067</span>&#160;        <span class="comment">// Compute warp-wide prefix from aggregate, then broadcast to other lanes</span></div>
+<div class="line"><a name="l01068"></a><span class="lineno"> 1068</span>&#160;        T prefix = warp_prefix_op(warp_aggregate);</div>
+<div class="line"><a name="l01069"></a><span class="lineno"> 1069</span>&#160;        prefix = InternalWarpScan(temp_storage).Broadcast(prefix, 0);</div>
+<div class="line"><a name="l01070"></a><span class="lineno"> 1070</span>&#160;</div>
+<div class="line"><a name="l01071"></a><span class="lineno"> 1071</span>&#160;        <span class="comment">// Update output</span></div>
+<div class="line"><a name="l01072"></a><span class="lineno"> 1072</span>&#160;        output = (lane_id == 0) ?</div>
+<div class="line"><a name="l01073"></a><span class="lineno"> 1073</span>&#160;            prefix :</div>
+<div class="line"><a name="l01074"></a><span class="lineno"> 1074</span>&#160;            scan_op(prefix, output);</div>
+<div class="line"><a name="l01075"></a><span class="lineno"> 1075</span>&#160;    }</div>
+<div class="line"><a name="l01076"></a><span class="lineno"> 1076</span>&#160;</div>
+<div class="line"><a name="l01077"></a><span class="lineno"> 1077</span>&#160;</div>
+<div class="line"><a name="l01079"></a><span class="lineno"> 1079</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l01083"></a><span class="lineno"> 1083</span>&#160;</div>
+<div class="line"><a name="l01084"></a><span class="lineno"> 1084</span>&#160;</div>
+<div class="line"><a name="l01123"></a><span class="lineno"> 1123</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
+<div class="line"><a name="l01124"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#aaa70b8e943d8efafc8bc8f39b012a581"> 1124</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#aaa70b8e943d8efafc8bc8f39b012a581" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(</div>
+<div class="line"><a name="l01125"></a><span class="lineno"> 1125</span>&#160;        T               input,              </div>
+<div class="line"><a name="l01126"></a><span class="lineno"> 1126</span>&#160;        T               &amp;output,            </div>
+<div class="line"><a name="l01127"></a><span class="lineno"> 1127</span>&#160;        ScanOp          scan_op)            </div>
+<div class="line"><a name="l01128"></a><span class="lineno"> 1128</span>&#160;    {</div>
+<div class="line"><a name="l01129"></a><span class="lineno"> 1129</span>&#160;        T inclusive_output;</div>
+<div class="line"><a name="l01130"></a><span class="lineno"> 1130</span>&#160;        InternalWarpScan(temp_storage).Scan(input, inclusive_output, output, scan_op);</div>
+<div class="line"><a name="l01131"></a><span class="lineno"> 1131</span>&#160;    }</div>
+<div class="line"><a name="l01132"></a><span class="lineno"> 1132</span>&#160;</div>
+<div class="line"><a name="l01133"></a><span class="lineno"> 1133</span>&#160;</div>
+<div class="line"><a name="l01174"></a><span class="lineno"> 1174</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
+<div class="line"><a name="l01175"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#afdf5e134de95f43d9c7749d6f1e22f2d"> 1175</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#afdf5e134de95f43d9c7749d6f1e22f2d" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(</div>
+<div class="line"><a name="l01176"></a><span class="lineno"> 1176</span>&#160;        T               input,              </div>
+<div class="line"><a name="l01177"></a><span class="lineno"> 1177</span>&#160;        T               &amp;output,            </div>
+<div class="line"><a name="l01178"></a><span class="lineno"> 1178</span>&#160;        ScanOp          scan_op,            </div>
+<div class="line"><a name="l01179"></a><span class="lineno"> 1179</span>&#160;        T               &amp;warp_aggregate)    </div>
+<div class="line"><a name="l01180"></a><span class="lineno"> 1180</span>&#160;    {</div>
+<div class="line"><a name="l01181"></a><span class="lineno"> 1181</span>&#160;        InternalWarpScan(temp_storage).ExclusiveScan(input, output, scan_op, warp_aggregate);</div>
+<div class="line"><a name="l01182"></a><span class="lineno"> 1182</span>&#160;    }</div>
+<div class="line"><a name="l01183"></a><span class="lineno"> 1183</span>&#160;</div>
+<div class="line"><a name="l01184"></a><span class="lineno"> 1184</span>&#160;</div>
+<div class="line"><a name="l01262"></a><span class="lineno"> 1262</span>&#160;    <span class="keyword">template</span> &lt;</div>
+<div class="line"><a name="l01263"></a><span class="lineno"> 1263</span>&#160;        <span class="keyword">typename</span> ScanOp,</div>
+<div class="line"><a name="l01264"></a><span class="lineno"> 1264</span>&#160;        <span class="keyword">typename</span> WarpPrefixCallbackOp&gt;</div>
+<div class="line"><a name="l01265"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a23b45f9e634fa4d39325630e168d23fb"> 1265</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a23b45f9e634fa4d39325630e168d23fb" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(</div>
+<div class="line"><a name="l01266"></a><span class="lineno"> 1266</span>&#160;        T                       input,              </div>
+<div class="line"><a name="l01267"></a><span class="lineno"> 1267</span>&#160;        T                       &amp;output,            </div>
+<div class="line"><a name="l01268"></a><span class="lineno"> 1268</span>&#160;        ScanOp                  scan_op,            </div>
+<div class="line"><a name="l01269"></a><span class="lineno"> 1269</span>&#160;        T                       &amp;warp_aggregate,    </div>
+<div class="line"><a name="l01270"></a><span class="lineno"> 1270</span>&#160;        WarpPrefixCallbackOp    &amp;warp_prefix_op)    </div>
+<div class="line"><a name="l01271"></a><span class="lineno"> 1271</span>&#160;    {</div>
+<div class="line"><a name="l01272"></a><span class="lineno"> 1272</span>&#160;        <span class="comment">// Exclusive warp scan</span></div>
+<div class="line"><a name="l01273"></a><span class="lineno"> 1273</span>&#160;        <a class="code" href="classcub_1_1_warp_scan.html#a516f9ff0e402df4277f492db46aac78a" title="Computes an exclusive prefix scan using the specified binary scan functor across the calling warp...">ExclusiveScan</a>(input, output, scan_op, warp_aggregate);</div>
+<div class="line"><a name="l01274"></a><span class="lineno"> 1274</span>&#160;</div>
+<div class="line"><a name="l01275"></a><span class="lineno"> 1275</span>&#160;        <span class="comment">// Compute warp-wide prefix from aggregate, then broadcast to other lanes</span></div>
+<div class="line"><a name="l01276"></a><span class="lineno"> 1276</span>&#160;        T prefix = warp_prefix_op(warp_aggregate);</div>
+<div class="line"><a name="l01277"></a><span class="lineno"> 1277</span>&#160;        prefix = InternalWarpScan(temp_storage).Broadcast(prefix, 0);</div>
+<div class="line"><a name="l01278"></a><span class="lineno"> 1278</span>&#160;</div>
+<div class="line"><a name="l01279"></a><span class="lineno"> 1279</span>&#160;        <span class="comment">// Update output with prefix</span></div>
+<div class="line"><a name="l01280"></a><span class="lineno"> 1280</span>&#160;        output = (lane_id == 0) ?</div>
+<div class="line"><a name="l01281"></a><span class="lineno"> 1281</span>&#160;            prefix :</div>
+<div class="line"><a name="l01282"></a><span class="lineno"> 1282</span>&#160;            scan_op(prefix, output);</div>
+<div class="line"><a name="l01283"></a><span class="lineno"> 1283</span>&#160;    }</div>
+<div class="line"><a name="l01284"></a><span class="lineno"> 1284</span>&#160;</div>
+<div class="line"><a name="l01286"></a><span class="lineno"> 1286</span>&#160;    <span class="comment">/******************************************************************/</span></div>
+<div class="line"><a name="l01290"></a><span class="lineno"> 1290</span>&#160;</div>
+<div class="line"><a name="l01333"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a25bd83f795e88b9260ec2bcbf846fb20"> 1333</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a25bd83f795e88b9260ec2bcbf846fb20" title="Computes both inclusive and exclusive prefix sums across the calling warp. ">Sum</a>(</div>
+<div class="line"><a name="l01334"></a><span class="lineno"> 1334</span>&#160;        T               input,              </div>
+<div class="line"><a name="l01335"></a><span class="lineno"> 1335</span>&#160;        T               &amp;inclusive_output,  </div>
+<div class="line"><a name="l01336"></a><span class="lineno"> 1336</span>&#160;        T               &amp;exclusive_output)  </div>
+<div class="line"><a name="l01337"></a><span class="lineno"> 1337</span>&#160;    {</div>
+<div class="line"><a name="l01338"></a><span class="lineno"> 1338</span>&#160;        <a class="code" href="structcub_1_1_sum.html" title="Default sum functor. ">Sum</a>(input, inclusive_output, exclusive_output, <a class="code" href="structcub_1_1_int2_type.html" title="Allows for the treatment of an integral constant as a type at compile-time (e.g., to achieve static c...">Int2Type&lt;IS_INTEGER&gt;</a>());</div>
+<div class="line"><a name="l01339"></a><span class="lineno"> 1339</span>&#160;    }</div>
+<div class="line"><a name="l01340"></a><span class="lineno"> 1340</span>&#160;</div>
+<div class="line"><a name="l01341"></a><span class="lineno"> 1341</span>&#160;</div>
+<div class="line"><a name="l01382"></a><span class="lineno"> 1382</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
+<div class="line"><a name="l01383"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a32a247bea83254e7c3f3ae4ed8a1d5c7"> 1383</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a32a247bea83254e7c3f3ae4ed8a1d5c7" title="Computes both inclusive and exclusive prefix scans using the specified binary scan functor across the...">Scan</a>(</div>
+<div class="line"><a name="l01384"></a><span class="lineno"> 1384</span>&#160;        T               input,              </div>
+<div class="line"><a name="l01385"></a><span class="lineno"> 1385</span>&#160;        T               &amp;inclusive_output,  </div>
+<div class="line"><a name="l01386"></a><span class="lineno"> 1386</span>&#160;        T               &amp;exclusive_output,  </div>
+<div class="line"><a name="l01387"></a><span class="lineno"> 1387</span>&#160;        T               identity,           </div>
+<div class="line"><a name="l01388"></a><span class="lineno"> 1388</span>&#160;        ScanOp          scan_op)            </div>
+<div class="line"><a name="l01389"></a><span class="lineno"> 1389</span>&#160;    {</div>
+<div class="line"><a name="l01390"></a><span class="lineno"> 1390</span>&#160;        InternalWarpScan(temp_storage).Scan(input, inclusive_output, exclusive_output, identity, scan_op);</div>
+<div class="line"><a name="l01391"></a><span class="lineno"> 1391</span>&#160;    }</div>
+<div class="line"><a name="l01392"></a><span class="lineno"> 1392</span>&#160;</div>
+<div class="line"><a name="l01393"></a><span class="lineno"> 1393</span>&#160;</div>
+<div class="line"><a name="l01434"></a><span class="lineno"> 1434</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScanOp&gt;</div>
+<div class="line"><a name="l01435"></a><span class="lineno"><a class="code" href="classcub_1_1_warp_scan.html#a3266a375b79e44f77087cec512e0c1a3"> 1435</a></span>&#160;    __device__ __forceinline__ <span class="keywordtype">void</span> <a class="code" href="classcub_1_1_warp_scan.html#a3266a375b79e44f77087cec512e0c1a3" title="Computes both inclusive and exclusive prefix scans using the specified binary scan functor across the...">Scan</a>(</div>
+<div class="line"><a name="l01436"></a><span class="lineno"> 1436</span>&#160;        T               input,              </div>
+<div class="line"><a name="l01437"></a><span class="lineno"> 1437</span>&#160;        T               &amp;inclusive_output,  </div>
+<div class="line"><a name="l01438"></a><span class="lineno"> 1438</span>&#160;        T               &amp;exclusive_output,  </div>
+<div class="line"><a name="l01439"></a><span class="lineno"> 1439</span>&#160;        ScanOp          scan_op)            </div>
+<div class="line"><a name="l01440"></a><span class="lineno"> 1440</span>&#160;    {</div>
+<div class="line"><a name="l01441"></a><span class="lineno"> 1441</span>&#160;        InternalWarpScan(temp_storage).Scan(input, inclusive_output, exclusive_output, scan_op);</div>
+<div class="line"><a name="l01442"></a><span class="lineno"> 1442</span>&#160;    }</div>
+<div class="line"><a name="l01443"></a><span class="lineno"> 1443</span>&#160;</div>
+<div class="line"><a name="l01444"></a><span class="lineno"> 1444</span>&#160;</div>
+<div class="line"><a name="l01446"></a><span class="lineno"> 1446</span>&#160;};</div>
+<div class="line"><a name="l01447"></a><span class="lineno"> 1447</span>&#160;       <span class="comment">// end group WarpModule</span></div>
+<div class="line"><a name="l01449"></a><span class="lineno"> 1449</span>&#160;</div>
+<div class="line"><a name="l01450"></a><span class="lineno"> 1450</span>&#160;}               <span class="comment">// CUB namespace</span></div>
+<div class="line"><a name="l01451"></a><span class="lineno"> 1451</span>&#160;CUB_NS_POSTFIX  <span class="comment">// Optional outer namespace(s)</span></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- HTML footer for doxygen 1.8.3.1-->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Mon May 12 2014 17:09:52 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Thu May 22 2014 16:10:30 for CUB by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.4
 <br>
diff --git a/docs/mainpage.dox b/docs/mainpage.dox
index f5d7c99266..e0ecaa2c06 100644
--- a/docs/mainpage.dox
+++ b/docs/mainpage.dox
@@ -58,7 +58,7 @@
 
 <a href="download_cub.html"><img src="download-icon.png" style="position:relative; bottom:-10px; border:0px;"/></a>
 &nbsp;&nbsp;
-<a href="download_cub.html"><em><b>Download CUB v1.3.0</b></em></a>
+<a href="download_cub.html"><em><b>Download CUB v1.3.1</b></em></a>
 
 </td><td>
 
@@ -510,39 +510,54 @@ for many of the algorithmic techniques used by CUB.
 <table>
 
 <tr><td style="white-space: nowrap; vertical-align:text-top;">
-05/12/2014<br>
-[<b>CUB v1.3.0</b>](download_cub.html)
+05/22/2014<br>
+<b>CUB v1.3.1</b>
 </td><td style="vertical-align:text-top;">
   - New features:
-  	- CUB's collective (block-wide, warp-wide) primitives underwent a minor 
-  	  interface refactoring:
-   	    - To provide the appropriate support for multidimensional thread blocks,
-   	      The interfaces for collective classes are now template-parameterized 
-   	      by X, Y, and Z block dimensions (with \p BLOCK_DIM_Y and \p BLOCK_DIM_Z being 
-   	      optional, and \p BLOCK_DIM_X replacing \p BLOCK_THREADS).  Furthermore, the 
-   	      constructors that accept remapped linear thread-identifiers have been 
-   	      removed: all primitives now assume a row-major thread-ranking for 
-   	      multidimensional thread blocks.  
-   	    - To allow the host program (compiled by the host-pass) to 
-   	      accurately determine the device-specific storage requirements for 
-   	      a given collective (compiled for each device-pass), the interfaces 
-   	      for collective classes are now (optionally) template-parameterized 
-   	      by the desired PTX compute capability. This is useful when 
-   	      aliasing collective storage to shared memory that has been 
-   	      allocated dynamically by the host at the kernel call site.   
-   	    - Most CUB programs having typical 1D usage should not require any 
-   	      changes to accomodate these updates.
+    - Added new "combination scan" methods to cub::WarpScan for efficiently computing 
+      both inclusive and exclusive prefix scans (and sums).
   - Bug fixes: 
-    - Fixed bug in cub::WarpScan (which affected cub::BlockScan and 
-      cub::DeviceScan) where incorrect results (e.g., NAN) would often be 
-      returned when parameterized for floating-point types (fp32, fp64).
-    - Workaround-fix for ptxas error when compiling with with -G flag on Linux 
-      (for debug instrumentation) 
-    - Misc. workaround-fixes for certain scan scenarios (using custom 
-      scan operators) where code compiled for SM1x is run on newer 
-      GPUs of higher compute-capability: the compiler could not tell
-      which memory space was being used collective operations and was 
-      mistakenly using global ops instead of shared ops. 
+    - Workaround for a benign WAW race warning reported by cuda-memcheck
+      in cub::BlockScan specialized for cub::BLOCK_SCAN_WARP_SCANS algorithm.
+    - Fix for bug in cub::DeviceRadixSort where the algorithm may sort more 
+      key bits than the caller specified (up to the nearest radix digit).
+    - Fix for a cub::DeviceRadixSort performance regression (~3%) on Kepler and 
+      Fermi that was introduced in v1.3.0.  
+  - See the [change-log](CHANGE_LOG.TXT) for further details, including bug-fixes
+</td></tr>
+
+<tr><td style="white-space: nowrap; vertical-align:text-top;">
+05/12/2014<br>
+[<b>CUB v1.3.0</b>](download_cub.html)
+</td><td style="vertical-align:text-top;">
+  - CUB's collective (block-wide, warp-wide) primitives underwent a minor 
+    interface refactoring:
+   	- To provide the appropriate support for multidimensional thread blocks,
+   	  The interfaces for collective classes are now template-parameterized 
+   	  by X, Y, and Z block dimensions (with \p BLOCK_DIM_Y and \p BLOCK_DIM_Z being 
+   	  optional, and \p BLOCK_DIM_X replacing \p BLOCK_THREADS).  Furthermore, the 
+   	  constructors that accept remapped linear thread-identifiers have been 
+   	  removed: all primitives now assume a row-major thread-ranking for 
+   	  multidimensional thread blocks.  
+    - To allow the host program (compiled by the host-pass) to 
+      accurately determine the device-specific storage requirements for 
+   	  a given collective (compiled for each device-pass), the interfaces 
+   	  for collective classes are now (optionally) template-parameterized 
+   	  by the desired PTX compute capability. This is useful when 
+   	  aliasing collective storage to shared memory that has been 
+   	  allocated dynamically by the host at the kernel call site.   
+    - Most CUB programs having typical 1D usage should not require any 
+      changes to accomodate these updates.
+  - Fixed bug in cub::WarpScan (which affected cub::BlockScan and 
+    cub::DeviceScan) where incorrect results (e.g., NAN) would often be 
+    returned when parameterized for floating-point types (fp32, fp64).
+  - Workaround-fix for ptxas error when compiling with with -G flag on Linux 
+    (for debug instrumentation) 
+  - Misc. workaround-fixes for certain scan scenarios (using custom 
+    scan operators) where code compiled for SM1x is run on newer 
+    GPUs of higher compute-capability: the compiler could not tell
+    which memory space was being used collective operations and was 
+    mistakenly using global ops instead of shared ops. 
   - See the [change-log](CHANGE_LOG.TXT) for further details
 </td></tr>
 
diff --git a/test/Makefile b/test/Makefile
index fdf915bd89..f907b0bd9d 100644
--- a/test/Makefile
+++ b/test/Makefile
@@ -258,6 +258,7 @@ ALL = 				link \
 				 	test_device_reduce \
 			 		test_device_histogram \
 			 		test_device_scan \
+			 		test_device_radix_sort \
 					test_device_reduce_by_key\
 		 			test_device_select_unique \
 					test_device_select_flagged \
@@ -288,7 +289,7 @@ clean :
 # make all
 #-------------------------------------------------------------------------------
 
-all : $(ALL) test_device_radix_sort
+all : $(ALL)
 
 
 #-------------------------------------------------------------------------------
diff --git a/test/test_device_radix_sort.cu b/test/test_device_radix_sort.cu
index 2bd0324f7d..aab8291715 100644
--- a/test/test_device_radix_sort.cu
+++ b/test/test_device_radix_sort.cu
@@ -55,7 +55,6 @@ using namespace cub;
 bool                    g_verbose           = false;
 int                     g_timing_iterations = 0;
 int                     g_repeat            = 0;
-int                     g_bits              = -1;
 CachingDeviceAllocator  g_allocator(true);
 
 //---------------------------------------------------------------------
@@ -325,24 +324,15 @@ struct Pair<Key, Value, true>
 
 
 /**
- * Initialize key-value sorting problem.
+ * Initialize key data
  */
-template <int DESCENDING, typename Key, typename Value>
-void Initialize(
+template <typename Key>
+void InitializeKeyBits(
     GenMode         gen_mode,
     Key             *h_keys,
-    Value           *h_values,
-    Key             **h_reference_keys,
-    Value           **h_reference_values,
     int             num_items,
-    int             entropy_reduction,
-    int             begin_bit,
-    int             end_bit)
+    int             entropy_reduction)
 {
-    const bool KEYS_ONLY = Equals<Value, NullType>::VALUE;
-
-    Pair<Key, Value> *h_pairs = new Pair<Key, Value>[num_items];
-
     for (int i = 0; i < num_items; ++i)
     {
         if (gen_mode == RANDOM) {
@@ -352,51 +342,48 @@ void Initialize(
         } else {
             h_keys[i] = i;
         }
+    }
+}
 
-        if (h_values != NULL)
-            RandomBits(h_values[i]);
+/**
+ * Initialize solution
+ */
+template <bool DESCENDING, typename Key>
+void InitializeSolution(
+    Key     *h_keys,
+    int     num_items,
+    int     begin_bit,
+    int     end_bit,
+    int     *&h_reference_ranks,
+    Key     *&h_reference_keys)
+{
+    Pair<Key, int> *h_pairs = new Pair<Key, int>[num_items];
 
+    int num_bits = end_bit - begin_bit;
+    for (int i = 0; i < num_items; ++i)
+    {
         // Mask off unwanted portions
-        int num_bits = end_bit - begin_bit;
-        if ((begin_bit > 0) || (end_bit < sizeof(Key) * 8))
-        {
-            unsigned long long base = 0;
-            memcpy(&base, &h_keys[i], sizeof(Key));
-            base &= ((1ull << num_bits) - 1) << begin_bit;
-            memcpy(&h_keys[i], &base, sizeof(Key));
-        }
+        unsigned long long base = 0;
+        memcpy(&base, &h_keys[i], sizeof(Key));
+        base &= ((1ull << num_bits) - 1) << begin_bit;
+        memcpy(&h_pairs[i].key, &base, sizeof(Key));
 
-        h_pairs[i].key    = h_keys[i];
-        h_pairs[i].value  = h_values[i];
+        h_pairs[i].value = i;
     }
 
-    if (g_verbose)
-    {
-        printf("Input keys:\n");
-        DisplayResults(h_keys, num_items);
-        printf("\n\n");
-        if (!KEYS_ONLY)
-        {
-            printf("Input values:\n");
-            DisplayResults(h_values, num_items);
-            printf("\n\n");
-        }
-    }
-
-
+    printf("\nSorting reference solution on CPU..."); fflush(stdout);
     if (DESCENDING) std::reverse(h_pairs, h_pairs + num_items);
     std::stable_sort(h_pairs, h_pairs + num_items);
     if (DESCENDING) std::reverse(h_pairs, h_pairs + num_items);
+    printf(" Done.\n"); fflush(stdout);
 
-    *h_reference_keys   = new Key[num_items];
-    *h_reference_values = (KEYS_ONLY) ? NULL : new Value[num_items];
+    h_reference_ranks  = new int[num_items];
+    h_reference_keys   = new Key[num_items];
 
     for (int i = 0; i < num_items; ++i)
     {
-        (*h_reference_keys)[i]     = h_pairs[i].key;
-
-        if ((*h_reference_values) != NULL)
-            (*h_reference_values)[i]   = h_pairs[i].value;
+        h_reference_ranks[i]    = h_pairs[i].value;
+        h_reference_keys[i]     = h_keys[h_pairs[i].value];
     }
 
     delete[] h_pairs;
@@ -404,54 +391,38 @@ void Initialize(
 
 
 
-
 /**
  * Test DeviceRadixSort
  */
 template <
-    Backend         BACKEND,
-    typename        Key,
-    typename        Value,
-    bool            DESCENDING>
+    Backend     BACKEND,
+    bool        DESCENDING,
+    typename    Key,
+    typename    Value>
 void Test(
-    int             num_items,
-    GenMode         gen_mode,
-    int             entropy_reduction,
-    int             begin_bit,
-    int             end_bit,
-    char*           type_string)
+    Key         *h_keys,
+    Value       *h_values,
+    int         num_items,
+    int         begin_bit,
+    int         end_bit,
+    Key         *h_reference_keys,
+    Value       *h_reference_values)
 {
     const bool KEYS_ONLY = Equals<Value, NullType>::VALUE;
 
-    if (end_bit < 0) end_bit = sizeof(Key) * 8;
-
-    printf("%s %s cub::DeviceRadixSort %d items, %s %d-byte keys %d-byte values, gen-mode %s, descending %d, entropy_reduction %d, begin_bit %d, end_bit %d\n",
+    printf("%s %s cub::DeviceRadixSort %d items, %d-byte keys %d-byte values, descending %d, begin_bit %d, end_bit %d\n",
         (BACKEND == CDP) ? "CDP CUB" : (BACKEND == THRUST) ? "Thrust" : "CUB",
         (KEYS_ONLY) ? "keys-only" : "key-value",
-        num_items, type_string,
-        (int) sizeof(Key), (KEYS_ONLY) ? 0 : (int) sizeof(Value),
-        (gen_mode == RANDOM) ? "RANDOM" : (gen_mode == INTEGER_SEED) ? "SEQUENTIAL" : "HOMOGENOUS",
-        DESCENDING, entropy_reduction, begin_bit, end_bit);
+        num_items, (int) sizeof(Key), (KEYS_ONLY) ? 0 : (int) sizeof(Value),
+        DESCENDING, begin_bit, end_bit);
     fflush(stdout);
 
-    // Allocate host arrays
-    Key     *h_keys             = new Key[num_items];
-    Value   *h_values           = (KEYS_ONLY) ? NULL : new Value[num_items];
-
-    Key     *h_reference_keys;
-    Value   *h_reference_values;
-
-    // Initialize problem and solution on host
-    Initialize<DESCENDING>(
-        gen_mode,
-        h_keys,
-        h_values,
-        &h_reference_keys,
-        &h_reference_values,
-        num_items,
-        entropy_reduction,
-        begin_bit,
-        end_bit);
+    if (g_verbose)
+    {
+        printf("Input keys:\n");
+        DisplayResults(h_keys, num_items);
+        printf("\n\n");
+    }
 
     // Allocate device arrays
     DoubleBuffer<Key>   d_keys;
@@ -488,21 +459,25 @@ void Test(
     // Run warmup/correctness iteration
     CubDebugExit(Dispatch(Int2Type<DESCENDING>(), Int2Type<BACKEND>(), d_selector, d_temp_storage_bytes, d_cdp_error, d_temp_storage, temp_storage_bytes, d_keys, d_values, num_items, begin_bit, end_bit, 0, true));
 
+    // Flush any stdout/stderr
+    fflush(stdout);
+    fflush(stderr);
+
     // Check for correctness (and display results, if specified)
+    printf("Warmup done.  Checking results:\n"); fflush(stdout);
     int compare = CompareDeviceResults(h_reference_keys, d_keys.Current(), num_items, true, g_verbose);
-    printf("\t Compare keys (selector %d): %s ", d_keys.selector, compare ? "FAIL" : "PASS");
+    printf("\t Compare keys (selector %d): %s ", d_keys.selector, compare ? "FAIL" : "PASS"); fflush(stdout);
     if (!KEYS_ONLY)
     {
         int values_compare = CompareDeviceResults(h_reference_values, d_values.Current(), num_items, true, g_verbose);
         compare |= values_compare;
-        printf("\t Compare values (selector %d): %s ", d_values.selector, values_compare ? "FAIL" : "PASS");
+        printf("\t Compare values (selector %d): %s ", d_values.selector, values_compare ? "FAIL" : "PASS"); fflush(stdout);
     }
 
-    // Flush any stdout/stderr
-    fflush(stdout);
-    fflush(stderr);
-
     // Performance
+    if (g_timing_iterations)
+        printf("\nPerforming timing iterations:\n"); fflush(stdout);
+
     GpuTimer gpu_timer;
     float elapsed_millis = 0.0f;
     for (int i = 0; i < g_timing_iterations; ++i)
@@ -536,11 +511,6 @@ void Test(
     printf("\n\n");
 
     // Cleanup
-    if (h_keys) delete[] h_keys;
-    if (h_reference_keys) delete[] h_reference_keys;
-    if (h_values) delete[] h_values;
-    if (h_reference_values) delete[] h_reference_values;
-
     if (d_keys.d_buffers[0]) CubDebugExit(g_allocator.DeviceFree(d_keys.d_buffers[0]));
     if (d_keys.d_buffers[1]) CubDebugExit(g_allocator.DeviceFree(d_keys.d_buffers[1]));
     if (d_values.d_buffers[0]) CubDebugExit(g_allocator.DeviceFree(d_values.d_buffers[0]));
@@ -554,119 +524,229 @@ void Test(
     AssertEquals(0, compare);
 }
 
+
+/**
+ * Test backend
+ */
+template <bool DESCENDING, typename Key, typename Value>
+void TestBackend(
+    Key     *h_keys,
+    int     num_items,
+    int     begin_bit,
+    int     end_bit,
+    Key     *h_reference_keys,
+    int     *h_reference_ranks)
+{
+    const bool KEYS_ONLY = Equals<Value, NullType>::VALUE;
+
+    Value *h_values             = NULL;
+    Value *h_reference_values   = NULL;
+
+    if (!KEYS_ONLY)
+    {
+        h_values            = new Value[num_items];
+        h_reference_values  = new Value[num_items];
+
+        for (int i = 0; i < num_items; ++i)
+        {
+            InitValue(INTEGER_SEED, h_values[i], i);
+            InitValue(INTEGER_SEED, h_reference_values[i], h_reference_ranks[i]);
+        }
+    }
+
+    Test<CUB, DESCENDING>(h_keys, h_values, num_items, begin_bit, end_bit, h_reference_keys, h_reference_values);
+#ifdef CUB_CDP
+    Test<CDP, DESCENDING>(h_keys, h_values, num_items, begin_bit, end_bit, h_reference_keys, h_reference_values);
+#endif
+
+    if (h_values) delete[] h_values;
+    if (h_reference_values) delete[] h_reference_values;
+}
+
+
+
+
+/**
+ * Test value type
+ */
+template <bool DESCENDING, typename Key>
+void TestValueTypes(
+    Key     *h_keys,
+    int     num_items,
+    int     begin_bit,
+    int     end_bit)
+{
+    // Initialize the solution
+
+    int *h_reference_ranks = NULL;
+    Key *h_reference_keys = NULL;
+    InitializeSolution<DESCENDING>(h_keys, num_items, begin_bit, end_bit, h_reference_ranks, h_reference_keys);
+
+    // Test value types
+
+    TestBackend<DESCENDING, Key, NullType>              (h_keys, num_items, begin_bit, end_bit, h_reference_keys, h_reference_ranks);
+
+    TestBackend<DESCENDING, Key, Key>                   (h_keys, num_items, begin_bit, end_bit, h_reference_keys, h_reference_ranks);
+
+    if (!Equals<Key, unsigned int>::VALUE)
+        TestBackend<DESCENDING, Key, unsigned int>      (h_keys, num_items, begin_bit, end_bit, h_reference_keys, h_reference_ranks);
+
+    if (!Equals<Key, unsigned long long>::VALUE)
+        TestBackend<DESCENDING, Key, unsigned long long>(h_keys, num_items, begin_bit, end_bit, h_reference_keys, h_reference_ranks);
+
+    TestBackend<DESCENDING, Key, TestFoo>               (h_keys, num_items, begin_bit, end_bit, h_reference_keys, h_reference_ranks);
+
+    // Cleanup
+
+    if (h_reference_ranks) delete[] h_reference_ranks;
+    if (h_reference_keys) delete[] h_reference_keys;
+}
+
+
+
 /**
  * Test ascending/descending
  */
-template <
-    Backend         BACKEND,
-    typename        Key,
-    typename        Value>
-void Test(
-    int             num_items,
-    GenMode         gen_mode,
-    int             entropy_reduction,
-    int             begin_bit,
-    int             end_bit,
-    char*           type_string)
+template <typename Key>
+void TestDirection(
+    Key     *h_keys,
+    int     num_items,
+    int     begin_bit,
+    int     end_bit)
 {
-    Test<BACKEND, Key, Value, false>(num_items, gen_mode, entropy_reduction, begin_bit, end_bit, type_string);
-    Test<BACKEND, Key, Value, true>(num_items, gen_mode, entropy_reduction, begin_bit, end_bit, type_string);
+    TestValueTypes<true>(h_keys, num_items, begin_bit, end_bit);
+    TestValueTypes<false>(h_keys, num_items, begin_bit, end_bit);
 }
 
+
 /**
- * Test problem generation
+ * Test different bit ranges
  */
-template <
-    Backend         BACKEND,
-    typename        Key,
-    typename        Value>
-void Test(
-    int             num_items,
-    int             begin_bit,
-    int             end_bit,
-    char*           type_string)
+template <typename Key>
+void TestBits(
+    Key *h_keys,
+    int num_items)
 {
-    for (int entropy_reduction = 0; entropy_reduction <= 6; entropy_reduction += 3)
+    if (Traits<Key>::CATEGORY == UNSIGNED_INTEGER)
     {
-        Test<BACKEND, Key, Value>(num_items, RANDOM, entropy_reduction, begin_bit, end_bit, type_string);
+        // Don't test partial-word sorting for fp or signed types (the bit-flipping techniques get in the way)
+        printf("Testing key bits [%d,%d)\n", 3, 4); fflush(stdout);
+        TestDirection(h_keys, num_items, 3, 4);
     }
 
-    Test<BACKEND, Key, Value>(num_items, UNIFORM, 0, begin_bit, end_bit, type_string);
-    Test<BACKEND, Key, Value>(num_items, INTEGER_SEED, 0, begin_bit, end_bit, type_string);
+    printf("Testing key bits [%d,%d)\n", 0, sizeof(Key) * 8); fflush(stdout);
+    TestDirection(h_keys, num_items, 0, sizeof(Key) * 8);
 }
 
+
 /**
- * Test CDP and num items
+ * Test different (sub)lengths
  */
-template <
-    typename        Key,
-    typename        Value>
-void Test(
-    int             num_items,
-    int             begin_bit,
-    int             end_bit,
-    char*           type_string)
+template <typename Key>
+void TestSizes(
+    Key *h_keys,
+    int max_items)
 {
-    Test<CUB, Key, Value>(num_items, begin_bit, end_bit, type_string);
+    while (true)
+    {
+        TestBits(h_keys, max_items);
 
-#ifdef CUB_CDP
-    Test<CDP, Key, Value>(num_items, begin_bit, end_bit, type_string);
-#endif
+        if (max_items == 1)
+            break;
+
+        max_items = (max_items + 31) / 32;
+    }
 }
 
 
 /**
- * Test CDP and num items
+ * Test key sampling distributions
  */
-template <
-    typename        Key,
-    typename        Value>
-void TestItems(
-    int             num_items,
-    int             begin_bit,
-    int             end_bit,
+template <typename Key>
+void TestGen(
+    int             max_items,
     char*           type_string)
 {
-    // Get ptx version
-    int ptx_version;
-    CubDebugExit(PtxVersion(ptx_version));
-
-    if (num_items < 0)
+    if (max_items < 0)
     {
-        Test<Key, Value>(1, begin_bit, end_bit, type_string);
-        Test<Key, Value>(32, begin_bit, end_bit, type_string);
-        Test<Key, Value>(3203, begin_bit, end_bit, type_string);
-        Test<Key, Value>(320003, begin_bit, end_bit, type_string);
-        if (ptx_version > 100)
-            Test<Key, Value>(9000003, begin_bit, end_bit, type_string);
-        else
-            Test<Key, Value>(5000003, begin_bit, end_bit, type_string);
+        int ptx_version;
+        CubDebugExit(PtxVersion(ptx_version));
+        max_items = (ptx_version > 100) ? 9000003 : max_items = 5000003;
     }
-    else
+
+    Key *h_keys = new Key[max_items];
+
+    for (int entropy_reduction = 0; entropy_reduction <= 6; entropy_reduction += 3)
     {
-        Test<Key, Value>(num_items, begin_bit, end_bit, type_string);
+        printf("\nTesting random %s keys with entropy reduction factor %d\n", type_string, entropy_reduction); fflush(stdout);
+        InitializeKeyBits(RANDOM, h_keys, max_items, entropy_reduction);
+        TestSizes(h_keys, max_items);
     }
+
+    printf("\nTesting uniform %s keys\n", type_string); fflush(stdout);
+    InitializeKeyBits(UNIFORM, h_keys, max_items, 0);
+    TestSizes(h_keys, max_items);
+
+    printf("\nTesting natural number %s keys\n", type_string); fflush(stdout);
+    InitializeKeyBits(INTEGER_SEED, h_keys, max_items, 0);
+    TestSizes(h_keys, max_items);
+
+    if (h_keys) delete[] h_keys;
 }
 
 
-/**
- * Test value type
- */
-template <typename Key>
-void TestItems(
-    int             num_items,
-    int             begin_bit,
-    int             end_bit,
-    char*           type_string)
+
+template <
+    Backend     BACKEND,
+    typename    Key,
+    typename    Value,
+    bool        DESCENDING>
+void Test(
+    int         num_items,
+    GenMode     gen_mode,
+    int         entropy_reduction,
+    int         begin_bit,
+    int         end_bit,
+    char        *type_string)
 {
-    TestItems<Key, NullType>(num_items, begin_bit, end_bit, type_string);
-    TestItems<Key, Key>(num_items, begin_bit, end_bit, type_string);
-    TestItems<Key, unsigned int>(num_items, begin_bit, end_bit, type_string);
-    TestItems<Key, unsigned long long>(num_items, begin_bit, end_bit, type_string);
-    TestItems<Key, TestFoo>(num_items, begin_bit, end_bit, type_string);
+    const bool KEYS_ONLY = Equals<Value, NullType>::VALUE;
+
+    Key     *h_keys             = new Key[num_items];
+    int     *h_reference_ranks  = NULL;
+    Key     *h_reference_keys   = NULL;
+    Value   *h_values           = NULL;
+    Value   *h_reference_values = NULL;
+
+    if (end_bit < 0)
+        end_bit = sizeof(Key) * 8;
+
+    InitializeKeyBits(gen_mode, h_keys, num_items, entropy_reduction);
+    InitializeSolution<DESCENDING>(h_keys, num_items, begin_bit, end_bit, h_reference_ranks, h_reference_keys);
+
+    if (!KEYS_ONLY)
+    {
+        h_values            = new Value[num_items];
+        h_reference_values  = new Value[num_items];
+
+        for (int i = 0; i < num_items; ++i)
+        {
+            InitValue(INTEGER_SEED, h_values[i], i);
+            InitValue(INTEGER_SEED, h_reference_values[i], h_reference_ranks[i]);
+        }
+    }
+    if (h_reference_ranks) delete[] h_reference_ranks;
+
+    printf("\nTesting bits [%d,%d) of %s keys with gen-mode %d\n", begin_bit, end_bit, type_string, gen_mode); fflush(stdout);
+    Test<BACKEND, DESCENDING>(h_keys, h_values, num_items, begin_bit, end_bit, h_reference_keys, h_reference_values);
+
+    if (h_keys) delete[] h_keys;
+    if (h_reference_keys) delete[] h_reference_keys;
+    if (h_values) delete[] h_values;
+    if (h_reference_values) delete[] h_reference_values;
 }
 
 
+
 //---------------------------------------------------------------------
 // Main
 //---------------------------------------------------------------------
@@ -676,6 +756,7 @@ void TestItems(
  */
 int main(int argc, char** argv)
 {
+    int bits = -1;
     int num_items = -1;
     int entropy_reduction = 0;
 
@@ -685,7 +766,7 @@ int main(int argc, char** argv)
     args.GetCmdLineArgument("n", num_items);
     args.GetCmdLineArgument("i", g_timing_iterations);
     args.GetCmdLineArgument("repeat", g_repeat);
-    args.GetCmdLineArgument("bits", g_bits);
+    args.GetCmdLineArgument("bits", bits);
     args.GetCmdLineArgument("entropy", entropy_reduction);
 
     // Print usage
@@ -716,47 +797,47 @@ int main(int argc, char** argv)
     if (num_items < 0) num_items = 20000000;
 
     // Compare CUB and thrust on 32b keys-only
-    Test<CUB, unsigned int, NullType, false> (num_items, RANDOM, entropy_reduction, 0, g_bits, CUB_TYPE_STRING(unsigned int));
-    Test<THRUST, unsigned int, NullType, false> (num_items, RANDOM, entropy_reduction, 0, g_bits, CUB_TYPE_STRING(unsigned int));
+    Test<CUB, unsigned int, NullType, false> (num_items, RANDOM, entropy_reduction, 0, bits, CUB_TYPE_STRING(unsigned int));
+    Test<THRUST, unsigned int, NullType, false> (num_items, RANDOM, entropy_reduction, 0, bits, CUB_TYPE_STRING(unsigned int));
 
     // Compare CUB and thrust on 64b keys-only
-    Test<CUB, unsigned long long, NullType, false> (num_items, RANDOM, entropy_reduction, 0, g_bits, CUB_TYPE_STRING(unsigned long long));
-    Test<THRUST, unsigned long long, NullType, false> (num_items, RANDOM, entropy_reduction, 0, g_bits, CUB_TYPE_STRING(unsigned long long));
+    Test<CUB, unsigned long long, NullType, false> (num_items, RANDOM, entropy_reduction, 0, bits, CUB_TYPE_STRING(unsigned long long));
+    Test<THRUST, unsigned long long, NullType, false> (num_items, RANDOM, entropy_reduction, 0, bits, CUB_TYPE_STRING(unsigned long long));
 
 
     // Compare CUB and thrust on 32b key-value pairs
-    Test<CUB, unsigned int, unsigned int, false> (num_items, RANDOM, entropy_reduction, 0, g_bits, CUB_TYPE_STRING(unsigned int));
-    Test<THRUST, unsigned int, unsigned int, false> (num_items, RANDOM, entropy_reduction, 0, g_bits, CUB_TYPE_STRING(unsigned int));
+    Test<CUB, unsigned int, unsigned int, false> (num_items, RANDOM, entropy_reduction, 0, bits, CUB_TYPE_STRING(unsigned int));
+    Test<THRUST, unsigned int, unsigned int, false> (num_items, RANDOM, entropy_reduction, 0, bits, CUB_TYPE_STRING(unsigned int));
 
     // Compare CUB and thrust on 64b key-value pairs
-    Test<CUB, unsigned long long, unsigned long long, false> (num_items, RANDOM, entropy_reduction, 0, g_bits, CUB_TYPE_STRING(unsigned long long));
-    Test<THRUST, unsigned long long, unsigned long long, false> (num_items, RANDOM, entropy_reduction, 0, g_bits, CUB_TYPE_STRING(unsigned long long));
+    Test<CUB, unsigned long long, unsigned long long, false> (num_items, RANDOM, entropy_reduction, 0, bits, CUB_TYPE_STRING(unsigned long long));
+    Test<THRUST, unsigned long long, unsigned long long, false> (num_items, RANDOM, entropy_reduction, 0, bits, CUB_TYPE_STRING(unsigned long long));
 
 #else
 
     // Compile/run thorough tests
     for (int i = 0; i <= g_repeat; ++i)
     {
-        TestItems<char>                 (num_items, 0, g_bits, CUB_TYPE_STRING(char));
-        TestItems<signed char>          (num_items, 0, g_bits, CUB_TYPE_STRING(signed char));
-        TestItems<unsigned char>        (num_items, 0, g_bits, CUB_TYPE_STRING(unsigned char));
+        TestGen<char>                 (num_items, CUB_TYPE_STRING(char));
+        TestGen<signed char>          (num_items, CUB_TYPE_STRING(signed char));
+        TestGen<unsigned char>        (num_items, CUB_TYPE_STRING(unsigned char));
 
-        TestItems<short>                (num_items, 0, g_bits, CUB_TYPE_STRING(short));
-        TestItems<unsigned short>       (num_items, 0, g_bits, CUB_TYPE_STRING(unsigned short));
+        TestGen<short>                (num_items, CUB_TYPE_STRING(short));
+        TestGen<unsigned short>       (num_items, CUB_TYPE_STRING(unsigned short));
 
-        TestItems<int>                  (num_items, 0, g_bits, CUB_TYPE_STRING(int));
-        TestItems<unsigned int>         (num_items, 0, g_bits, CUB_TYPE_STRING(unsigned int));
+        TestGen<int>                  (num_items, CUB_TYPE_STRING(int));
+        TestGen<unsigned int>         (num_items, CUB_TYPE_STRING(unsigned int));
 
-        TestItems<long>                 (num_items, 0, g_bits, CUB_TYPE_STRING(long));
-        TestItems<unsigned long>        (num_items, 0, g_bits, CUB_TYPE_STRING(unsigned long));
+        TestGen<long>                 (num_items, CUB_TYPE_STRING(long));
+        TestGen<unsigned long>        (num_items, CUB_TYPE_STRING(unsigned long));
 
-        TestItems<long long>            (num_items, 0, g_bits, CUB_TYPE_STRING(long long));
-        TestItems<unsigned long long>   (num_items, 0, g_bits, CUB_TYPE_STRING(unsigned long long));
+        TestGen<long long>            (num_items, CUB_TYPE_STRING(long long));
+        TestGen<unsigned long long>   (num_items, CUB_TYPE_STRING(unsigned long long));
 
-        TestItems<float>                (num_items, 0, g_bits, CUB_TYPE_STRING(float));
+        TestGen<float>                (num_items, CUB_TYPE_STRING(float));
 
         if (ptx_version > 100)                          // Don't check doubles on PTX100 because they're down-converted
-            TestItems<double>               (num_items, 0, g_bits, CUB_TYPE_STRING(double));
+            TestGen<double>               (num_items, CUB_TYPE_STRING(double));
     }
 
 #endif
diff --git a/test/test_util.h b/test/test_util.h
index 6527f8f263..41ce8b5709 100644
--- a/test/test_util.h
+++ b/test/test_util.h
@@ -413,6 +413,12 @@ __host__ __device__ __forceinline__ void InitValue(GenMode gen_mode, T &value, i
 }
 
 
+/**
+ * TestFoo test initialization
+ */
+__host__ __device__ __forceinline__ void InitValue(GenMode gen_mode, cub::NullType &value, int index = 0)
+{}
+
 /******************************************************************************
  * Comparison and ostream operators
  ******************************************************************************/
@@ -943,15 +949,18 @@ int CompareResults(float* computed, float* reference, Offset len, bool verbose =
 {
     for (Offset i = 0; i < len; i++)
     {
-        float difference = std::abs(computed[i]-reference[i]);
-        float fraction = difference / std::abs(reference[i]);
-
-        if (fraction > 0.0001)
+        if (computed[i] != reference[i])
         {
-            if (verbose) std::cout << "INCORRECT: [" << i << "]: "
-                << CoutCast(computed[i]) << " != "
-                << CoutCast(reference[i]) << " (difference:" << difference << ", fraction: " << fraction << ")";
-            return 1;
+            float difference = std::abs(computed[i]-reference[i]);
+            float fraction = difference / std::abs(reference[i]);
+
+            if (fraction > 0.0001)
+            {
+                if (verbose) std::cout << "INCORRECT: [" << i << "]: "
+                    << CoutCast(computed[i]) << " != "
+                    << CoutCast(reference[i]) << " (difference:" << difference << ", fraction: " << fraction << ")";
+                return 1;
+            }
         }
     }
     return 0;
@@ -975,15 +984,18 @@ int CompareResults(double* computed, double* reference, Offset len, bool verbose
 {
     for (Offset i = 0; i < len; i++)
     {
-        double difference = std::abs(computed[i]-reference[i]);
-        double fraction = difference / std::abs(reference[i]);
-
-        if (fraction > 0.0001)
+        if (computed[i] != reference[i])
         {
-            if (verbose) std::cout << "INCORRECT: [" << i << "]: "
-                << CoutCast(computed[i]) << " != "
-                << CoutCast(reference[i]) << " (difference:" << difference << ", fraction: " << fraction << ")";
-            return 1;
+            double difference = std::abs(computed[i]-reference[i]);
+            double fraction = difference / std::abs(reference[i]);
+
+            if (fraction > 0.0001)
+            {
+                if (verbose) std::cout << "INCORRECT: [" << i << "]: "
+                    << CoutCast(computed[i]) << " != "
+                    << CoutCast(reference[i]) << " (difference:" << difference << ", fraction: " << fraction << ")";
+                return 1;
+            }
         }
     }
     return 0;
@@ -1018,7 +1030,7 @@ int CompareDeviceResults(
     bool display_data = false)
 {
     // Allocate array on host
-    T *h_data = (T*) malloc(num_items * sizeof(T));
+    T *h_data = new T[num_items];
 
     // Copy data back
     cudaMemcpy(h_data, d_data, sizeof(T) * num_items, cudaMemcpyDeviceToHost);
@@ -1043,7 +1055,7 @@ int CompareDeviceResults(
     int retval = CompareResults(h_data, h_reference, num_items, verbose);
 
     // Cleanup
-    if (h_data) free(h_data);
+    if (h_data) delete[] h_data;
 
     return retval;
 }
@@ -1062,8 +1074,8 @@ int CompareDeviceDeviceResults(
     bool display_data = false)
 {
     // Allocate array on host
-    T *h_reference = (T*) malloc(num_items * sizeof(T));
-    T *h_data = (T*) malloc(num_items * sizeof(T));
+    T *h_reference  = new T[num_items];
+    T *h_data       = new T[num_items];
 
     // Copy data back
     cudaMemcpy(h_reference, d_reference, sizeof(T) * num_items, cudaMemcpyDeviceToHost);
@@ -1088,8 +1100,8 @@ int CompareDeviceDeviceResults(
     int retval = CompareResults(h_data, h_reference, num_items, verbose);
 
     // Cleanup
-    if (h_reference) free(h_reference);
-    if (h_data) free(h_data);
+    if (h_reference) delete[] h_reference;
+    if (h_data) delete[] h_data;
 
     return retval;
 }