Структура(ы) данных, допускающая изменение посредством итерации и случайного выбора из подмножества (C++)

Предположим, что для заданного массива объектов A фиксированного размера гораздо меньшее подмножество этих объектов соответствует определенному критерию B. Есть три задачи, которые я хочу выполнять примерно с одинаковой частотой:

Я хочу иметь возможность изменить объект, который в настоящее время не соответствует критериям B, чтобы он соответствовал критериям B в любое время при доступе к объекту в A по индексу.
Я хочу иметь возможность изменить объект, который в настоящее время соответствует критериям B, чтобы он больше не соответствовал критериям B при доступе к объекту в A по индексу.
Я также хочу иметь возможность выбирать случайный объект ТОЛЬКО из тех объектов, которые соответствуют критериям B.

Все задачи должны выполняться за постоянное время или как можно ближе к постоянному времени, не зависящее от количества объектов в A и не зависящее от количества объектов, удовлетворяющих критериям. Б. Если постоянное время невозможно, а я подозреваю, что это так, то я хочу завершить оба как можно быстрее, принимая во внимание частоты, о которых я упоминал ранее. Какие структуры данных подходят для этих двух задач, если они повторяются огромное количество раз?

Возьмем, к примеру, реализацию C++, которую я привожу ниже. В то время как временная часть (участок кода, который повторяется огромное количество раз) не зависит от общего размера A (alltiles), временная сложность линейно зависит от B (bluetiles) (независимо от того, увеличивается ли количество alltiles). или нет), серьезно замедляя код.

#include <iostream>
#include <vector>
#include <chrono>
#include <cstdlib>
#include <algorithm>

using namespace std;

enum color {RED, GREEN, BLUE};
const int NUM_ATTEMPTS = 10000;
const int INITIAL_NUM_BLUE_TILES = 1000;
const int TOTAL_TILES = 1000000;

struct tile
{
  int color = RED;
};

struct room
{
  vector<tile> alltiles;
  vector<tile*> bluetiles;
  room(vector<tile> v) : alltiles(v) {}
};

int main()
{
  srand (time(NULL));

  // set up the initial room, time complexity here is irrelevant
  room myroom(vector<tile>(1*TOTAL_TILES));
  for(int i = 0; i < INITIAL_NUM_BLUE_TILES; i++)
  {
    myroom.alltiles[i].color = BLUE;
    myroom.bluetiles.push_back(&myroom.alltiles[i]);
  }

  auto begin = std::chrono::high_resolution_clock::now();
  for(int attempt_num = 0; attempt_num < NUM_ATTEMPTS; attempt_num++)
  {
    // access a BLUE tile by index from alltiles to change its color to RED
    myroom.alltiles[5].color = RED; // constant time
    myroom.bluetiles.erase(std::remove(myroom.bluetiles.begin(), myroom.bluetiles.end(), &myroom.alltiles[5]), myroom.bluetiles.end()); // linear time, oh no!

    // access a RED tile by index from alltiles to change its color to BLUE
    myroom.alltiles[5].color = BLUE; // constant time
    myroom.bluetiles.push_back(&myroom.alltiles[5]); // constant time

    // randomly choose from ONLY the blue tiles
    int rand_index = rand() % myroom.bluetiles.size(); // constant time
    myroom.bluetiles[rand_index]->color = GREEN; // constant time
    myroom.bluetiles[rand_index]->color = BLUE; // constant time
    // so now I have constant time access to a random blue tile

  }
  auto end = std::chrono::high_resolution_clock::now();
  double runtime = std::chrono::duration_cast<std::chrono::milliseconds>(end-begin).count();
  cout << runtime << " ms" << endl; 
  return 0;
}

Части, которые замеряются по времени, — это операции, которые мне интересно выполнять часто; в реальной программе логика выбора тайлов для изменения отличается. Надеюсь, лучшая структура данных не потребует какого-либо вероятностного анализа, но я боюсь, что он все же может понадобиться.

Я подозреваю, что, возможно, использование двойной косвенности путем сохранения указателя (указывающего на элементы в векторе bluetiles) в классе плитки может позволить мне добиться этого за постоянное время, но я не уверен. Я думаю, это могло бы, по крайней мере, ускорить его в том смысле, что поиск блютайлов больше не был бы необходим, но тогда удаление элемента в блютайлах все еще было бы линейным временем (поскольку я использую вектор), так что я действительно просто не уверен, что делать здесь.

Можете ли вы разработать самую быструю структуру данных для достижения этой цели и предоставить сборку реализации C++ из моего примера? Или то, что у меня есть, так хорошо, как никогда?

ereHsaWyhsipS 22.08.2018 источник

comment

myroom.bluetiles.erase(std::remove(myroom.bluetiles.begin(), myroom.bluetiles.end(), &myroom.alltiles[5]), myroom.bluetiles.end());

не очень хороший код. Не указано, будет ли сначала выполняться std::remove или последний myroom.bluetiles.end(). Таким образом, эта функция может вести себя двумя разными способами. Он указан в C++17, но не в C++11. - mch 22.08.2018

comment

@mch Это не указано в C ++ 17, скорее всего, UB до этого. - Passer By 22.08.2018

comment

Используйте хэш-таблицу для своих bluetiles, посмотрите, сработает ли это для вас. - Passer By 22.08.2018

comment

почему бы не использовать хэш-набор целых чисел, который сохраняет индексы объектов, соответствующих критерию B? - mangusta 22.08.2018

comment

@PasserBy нет, это неуказанное поведение до С++ 17 и четко определенное в С++ 17: stackoverflow.com/a/27158813 /3684343 - mch 22.08.2018

comment

Я согласен с @mangusta, это похоже на проблему индексации базы данных. Когда вы добавляете/удаляете из набора B, обновите индекс. Индекс обеспечивает быстрый поиск за счет памяти. - Steve 22.08.2018

comment

@mch Вы, кажется, неправильно поняли. Вычисление аргументов не упорядочено до C++17 и, скорее всего, будет иметь неопределенное поведение. Они неопределенно упорядочены после C++17, что означает, что они упорядочены тем или иным образом, но не указано каким именно. - Passer By 22.08.2018

comment

@Steve 3-я операция - выбрать случайный предмет из bluetiles. std::unordered_set не предоставляет итератора произвольного доступа, что делает эту операцию линейной. С другой стороны, это: stackoverflow.com/questions/12761315/. - Igor Korzhanov 22.08.2018

Ответы (1)

arrow_upward
1
arrow_downward

ОБНОВЛЕНИЕ: это похоже на решение, которое я предлагаю для вопроса SO Случайный элемент из unordered_set в O(1)

Вы можете реализовать что-то вроде следующего класса SubsetVector<T>, который позволяет вам вставлять/удалять элементы из подмножества (т.е. помечать их) в O(1). Затем он позволяет найти размер подмножества за O(1) и получить доступ к i-му элементу из этого подмножества за O(1). Я думаю, это то, что вы хотели. Обратите внимание, что подмножество не гарантирует какой-либо конкретный порядок, но это должно подойти для ваших нужд.

Идея состоит в том, чтобы поддерживать два вектора.

m_entries, который содержит фактические данные. m_entries[i] содержит элемент и и индекс в m_subset_indices, если элемент находится в подмножестве, и -1 в противном случае.
m_subset_indices содержит все индексы m_entries элементов, находящихся в подмножестве.

Вот код (скомпилирован, но не проверен):

template <class T>
class SubsetVector
{
private:
   struct Entry
   {
       T element;
       int index_in_subset = -1;
   };
public:
   explicit SubsetVector(unsigned size = 0) : m_entries(size) 
   {
       m_subset_indices.reserve(size);
   }

   void push_back(const T & element)
   {
       m_entries.push_back(Entry{element, -1});
   }
   const T & operator[](unsigned index) const { return m_entries[index].element; }
   T & operator[](unsigned index) { return m_entries[index].element; }

   void insert_in_subset(unsigned index)
   {
       if (m_entries[index].index_in_subset < 0) {
           m_entries[index].index_in_subset = m_subset_indices.size();
           m_subset_indices.push_back(index);
       }
   }
   void erase_from_subset(unsigned index)
   {
       if (m_entries[index].index_in_subset >= 0) {
           auto subset_index = m_entries[index].index_in_subset;
           auto & entry_to_fix = m_entries[m_subset_indices.back()];
           std::swap(m_subset_indices[subset_index], m_subset_indices.back());
           entry_to_fix.index_in_subset = subset_index;
           m_subset_indices.pop_back();
           m_entries[index].index_in_subset = -1;
       }
   }
   unsigned subset_size() const 
   {
       return m_subset_indices.size();
   }
   T & subset_at(unsigned subset_index)
   {
       auto index = m_subset_indices.at(subset_index);
       return m_entries.at(index).element;
   }
   const T & subset_at(unsigned subset_index) const
   {
       auto index = m_subset_indices.at(subset_index);
       return m_entries.at(index).element;
   }

private:
   std::vector<Entry> m_entries;
   std::vector<unsigned> m_subset_indices;
};

Michael Veksler 22.08.2018

comment

Идеально! Хотя на самом деле я не использовал ваш код, идея замены элементов, которые мне нужно было использовать, на элемент в конце в сочетании с двойной косвенностью позволила мне выполнить все три задачи за постоянное время! Фантастическая идея. - ereHsaWyhsipS; 22.08.2018

comment

@ereHsaWyhsipS, да, это отличная техника. Я использую его на протяжении десятилетий. Не знаю, откуда я этому научился. Рад, что это помогло - Michael Veksler; 22.08.2018