Я извлек некоторые переменные из своего набора данных Python и хочу создать больший набор данных из имеющихся у меня дистрибутивов. Проблема в том, что я пытаюсь внести некоторую изменчивость в новый набор данных, сохраняя при этом аналогичное поведение. Это пример моих извлеченных данных, состоящих из 400 наблюдений:
Value Observation Count Ratio of Entries
1 352 0.88
2 28 0.07
3 8 0.02
4 4 0.01
7 4 0.01
13 4 0.01
Теперь я пытаюсь использовать эту информацию для создания аналогичного набора данных с 2000 наблюдений. Мне известны функции numpy.random.choice
и random.choice
, но я не хочу использовать одни и те же дистрибутивы. Вместо этого я хотел бы генерировать случайные переменные (столбец значений) на основе распределения, но с большей изменчивостью. Пример того, как я хочу, чтобы мой большой набор данных выглядел так:
Value Observation Count Ratio of Entries
1 1763 0.8815
2 151 0.0755
3 32 0.0160
4 19 0.0095
5 10 0.0050
6 8 0.0040
7 2 0.0010
8 4 0.0020
9 2 0.0010
10 3 0.0015
11 1 0.0005
12 1 0.0005
13 1 0.0005
14 2 0.0010
15 1 0.0005
Таким образом, новое распределение можно было бы оценить, если бы я подогнал к своим исходным данным функцию экспоненциального затухания, однако меня не интересуют непрерывные переменные. Как мне обойти это и есть ли конкретный или математический метод, относящийся к тому, что я пытаюсь сделать?