Повторная выборка временных рядов исторических торговых данных

У меня есть некоторая историческая дата торговли в файле csv в формате: unixtime, цена, объем. Я хочу проанализировать эти данные.

Мне удалось сделать это на Python, но это мучительно медленно (мне требуется около 2 дней, чтобы запустить алгоритм для 30-дневного теста данных).

Я пытаюсь сделать это на c/c++ или даже на Java или Scala, но моя главная проблема в том, что у меня нет возможности передискретизировать данные. Мне нужно преобразовать эти данные в формат: дата, время, открытие, максимум, минимум, закрытие, объем с 15-минутными интервалами, но я не могу найти способ сделать это в c/С++

В Python это делает то, что я хочу (использует кадр данных pandas):

def resample_data(raw_data, time_frame):
    # resamples the ticker data in ohlc
    resampledData = raw_data.copy()
    ohlc_dict = {
        'open':'first',
        'high':'max',
        'low':'min',
        'close':'last',
        'price':'first'
        }

    resampledData = resampledData.resample(time_frame, how={'price':ohlc_dict, 'amount':'sum'})
    resampledData.amount = resampledData['amount']['sum'].fillna(0.0)
    resampledData['price']['close'] = resampledData['price']['close'].fillna(method='pad')
    resampledData = resampledData.apply(lambda x: x.fillna(resampledData['price']['close']))

    return resampledData

Любые идеи (или библиотеки), которые делают это в c/С++/Java/scala?


person jbssm    schedule 04.01.2014    source источник
comment
Почему бы вам не отсортировать данные по дате, если это необходимо, а затем разделить их на куски по 15 минут и агрегировать каждый. Это можно сделать итеративно, поэтому вам не нужно хранить слишком много данных в памяти. Вы можете использовать стандартные функции Scala. Может быть, вы также можете запустить это параллельно.   -  person yǝsʞǝla    schedule 04.01.2014
comment
Проблема в том, что выполнение этого вручную кажется мне слишком подверженным ошибкам. Принимая во внимание изменение часов, дней, месяцев, лет, чтобы продолжать проверять 15-минутные (или другие) интервалы, это просто то, что потребует обширного тестирования, чтобы проверить, все ли рассчитывается правильно. Было бы гораздо лучше использовать какую-нибудь библиотеку (например, pandas для Python или Zoo для R), которая уже прошла необходимый контроль качества.   -  person jbssm    schedule 04.01.2014
comment
К сожалению, это не сайт рекомендаций библиотек. Если вы начинаете работать над чем-то, мы можем помочь вам в проблемных местах. Лично я, имея дело с наборами данных, предпочитаю SQL, особенно когда кажется, что это должны быть простые агрегаты; с таблицей календаря/времени дня разные периоды времени становятся тривиальными. В противном случае подготовка сегментов, в которые вы помещаете данные, должна работать и может быть распараллеливаемой. Любое необходимое тестирование состоит из двух частей; создание сегментов на основе разницы во времени и помещение их в эти сегменты.   -  person Clockwork-Muse    schedule 04.01.2014
comment
Я думаю, вы могли бы определить функцию, которая создает интервалы из потоковых данных. Если вы имеете дело с чем-то, что выражается в минутах, секундах, часах, вы можете преобразовать дату в эти единицы, а затем разделить. Если вы имеете дело с днями, неделями и т. д., вам придется извлекать эти единицы с помощью чего-то вроде JodaTime. Високосные секунды, возможно, можно игнорировать.   -  person yǝsʞǝla    schedule 04.01.2014
comment
pandas имеет функцию повторной выборки. Поскольку вы используете pandas DataFrame, ваше решение сложное по сравнению с использованием предоставленной функции повторной выборки.   -  person Brandon Bradley    schedule 23.01.2015


Ответы (2)


Просто быстрый пример того, что вы можете сделать со стандартными библиотеками Scala. Этот код можно запустить в Scala REPL:

// not importing external libraries like Joda time and its Scala wrappers
import java.util.Date
import scala.annotation.tailrec

case class Sample(value: Double, timeMillis: Long)
case class SampleAggregate(startTimeMillis: Long, endTimeMillis: Long,
  min: Sample, max: Sample)

val currentMillis = System.currentTimeMillis
val inSec15min = 15 * 60
val inMillis15min = inSec15min * 1000
// sample each second:
val data = (1 to inSec15min * 100).map { i =>
  Sample(i, currentMillis + i*1000) }.toList

@tailrec
def aggregate(xs: List[Sample], intervalDurationMillis: Long,
  accu: List[SampleAggregate]): List[SampleAggregate] =
  xs match {
    case h :: t =>
      val start = h.timeMillis
      val (slice, rest) = xs.span(_.timeMillis < (start + intervalDurationMillis))
      val end = slice.last.timeMillis
      val aggr = SampleAggregate(start, end, slice.minBy(_.value),
        slice.maxBy(_.value))
      aggregate(rest, intervalDurationMillis, aggr :: accu)
    case Nil =>
      accu.reverse
  }

val result = aggregate(data, inMillis15min, Nil)

Поддельные данные:

data.take(10).foreach(println)
Sample(1.0,1388809630677)
Sample(2.0,1388809631677)
Sample(3.0,1388809632677)
Sample(4.0,1388809633677)
Sample(5.0,1388809634677)
Sample(6.0,1388809635677)
Sample(7.0,1388809636677)
Sample(8.0,1388809637677)
Sample(9.0,1388809638677)
Sample(10.0,1388809639677)

Результаты:

result.foreach(println)
SampleAggregate(1388809630677,1388810529677,Sample(1.0,1388809630677),Sample(900.0,1388810529677))
SampleAggregate(1388810530677,1388811429677,Sample(901.0,1388810530677),Sample(1800.0,1388811429677))
SampleAggregate(1388811430677,1388812329677,Sample(1801.0,1388811430677),Sample(2700.0,1388812329677))
SampleAggregate(1388812330677,1388813229677,Sample(2701.0,1388812330677),Sample(3600.0,1388813229677))
SampleAggregate(1388813230677,1388814129677,Sample(3601.0,1388813230677),Sample(4500.0,1388814129677))
SampleAggregate(1388814130677,1388815029677,Sample(4501.0,1388814130677),Sample(5400.0,1388815029677))
SampleAggregate(1388815030677,1388815929677,Sample(5401.0,1388815030677),Sample(6300.0,1388815929677))

Мы можем передать функцию в span, которая будет определять интервалы (часы или дни). Это также может быть преобразовано в поток при чтении из файла.

person yǝsʞǝla    schedule 04.01.2014
comment
Большое спасибо, я попробую этот последний и сообщу вам результаты. - person jbssm; 04.01.2014

Попробуйте просмотреть Saddle для обработки данных. Я только что нашел это сам, поэтому не уверен в полных возможностях, но он вдохновлен Pandas.

person Gavin    schedule 04.01.2014
comment
Привет, Седло было моей первой попыткой. Но хотя он реализует Pandas, такой как DataFrame, у него нет функций повторной выборки для работы с TimeSeries. - person jbssm; 04.01.2014