У меня есть набор данных, например:
+----+-------+---------+----------+--+ | id | time | event | timediff | | +----+-------+---------+----------+--+ | 1 | 15.00 | install | - | | | 1 | 15.30 | sale | 00.30 | | | 1 | 16.00 | sale | 00.30 | | | 2 | 15.00 | sale | - | | | 2 | 15.30 | sale | 0.30 | | | 3 | 16.00 | install | - | | | 4 | 15.00 | install | - | | | 5 | 13.00 | install | - | | | 5 | 14.00 | sale | 01.00 | | +----+-------+---------+----------+--+
Я хочу очистить этот набор данных: я хочу исключить идентификаторы, для которых первыми (и следующими n..) событиями являются продажи, а не установки. Я хочу исключить идентификаторы, для которых есть установка, но нет продаж (эти идентификаторы действительно уникальны)
Получение, наконец, такого результата, как:
+----+-------+---------+----------+ | id | time | event | timediff | +----+-------+---------+----------+ | 1 | 15.00 | install | - | | 1 | 15.30 | sale | 0.30 | | 1 | 16.00 | sale | 0.30 | | 5 | 13.00 | install | - | | 5 | 14.00 | sale | 01.00 | +----+-------+---------+----------+
Как я могу сделать это в R? есть ли какой-то конкретный пакет для манипулирования данными или я могу просто использовать формулы? Должен ли я использовать Tapply?