определение кратчайшего расстояния между точками UTM в двух наборах данных R

Я пытаюсь найти кратчайшее расстояние между школами и береговой линией. Все школы расположены в восточном и северном формате, береговая линия состоит из точек, также в восточном и северном формате.

Я решил эту проблему, создав цикл, который проходит через каждую школу, и еще один цикл внутри школьного цикла, который сравнивает местоположение школы со всеми точками береговой линии. Это невероятно медленно, так как у меня 40 000 школ и 180 000 точек на карте, и я знаю, что вы никогда не должны использовать циклы в R! Я попытался собрать следующее вместе:

Данные испытаний:

schools <- structure(list(URN = c(100000L, 100008L, 100009L, 100010L,  100011L, 100012L), Easting = c(533498L, 530238L, 524888L, 529912L, 528706L,  528386L), Northing = c(181201L, 182761L, 185067L, 184835L, 186594L,  185209L)), .Names = c("URN", "Easting", "Northing"), row.names = c(NA,  6L), class = "data.frame")

coastline <- structure(list(Easting = c(219588.203816721, 219623.335092579,  219625.861360502, 219661.118975722, 219664.898582579, 219700.155464073 ), Northing = c(607325.869617586, 607324.434359255, 607386.276450707,  607384.83630279, 607477.377010103, 607475.937159766)), .Names = c("Easting", "Northing"), row.names = c(NA, 6L), class = "data.frame")

Код

for (sch in schools$URN){

  minimumDistance <- 500000

  SEasting <- schools %>% filter(URN == sch) %$% Easting
  SNorthing <- schools %>% filter(URN == sch) %$% Northing

  mindisance <- coastline %>% mutate(distance = 
             min(sqrt((SEasting - Easting)^2 +
                (SNorthing - Northing)^2))) %$% distance

  print(paste(sch, "minDistance = ", mindisance))
}

Но я получаю результат для каждой точки береговой линии:

[1] "100000 minDistance =  529243.315102678" "100000 minDistance =  529243.315102678"
[3] "100000 minDistance =  529243.315102678" "100000 minDistance =  529243.315102678"
[5] "100000 minDistance =  529243.315102678" "100000 minDistance =  529243.315102678"

Я бы хотел

100000 minDistance = 529243.315102678

Любая идея о том, что я делаю неправильно?


person pluke    schedule 12.06.2016    source источник


Ответы (1)


Переключите mutate на summarise:

for (sch in schools$URN){

  minimumDistance <- 500000

  SEasting <- schools %>% filter(URN == sch) %$% Easting
  SNorthing <- schools %>% filter(URN == sch) %$% Northing

  mindisance <- coastline %>% summarise(distance = 
                                       min(sqrt((SEasting - Easting)^2 +
                                                (SNorthing - Northing)^2)))
%$% distance

  print(paste(sch, "minDistance = ", mindisance))
}

[1] "100000 minDistance =  529243.315102678"
[1] "100008 minDistance =  526056.631790224"
[1] "100009 minDistance =  521044.965922041"
[1] "100010 minDistance =  524191.165239584"
[1] "100011 minDistance =  522059.567618869"
[1] "100012 minDistance =  522987.402491719"

summarise используется для возврата значения в единственном числе, такого как mean, sum или в данном случае min. mutate используется для изменения каждого отдельного значения в столбце, а затем возвращает весь столбец. Я думаю, это объясняет, почему исходный код повторялся в команде print.

Чтобы полностью избежать цикла for, вы можете:

distances<-sapply(1:nrow(schools), function(x)
    with(schools[x,], min(sqrt((coastline$Easting-Easting)^2+  
                          (coastline$Northing-Northing)^2))))

paste(schools$URN, "minDistance = ", distances)

Подозреваю, что это быстро. Давайте проверим это на большом наборе данных:

set.seed(400)
URN<-10000:19999
Easting1<-sample.int(533498, 10000)
Northing1<-sample.int(180000, 10000)
schools<-data.frame(URN, Easting = Easting1, Northing = Northing1)

Easting2<-sample.int(533498, 10000)
Northing2<-sample.int(180000, 10000)
coastline<-data.frame(Easting = Easting2, Northing = Northing2)

f1<- function() 
  for (sch in schools$URN){

    minimumDistance <- 500000

    SEasting <- schools %>% filter(URN == sch) %$% Easting
    SNorthing <- schools %>% filter(URN == sch) %$% Northing

    mindisance <- coastline %>% summarise(distance = 
                                            min(sqrt((SEasting - Easting)^2+
                                                       (SNorthing-   
                                             Northing)^2))) %$% distance
print(paste(sch, "minDistance = ", mindisance))
  }

f2<- function(){ 
  distances<-sapply(1:nrow(schools), function(x)
 with(schools[x,], min(sqrt((coastline$Easting-Easting)^2+ 
                       (coastline$Northing-Northing)^2))))

 paste(schools$URN, "minDistance = ", distances)
}

library(microbenchmark)
microbenchmark(f1(), f2(), times = 10)
##this takes a while to run

Unit: seconds
expr       min        lq     mean    median        uq       max neval
f1() 20.013022 20.387663 20.53804 20.625776 20.735973 20.763166    10
f2()  2.932491  2.971101  2.99707  3.004892  3.031679  3.044733    10

Метод sapply() примерно в 6,8 раза быстрее.

person Bryan Goggin    schedule 12.06.2016
comment
Спасибо, это здорово! - person pluke; 12.06.2016
comment
Это ускорило что-нибудь? Он должен сделать только 1/nrow() работы на print(). - person Bryan Goggin; 12.06.2016
comment
значительно, поэтому я должен думать о матрицах - person pluke; 13.06.2016
comment
Кроме того, есть ли способ избавиться от первого цикла? - person pluke; 13.06.2016
comment
чтобы дать вам представление об увеличении скорости, версия цикла внутри цикла должна была занять 29 часов, эта версия занимает около 1 минуты :) - person pluke; 15.06.2016
comment
Есть ли способ показать идентичность ближайшей точки береговой линии, а не расстояние? - person John L. Godlee; 27.02.2018