У меня есть два Scala DataFrames, которые я проверяю на сходство. Я хочу иметь возможность выбрать конкретный номер строки и сравнить каждое значение этой строки между двумя кадрами данных. Например:
Dataframe 1: df1
+------+-----+-----------+
| Name | Age | Eye Color |
+------+-----+-----------+
| Bob | 12 | Blue |
| Bil | 17 | Red |
| Ron | 13 | Brown |
+------+-----+-----------+
Dataframe 2: df2
+------+-----+-----------+
| Name | Age | Eye Color |
+------+-----+-----------+
| Bob | 12 | Blue |
| Bil | 14 | Blue |
| Ron | 13 | Brown |
+------+-----+-----------+
Ввод: строка 2, вывод: возраст, цвет глаз.
Что было бы идеально, так это чтобы на выходе отображались значения, которые также отличаются. Я рассмотрел вариант здесь, но проблема в том, что мои кадры данных очень большие (более 200 000 строк), поэтому это занимает слишком много времени. Есть ли более простой способ выбрать определенное значение строки Dataframe в Scala?
zipWithIndex
- это единственный способ получить непрерывно увеличивающиеся значения в двух разных DF. Это должно было сработать, поскольку оно распараллелено. - person Sanket9394   schedule 22.10.2020sorting
оба фрейма данных сначала используете какой-то общий столбец. - person Sanket9394   schedule 22.10.2020