Сравните определенные строки DataFrames в Scala

У меня есть два Scala DataFrames, которые я проверяю на сходство. Я хочу иметь возможность выбрать конкретный номер строки и сравнить каждое значение этой строки между двумя кадрами данных. Например:

Dataframe 1: df1

+------+-----+-----------+
| Name | Age | Eye Color |
+------+-----+-----------+
| Bob  | 12  |   Blue    |
| Bil  | 17  |   Red     |
| Ron  | 13  |   Brown   |
+------+-----+-----------+

Dataframe 2: df2

+------+-----+-----------+
| Name | Age | Eye Color |
+------+-----+-----------+
| Bob  | 12  |   Blue    |
| Bil  | 14  |   Blue    |
| Ron  | 13  |   Brown   |
+------+-----+-----------+

Ввод: строка 2, вывод: возраст, цвет глаз.

Что было бы идеально, так это чтобы на выходе отображались значения, которые также отличаются. Я рассмотрел вариант здесь, но проблема в том, что мои кадры данных очень большие (более 200 000 строк), поэтому это занимает слишком много времени. Есть ли более простой способ выбрать определенное значение строки Dataframe в Scala?


person David Boulton    schedule 22.10.2020    source источник
comment
Результат в приведенном вами образце сравнивает две строки на основе свойства Name. Это то, что вы хотите сделать? Или вы строго хотите присвоить своей программе номер строки?   -  person jrook    schedule 22.10.2020
comment
zipWithIndex - это единственный способ получить непрерывно увеличивающиеся значения в двух разных DF. Это должно было сработать, поскольку оно распараллелено.   -  person Sanket9394    schedule 22.10.2020
comment
Во-вторых, ваш вариант использования для сравнения 2 строк из 2 разных фреймов данных имеет смысл, только если вы sorting оба фрейма данных сначала используете какой-то общий столбец.   -  person Sanket9394    schedule 22.10.2020
comment
@jrook Я хочу строго указать программе номер строки, так как мне нужно сравнить все поля в этой строке.   -  person David Boulton    schedule 23.10.2020
comment
@Sanket9394 Sanket9394 Обе базы данных отсортированы и должны быть идентичными, так что это не должно быть проблемой. Я попробую использовать zipWithIndex и посмотрю, сколько времени это займет. Спасибо   -  person David Boulton    schedule 23.10.2020
comment
@DavidBoulton, значит базы данных отсортированы? df1 и df2 из базы данных?   -  person Sanket9394    schedule 23.10.2020