Сравните определенные строки DataFrames в Scala

У меня есть два Scala DataFrames, которые я проверяю на сходство. Я хочу иметь возможность выбрать конкретный номер строки и сравнить каждое значение этой строки между двумя кадрами данных. Например:

Dataframe 1: df1

+------+-----+-----------+
| Name | Age | Eye Color |
+------+-----+-----------+
| Bob  | 12  |   Blue    |
| Bil  | 17  |   Red     |
| Ron  | 13  |   Brown   |
+------+-----+-----------+

Dataframe 2: df2

+------+-----+-----------+
| Name | Age | Eye Color |
+------+-----+-----------+
| Bob  | 12  |   Blue    |
| Bil  | 14  |   Blue    |
| Ron  | 13  |   Brown   |
+------+-----+-----------+

Ввод: строка 2, вывод: возраст, цвет глаз.

Что было бы идеально, так это чтобы на выходе отображались значения, которые также отличаются. Я рассмотрел вариант здесь, но проблема в том, что мои кадры данных очень большие (более 200 000 строк), поэтому это занимает слишком много времени. Есть ли более простой способ выбрать определенное значение строки Dataframe в Scala?

David Boulton 22.10.2020 источник

comment

Результат в приведенном вами образце сравнивает две строки на основе свойства Name. Это то, что вы хотите сделать? Или вы строго хотите присвоить своей программе номер строки? - jrook 22.10.2020

comment

zipWithIndex - это единственный способ получить непрерывно увеличивающиеся значения в двух разных DF. Это должно было сработать, поскольку оно распараллелено. - Sanket9394 22.10.2020

comment

Во-вторых, ваш вариант использования для сравнения 2 строк из 2 разных фреймов данных имеет смысл, только если вы sorting оба фрейма данных сначала используете какой-то общий столбец. - Sanket9394 22.10.2020

comment

@jrook Я хочу строго указать программе номер строки, так как мне нужно сравнить все поля в этой строке. - David Boulton 23.10.2020

comment

@Sanket9394 Sanket9394 Обе базы данных отсортированы и должны быть идентичными, так что это не должно быть проблемой. Я попробую использовать zipWithIndex и посмотрю, сколько времени это займет. Спасибо - David Boulton 23.10.2020

comment

@DavidBoulton, значит базы данных отсортированы? df1 и df2 из базы данных? - Sanket9394 23.10.2020

Сравните определенные строки DataFrames в Scala

Похожие вопросы