У меня есть 2 фрейма данных df1 и df2. Я хочу, чтобы результат этого фрейма был таким: 1. Возьмите все записи df1. 2. Возьмите только новые записи из df2 (записи, которых нет в df1) 3. Создайте новый фрейм данных этой логики
Примечание. Первичный ключ - id. Я хочу проверить только идентификатор, а не полную строку. Если Id недоступен в df1, то только сказка из df2.
df1
+------+-------------+-----+
| id |time |other|
+------+-------------+-----+
| 111| 29-12-2019 | p1|
| 222| 29-12-2019 | p2|
| 333| 29-12-2019 | p3|
+----+-----+-----+---------+
df2
+------+-------------+-----+
| id |time |other|
+------+-------------+-----+
| 111| 30-12-2019 | p7|
| 222| 30-12-2019 | p8|
| 444| 30-12-2019 | p0|
+----+-----+-----+---------+
Результат
+------+-------------+-----+
| id |time |other|
+------+-------------+-----+
| 111| 29-12-2019 | p1|
| 222| 29-12-2019 | p2|
| 333| 29-12-2019 | p3|
| 444| 30-12-2019 | p0|
+----+-----+-----+---------+
Не могли бы вы помочь мне, как это сделать в pyspark. Я планирую использовать соединение.