Немного ударился головой об этом, и я подозреваю, что ответ очень прост. Учитывая два фрейма данных, я хочу отфильтровать первый, где значения в одном столбце отсутствуют в столбце другого фрейма данных.
Я хотел бы сделать это, не прибегая к полномасштабному Spark SQL, поэтому просто используя DataFrame.filter, или Column.contains, или ключевое слово «isin», или один из методов соединения.
val df1 = Seq(("Hampstead", "London"),
("Spui", "Amsterdam"),
("Chittagong", "Chennai")).toDF("location", "city")
val df2 = Seq(("London"),("Amsterdam"), ("New York")).toDF("cities")
val res = df1.filter(df2("cities").contains("city") === false)
// doesn't work, nor do the 20 other variants I have tried
У кого-нибудь есть идеи?