В предишния си блог обсъдих случаи на употреба, предизвикателства и наблюдения на EDA по отношение на идентифицирането на култури по време на ранните етапи. Продължавайки същата дискусия, в този блог ще обсъдя влиянието на различни вегетационни индекси, ленти Sentinel-2 и разглеждан брой дати от сеитба заедно с различни техники за моделиране на машинно обучение върху диференцирането на културите.

Настройка на експеримента за извадкови данни

Набор от данни: Област Вайшали от щата Бихар, Раби сезон 2021–22, сателитни данни Sentinel-2
Култури: Пшеница и царевица
N_Дати :N_date се определя като брой налични дати от сеитбата. Началната дата на сеитбата се счита за 31 декември през всички опити. Въз основа на нашите наблюдения, N_Dates=3 улавя период от 4 януари седмица — 1 февруари седмица.
Използван модел: Персонализирани невронни мрежи
Разглеждани индекси на растителност : NDVI(Нормализиран индекс на разликата в растителността), GNDVI(Индекс на нормализираната разлика в растителността в зелено), NDRE(Нормализиран индекс на разликата в червения ръб), LSWI (Индекс на повърхностните води на земята), SAVI (Индекс на растителността, коригиран спрямо почвата).

Таблицата по-горе предполага, че добавянето на LSWI и SAVI подобрява малко производителността. Освен това набор от функции, който съдържа ленти с VI, винаги се представя по-добре. Това заключава, че можем да продължим напред с общо 17 (12 ленти + 5 VIs) функции за всяка дата.
Имайки предвид тези констатации, ние проведохме няколко експеримента със зони 2 на Бихар. Повече подробности за агроклиматичните зони на Бихар са споделени в този блог.

Експерименти в агроклиматична зона-2 на щата Бихар

Области за обучение: Khagariya (2019, 2020, 2021), Purnia (2019, 2020, 2021)
Области за тестване: Katihar (2019, 2020, 2021), Мадхепур (2020, 2021), Сахарса (2019, 2021)

1. Настройка на експеримента 1:
N_Дати:
Първите 3 дати от сеитбата, общи характеристики = 17*3
Използван модел: Произволен модел на гора

2. Настройка на експеримента 2:
N_Дати:
Първите 3 дати от сеитбата, общи характеристики = 17*3
Използван модел: Невронни мрежи

Извличане само на значими характеристики

При подхода за радиочестотно моделиране, аз също изчислих важността на характеристиките за всичките 51 функции. При по-нататъшен анализ на тези стойности се наблюдава, че само 7 от 51 функции могат да добавят до 70% от цялата налична информация. Това мотивира да се проведат няколко експеримента, като се вземат предвид само тези 7 функции и да се сравнят резултатите.

3. Настройка на експеримента 3:
N_Дати:
Първите 3 дати от сеитбата, общо характеристики = 7
Използван модел: Невронни мрежи

Тази таблица подсказва, че разглеждането само на значими характеристики подобрява OOS, но намалява и OOA резултата.
След този набор от експерименти исках да анализирам ефекта от добавянето на още една дата към текущата рамка.

4. Настройка на експеримента 4:
N_Дати:
Първите 4 дати от сеитбата, общи характеристики = 17*4
Използван модел: Невронни мрежи

5. Настройка на експеримента 5:Точно като при подхода с 3 дати, ние изчислихме важността на характеристиките за всичките 68 функции и се наблюдава, че само 25 от 68 функции могат да добавят до 70% от общата налична информация. Проведох текущия експеримент, използвайки само тези 25 функции.
N_Дати: Първите 4 дати от сеитбата, общо характеристики = 25
Използван модел: Невронни мрежи

Тази таблица отново подсказва, че разглеждането само на значими характеристики подобрява OOS, но намалява резултата на OOA.

6. Настройка на експеримента 6:
N_Дати:
Първите 4 дати от сеитбата, общи характеристики = 17*4
Използван модел: LSTM

7. Настройка на експеримента 7:
N_Дати:
Само 3-та и 4-та дата от сеитбата, общи характеристики = 17*2
Използван модел: Невронни мрежи

8. Настройка на експеримента 8:Въведен е модул за изчисляване на функция въз основа на тегла, където теглата се присвояват на всяка дата от сеитбата. Тегло = [0,1, 0,2, 0,3, 0,4] в този случай ние вземаме предвид само 10% от лошата стойност от първата дата, 20% от втората дата, 30% от третата дата, 40% от четвъртата дата и ги събираме. По този начин крайният вектор на характеристиките има само 17 еквивалентни характеристики за всяка дата. Целта е да се наблюдава дали може да диференцира културите по по-добър начин.
N_Дати: 4 дати от сеитба, общо характеристики = 17
Използван модел: Невронни мрежи

Горният набор от експерименти може да бъде обобщен в една таблица, както е показано по-долу.

Заключение

  1. Много е предизвикателство за всеки модел да идентифицира културите правилно по време на техния ранен цикъл на културите.
  2. Винаги е по-добре да обмислите набор от функции с Bands и VI за моделирането, тъй като той винаги се представя по-добре от модела само с VI.
  3. Ако вземем предвид само значими/основни функции за всеки експеримент, има спад в производителността на OOA, но в същото време OOS се подобрява.
  4. Очакваше се, но сега е експериментално потвърдено, че добавянето на повече дати от сеитбата ще направи този модел по-добър.
  5. За моделиране на по-голяма площ можем да продължим напред с всичките 17 функции (12 ленти + 5 VI) за всяка дата, като вземем предвид 4 дати от сеитбата.

Тези експерименти и наблюдения помогнаха да се докаже нашата логична хипотеза и проправиха пътя към стратегията за ранна идентификация на културите за бъдещи работи. Радваме се да споделим напредъка си. Надяваме се, че сте харесали четенето на тази актуализация :).