Добре дошли в тази поредица от няколко части, в която обсъждаме пет пионерски изследователски статии, за да можете да започнете с откриването на 3D обекти. В тази статия ще обсъдим LaserNetот Gregory P. Meyer et. ал. и неговия екип в Uber. В сравнение с другите произведения, които обсъждаме в тази област, LaserNet е единственият вероятностен модел за откриване на обекти в 3D ограничителна кутия, което означава, че вместо да предвижда точните размери на ограничаващата кутия, този модел прогнозира вероятностите на тези измерения, което води до по-добро цялостно ефективност на откриване.

Създаден за LiDAR и самоуправляващи се автомобили

Някои самоуправляващи се автомобили имат устройство, монтирано в тях, наречено LiDAR (Light Detection and Ranging), което генерира 3D облак от точки за текущите пътни условия. Тези 3D облаци от точки са полезни за измерване на дълбочината на трафика, което е трудно да се получи само с камери. LaserNet е проектиран за бързи изводи (83 кадъра в секунда според отчета на хартиен носител, сред най-бързите мрежи) на ограничаващите кутии на тези облаци от точки, генерирани с LiDAR.

Използване на силата на CNN

CNN са страхотни за работа с изображения, а LaserNet има тенденция да използва техния потенциал и да го разшири до Point Clouds. Въпреки това, за разлика от изображенията, които обикновено са вектори с 3 канала, LaserNet преобразува облак от точки във 5-каналенвектор. За това преобразуване първо се получава 2D матрица на облака от точки, като се използва ID на лазера (64 в Velodyne LiDAR) като редове и съответния азимутен ъгъл за всеки лазер като колони. Устройството LiDAR изпраща лазерни лъчи, които са разделени вертикално и всеки лазерен лъч обхожда хоризонталната зона.

Сега всяка клетка в тази 2D матрица съдържа 5 комплекта информация, които се използват като вход към LaserNet. Тези стойности са височина, интензитет, обхват, азимутен ъгъл и isPointContained. Забележете, че всяка клетка в оригиналната 2D матрица е действителна точка на почистване от устройството LiDAR и понякога може да няма никаква точка на почистване вътре в клетката, следователно имаме индикаторна променлива isPointContained. >

Архитектура

CNN, използван в LaserNet, се използва за извличане на функции от входното изображение в различни мащаби за ефективно извличане и комбиниране на многомащабни характеристики. Тяхната мрежа се състои от 3 йерархични нива, като всяко ниво се състои от екстрактори на функции и агрегатори на функции. Също така, тъй като хоризонталната разделителна способност на изображението е значително по-голяма от вертикалната разделителна способност, намаляването се извършва само върху хоризонталното измерение.

Прогнози

LaserNet прогнозира за всяка точка:

  • Класове Вероятности за класификация
  • За всеки клас, параметрите на ограничителната кутия
  • Стандартното отклонение за всяка ограничителна кутия. Имайте предвид, че те предполагат обща дисперсия за всеки параметър на ограничителната кутия. Следователно, само едно стандартно отклонение се предвижда за всяка ограничителна кутия.
  • Комплект тежести за смеси. Направете справка с Моделите на смеси на Гаус, ако това не е ясно.

Клъстериране със средно изместване:Тъй като LaserNet прогнозира вероятностите за клас за всяка точка, тези вероятности могат да се комбинират, за да се получи обща вероятност и стандартно отклонение за всеки обект от клас. Клъстерирането със средно изместванее техниката, използвана за разширяване на тези отделни прогнози до ниво обект. Това също помага за намаляване на шума в прогнозите за точка.

Адаптивно немаксимално потискане:В изглед отгоре надолу ограничаващите полета не трябва да се припокриват. Въпреки това, поради несигурността в прогнозите, се очаква известно припокриване. Adaptive (NMS) се използва за решаване дали припокриващите се ограничителни полета съдържат отделна информация или не. Обърнете се към изображението по-долу за по-добър пример и пример за тази техника.

Резултати

Те обясняват причината за посредственото представяне на набора от данни Kitti, като заявяват, че е трудно да се научат мултимодални разпределения на малки набори от данни като Kitti. Техниката им обаче е страхотна, когато размерът на набора от данни е голям, както в случая с ATG4D.

Вижте част 3 от тази публикация тук и част 5 тук.