LaserNet — Откриване и проследяване на ограничителна кутия на 3D облаци от точки (PointNet, PointNet++, LaserNet…

Добре дошли в тази поредица от няколко части, в която обсъждаме пет пионерски изследователски статии, за да можете да започнете с откриването на 3D обекти. В тази статия ще обсъдим LaserNetот Gregory P. Meyer et. ал. и неговия екип в Uber. В сравнение с другите произведения, които обсъждаме в тази област, LaserNet е единственият вероятностен модел за откриване на обекти в 3D ограничителна кутия, което означава, че вместо да предвижда точните размери на ограничаващата кутия, този модел прогнозира вероятностите на тези измерения, което води до по-добро цялостно ефективност на откриване.

Създаден за LiDAR и самоуправляващи се автомобили

Някои самоуправляващи се автомобили имат устройство, монтирано в тях, наречено LiDAR (Light Detection and Ranging), което генерира 3D облак от точки за текущите пътни условия. Тези 3D облаци от точки са полезни за измерване на дълбочината на трафика, което е трудно да се получи само с камери. LaserNet е проектиран за бързи изводи (83 кадъра в секунда според отчета на хартиен носител, сред най-бързите мрежи) на ограничаващите кутии на тези облаци от точки, генерирани с LiDAR.

Използване на силата на CNN

CNN са страхотни за работа с изображения, а LaserNet има тенденция да използва техния потенциал и да го разшири до Point Clouds. Въпреки това, за разлика от изображенията, които обикновено са вектори с 3 канала, LaserNet преобразува облак от точки във 5-каналенвектор. За това преобразуване първо се получава 2D матрица на облака от точки, като се използва ID на лазера (64 в Velodyne LiDAR) като редове и съответния азимутен ъгъл за всеки лазер като колони. Устройството LiDAR изпраща лазерни лъчи, които са разделени вертикално и всеки лазерен лъч обхожда хоризонталната зона.

Сега всяка клетка в тази 2D матрица съдържа 5 комплекта информация, които се използват като вход към LaserNet. Тези стойности са височина, интензитет, обхват, азимутен ъгъл и isPointContained. Забележете, че всяка клетка в оригиналната 2D матрица е действителна точка на почистване от устройството LiDAR и понякога може да няма никаква точка на почистване вътре в клетката, следователно имаме индикаторна променлива isPointContained. >

Архитектура

CNN, използван в LaserNet, се използва за извличане на функции от входното изображение в различни мащаби за ефективно извличане и комбиниране на многомащабни характеристики. Тяхната мрежа се състои от 3 йерархични нива, като всяко ниво се състои от екстрактори на функции и агрегатори на функции. Също така, тъй като хоризонталната разделителна способност на изображението е значително по-голяма от вертикалната разделителна способност, намаляването се извършва само върху хоризонталното измерение.

Прогнози

LaserNet прогнозира за всяка точка:

Класове Вероятности за класификация
За всеки клас, параметрите на ограничителната кутия
Стандартното отклонение за всяка ограничителна кутия. Имайте предвид, че те предполагат обща дисперсия за всеки параметър на ограничителната кутия. Следователно, само едно стандартно отклонение се предвижда за всяка ограничителна кутия.
Комплект тежести за смеси. Направете справка с Моделите на смеси на Гаус, ако това не е ясно.

Клъстериране със средно изместване:Тъй като LaserNet прогнозира вероятностите за клас за всяка точка, тези вероятности могат да се комбинират, за да се получи обща вероятност и стандартно отклонение за всеки обект от клас. Клъстерирането със средно изместванее техниката, използвана за разширяване на тези отделни прогнози до ниво обект. Това също помага за намаляване на шума в прогнозите за точка.

Адаптивно немаксимално потискане:В изглед отгоре надолу ограничаващите полета не трябва да се припокриват. Въпреки това, поради несигурността в прогнозите, се очаква известно припокриване. Adaptive (NMS) се използва за решаване дали припокриващите се ограничителни полета съдържат отделна информация или не. Обърнете се към изображението по-долу за по-добър пример и пример за тази техника.

Резултати

Те обясняват причината за посредственото представяне на набора от данни Kitti, като заявяват, че е трудно да се научат мултимодални разпределения на малки набори от данни като Kitti. Техниката им обаче е страхотна, когато размерът на набора от данни е голям, както в случая с ATG4D.

Вижте част 3 от тази публикация тук и част 5 тук.