Добре дошли в тази поредица от няколко части, в която обсъждаме пет пионерски изследователски статии, за да можете да започнете с откриването на 3D обекти. В тази статия ще обсъдим LaserNetот Gregory P. Meyer et. ал. и неговия екип в Uber. В сравнение с другите произведения, които обсъждаме в тази област, LaserNet е единственият вероятностен модел за откриване на обекти в 3D ограничителна кутия, което означава, че вместо да предвижда точните размери на ограничаващата кутия, този модел прогнозира вероятностите на тези измерения, което води до по-добро цялостно ефективност на откриване.
Създаден за LiDAR и самоуправляващи се автомобили
Някои самоуправляващи се автомобили имат устройство, монтирано в тях, наречено LiDAR (Light Detection and Ranging), което генерира 3D облак от точки за текущите пътни условия. Тези 3D облаци от точки са полезни за измерване на дълбочината на трафика, което е трудно да се получи само с камери. LaserNet е проектиран за бързи изводи (83 кадъра в секунда според отчета на хартиен носител, сред най-бързите мрежи) на ограничаващите кутии на тези облаци от точки, генерирани с LiDAR.
Използване на силата на CNN
CNN са страхотни за работа с изображения, а LaserNet има тенденция да използва техния потенциал и да го разшири до Point Clouds. Въпреки това, за разлика от изображенията, които обикновено са вектори с 3 канала, LaserNet преобразува облак от точки във 5-каналенвектор. За това преобразуване първо се получава 2D матрица на облака от точки, като се използва ID на лазера (64 в Velodyne LiDAR) като редове и съответния азимутен ъгъл за всеки лазер като колони. Устройството LiDAR изпраща лазерни лъчи, които са разделени вертикално и всеки лазерен лъч обхожда хоризонталната зона.
Сега всяка клетка в тази 2D матрица съдържа 5 комплекта информация, които се използват като вход към LaserNet. Тези стойности са височина, интензитет, обхват, азимутен ъгъл и isPointContained. Забележете, че всяка клетка в оригиналната 2D матрица е действителна точка на почистване от устройството LiDAR и понякога може да няма никаква точка на почистване вътре в клетката, следователно имаме индикаторна променлива isPointContained. >
Архитектура
CNN, използван в LaserNet, се използва за извличане на функции от входното изображение в различни мащаби за ефективно извличане и комбиниране на многомащабни характеристики. Тяхната мрежа се състои от 3 йерархични нива, като всяко ниво се състои от екстрактори на функции и агрегатори на функции. Също така, тъй като хоризонталната разделителна способност на изображението е значително по-голяма от вертикалната разделителна способност, намаляването се извършва само върху хоризонталното измерение.
Прогнози
LaserNet прогнозира за всяка точка:
- Класове Вероятности за класификация
- За всеки клас, параметрите на ограничителната кутия
- Стандартното отклонение за всяка ограничителна кутия. Имайте предвид, че те предполагат обща дисперсия за всеки параметър на ограничителната кутия. Следователно, само едно стандартно отклонение се предвижда за всяка ограничителна кутия.
- Комплект тежести за смеси. Направете справка с Моделите на смеси на Гаус, ако това не е ясно.
Клъстериране със средно изместване:Тъй като LaserNet прогнозира вероятностите за клас за всяка точка, тези вероятности могат да се комбинират, за да се получи обща вероятност и стандартно отклонение за всеки обект от клас. Клъстерирането със средно изместванее техниката, използвана за разширяване на тези отделни прогнози до ниво обект. Това също помага за намаляване на шума в прогнозите за точка.
Адаптивно немаксимално потискане:В изглед отгоре надолу ограничаващите полета не трябва да се припокриват. Въпреки това, поради несигурността в прогнозите, се очаква известно припокриване. Adaptive (NMS) се използва за решаване дали припокриващите се ограничителни полета съдържат отделна информация или не. Обърнете се към изображението по-долу за по-добър пример и пример за тази техника.
Резултати
Те обясняват причината за посредственото представяне на набора от данни Kitti, като заявяват, че е трудно да се научат мултимодални разпределения на малки набори от данни като Kitti. Техниката им обаче е страхотна, когато размерът на набора от данни е голям, както в случая с ATG4D.