본문 바로가기
자율주행

[자율주행 차선관련 논문] 2018, Towards End-to-End Lane Detection: an Instance SegmentationApproach

by icebear3000 2023. 3. 29.
반응형

Abstract

 이 논문에서는 인스턴스 분할을 사용하여 자율 주행 차량의 차선 감지에 대한 새로운 접근 방식에 대해 설명합니다. 최근 픽셀 단위 차선 분할을 위해 딥러닝 모델을 사용하지만 고정된 차선 수를 감지하는 데 제한이 있으며 차선 변경을 처리할 수 없습니다. 

 저자는  lane detection 문제를 인스턴스 분할(instance segmentation) 문제로 취급할 것을 제안합니다. 여기서 각 레인은 자체 인스턴스를 형성하여 엔드 투 엔드(end-to-end) 훈련 가능한 모델을 허용합니다. 이 접근 방식은 다양한 차선 수를 처리하고 차선 변경에 대처할 수 있습니다. 또한 고정된 "조감도(bird's-eye view)" 변환이 아닌 이미지에 따라 학습된 원근 변환을 사용할 것을 제안합니다. 이렇게 하면 도로 평면의 변화에 대해 차선 피팅이 견고해집니다. 

 제안된 차선 감지 알고리즘은 초당 50프레임으로 빠르게 실행되며 tuSimple 데이터 세트에서 테스트되어 경쟁력 있는 결과를 얻었습니다. 핵심은 차선인식을 위해 인스턴스 분할을 사용하는 새로운 접근방식과 개선된 lane fitting 을 위해 학습된 관점 변환을 사용하는 것입니다.

 

1. INTRODUCTION

 완전한 자율 주행을 위해서는 실시간으로 정확한 차선 감지가 필수적입니다. 최근에는 딥러닝을 사용하여 조밀한 예측, 즉 이미지에 표시가 없는 경우에도 차선을 추정할 수 있는 픽셀 단위 차선 분할을 학습합니다. 그러나 이러한 방법은 여전히 후처리 기술이 필요하고 차선 변경 처리 및 다양한 차선 감지에 제한이 있습니다.

 

 저자는 각 레인이 레인 클래스 내에서 자체 인스턴스를 형성하는 인스턴스 분할 문제로 레인 감지 문제를 캐스팅할 것을 제안합니다. 그들은 종단간 훈련이 가능한 레인 분할 분기(lane segmentation branch)와 레인 임베딩 (lane embedding branch) 구성된 분기된 멀티태스킹 네트워크를 설계합니다. 이 접근 방식을 통해 차선 변경 및 다양한 차선 수를 처리할 수 있습니다. 

 또한 신경망을 사용하여 차선 맞춤을 위한 원근법 변환의 매개변수를 추정하여 오르막/내리막 경사와 같은 도로 평면 변경에 대해 견고하게 만들 것을 제안합니다.

 

2. METHOD

A. LANENET

 LaneNet은 차선 감지를 인스턴스 분할 문제로 취급하고 원샷 인스턴스 분할을 위해 이진 레인 분할(binary lane segmentation)과 클러스터링 손실 함수(clustering loss function)를 결합합니다. LaneNet의 출력에서 각 레인 픽셀에는 해당 레인의 ID가 할당됩니다.

 LaneNet은 end-to-end로 학습되며 아키텍처는 인코더-디코더(encoder-decoder) 네트워크 ENet을 기반으로 두 분기 네트워크로 수정되었습니다. 첫 번째 분기는 차선에 속하는 픽셀과 그렇지 않은 픽셀을 나타내는 이진 분할 맵을 출력하는 이진 분할을 처리합니다. 두 번째 분기는 인스턴스 분할을 담당하며 분할 분기에서 식별된 레인 픽셀을 분리하는 데 중점을 둡니다.

 

 binary segmentation : binary segmentation map을 출력하도록 훈련되어 어떤 픽셀이 차선에 속하는지 여부를 나타낸다. 또한, 장애물과 같은 물체에 가려진 경우, 점선 또는 희미한 차선과 같은 명시적인 시각적 차선이 없는 경우에도 예측하는 방법을 학습한다. cross-entropy loss를 사용하였으며, 두 클래스(lane/background)가 매우 불균형하므로 bounded inverse class weighting 적용하였다.

 

 instance segmentation : one-shot method 기반의 distance metric learning방법을 사용하였으며 real-time 어플리케이션을 위해 특별히 설계되었다. 이 clustering loss function 방법은 각 차선 픽셀이 같을 경우 거리가 작아지게 만들고, 다른 차선일 경우 거리가 더욱 멀어지게 만들었다.  
두 개의 terms로 나뉘며, var은 각 차선 픽셀에 대해 mean embedding을 수행한다. 또 다른 dist는 cluster의 center로 모이게 만든다.

 

 

B. CURVE FITTING USING H-NET

 입력 이미지를 기반으로 이상적인 관점 변환의 매개변수를 추정하는 신경망인 H-Net을 소개합니다. 이 변환은 저차(low-order) 다항식을 사용하여 차선의 최적 곡선 맞춤을 허용하여 경사면과 같은 평평하지 않은 지면의 문제를 해결합니다. LaneNet의 출력은 차선당 픽셀 모음이며 H-Net을 사용하여 커브 피팅을 수행하여 변환된 이미지 공간에서 이러한 픽셀을 통해 다항식을 피팅합니다. 피팅된 다항식은 변환된 각 픽셀 위치에서 평가되며 예측은 원래 이미지 공간으로 다시 투영됩니다. H-Net의 손실 함수는 예측 차선 지점과 실측 차선 지점 간의 차이를 기반으로 합니다.

 H-Net의 아키텍처는 의도적으로 작으며 3x3 컨볼루션, 배치 정규화 및 ReLU 활성화 함수의 연속 블록으로 구성되며 최대 풀링 레이어는 크기를 줄이고 끝에 두 개의 완전히 연결된 레이어가 추가됩니다.

 

3. RESULTS

A. Dataset

 tuSimple 차선 데이터 세트입니다. 데이터 세트에는 다양한 기상 조건, 도로 유형 및 시간대에 따른 3,626개의 훈련 이미지와 2,782개의 테스트 이미지가 포함되어 있습니다. 

 

B. Setup

 이 연구의 설정에는 임베딩 차원이 4인 LaneNet 훈련과 3차 다항식 피팅을 위한 H-Net이 포함됩니다. 이미지는 학습을 위해 512x256으로 조정됩니다. 두 네트워크 모두 훈련을 위해 Adam 옵티마이저를 사용합니다. 

 

C. Experiments

실험에서 연구원들은 변환 없음, 고정 변환 및 H-Net 기반 조건부 변환을 사용하여 차선 맞춤의 정확도를 비교합니다. 결과는 차선 맞춤에 최적화된 H-Net에서 생성한 변환 행렬을 사용하는 것이 다른 방법보다 성능이 우수함을 보여줍니다. 제안된 방법은 변환에 대한 매개변수를 적절하게 조정하여 지표면 기울기 변화에 강인합니다. 

 

 

4. CONCLUSION

 3차 다항식 피팅 및 H-Net의 변환 행렬과 결합된 LaneNet을 사용하여 이 방법은 tuSimple 챌린지에서 4위에 도달했으며 첫 번째 항목 사이의 차이는 0.5%에 불과했습니다.

반응형

댓글