Abstract
이 논문은 전통적인 차선 감지 방법은 특징 추출과 후처리의 두 단계를 포함한다. 이러한 방법은 유용하지만 비효율적일 수 있고 전역 컨텍스트(global context)와 차선의 길고 얇은 구조를 학습하는 데 어려움이 있을 수 있다.
이러한 문제를 해결하기 위해 차선 형태 모델의 매개 변수를 직접 출력하는 종단 간 방법(end-to-end method)을 제안한다. 이 방법은 transformer로 구축된 네트워크를 사용하여 더 풍부한 구조와 맥락을 학습합니다. 차선 형태 모델은 도로 구조와 카메라 포즈를 기반으로 하여 네트워크 출력 매개 변수의 물리적 해석을 가능하게 한다. transformer는 self-attention 메커니즘을 사용하여 nonlocal interactions을 모델링하여 가느다란 구조와 글로벌 컨텍스트를 보다 효과적으로 포착한다.
제안된 방법은 TuSimple 벤치마크에서 검증되었으며 최첨단 정확도, 경량 모델 크기 및 가장 빠른 속도를 보여준다. 또한 까다로운 자체 수집 차선 감지 데이터 세트에 대한 뛰어난 적응성을 보여주어 실제 애플리케이션에 배치할 수 있는 가능성을 강조한다.
1. Introduction
차선 감지는 차선의 길고 얇은 구조, 다양한 유형, 조명 조건 및 차량과 보행자의 장애물로 인해 어려울 수 있습
니다. 모바일 장치에 이러한 알고리즘을 배포하려면 높은 실행 효율성과 적응성이 필수적입니다.
CNN(Convolutional Neural Network)을 사용하는 현재의 방법은 수작업 기능 및 Hough Transform을 기
반으로 하는 기존 방법에 비해 차선 감지 성능이 향상되었습니다. 그러나 이러한 CNN 기반 방법은 여전히 비효
율, 글로벌 컨텍스트 무시, 복잡한 앵커 설계 선택에 의존하는 등의 과제에 직면해 있습니다.
본 논문은 차선 감지 출력을 차선 모양 모델의 매개 변수로 재구성하고 로컬이 아닌 빌딩 블록(non-local building blocks)이 있는 네트워크를 사용하여 글로벌 컨텍스트와 차선의 가느다란 구조 학습을 강화하는 새로운 접근 방식을 제안합니다. 이 네트워크는 트랜스포머(transformer) 블록을 사용하여 언어 시퀀스의 장거리 의존성을 모델링하는 자연어 처리 모델에서 영감을 받았습니다.
2. Related Work
기존의 차선 감지 기술에는 DBSCAN[11]과 같은 Hough 변환 변형 및 클러스터링 알고리즘을 사용하여 낮은 수준의 기능을 추출하는 기능 기반 방법과 지오메트리 및 노면과 같은 하향식 사전 설정(top-down priors)을 사용하는 모델 기반 방법이 포함됩니다. 그러나, 심층 신경망 기반 방법은 최근 몇 년 동안 더 나은 성능을 보여주었습니다.
일부 새로운 방법은 차선에서 길고 얇은 구조를 학습하는 문제를 해결합니다. 예를 들어, SCNN은 글로벌 컨텍스트를 캡처하기 위해 메시지 전달(message passing)을 사용하는 반면, 다른 것들은 모델 교육을 안내하기 위해 추가 장면 주석을 사용합니다. Enet-SAD는 소프트 어텐션(soft attention) 메커니즘을 적용하여 중요하지 않은 기능을 걸러내고 더 풍부한 글로벌 정보를 추출합니다.
저자들은 중간 표현이나 후처리 없이 종단 간 방식으로 작업하면서 차선 모양 모델의 매개 변수를 직접 출력하는 새로운 방법을 제안합니다. 이들의 접근 방식은 복잡한 휴리스틱 선택과 느린 속도와 같은 단점으로 어려움을 겪는 Line-CNN과 같은 다른 종단 간 차선 감지기와 다릅니다. PolyLaneNet은 높은 효율성을 달성하지만 글로벌 정보 및 도로 구조 모델링을 무시하여 정확도에 한계가 있습니다.
해당 논문에서는 도로 구조와 카메라 포즈에서 파생된 매개 변수가 있는 차선 모양 모델과 비국소적 상호 작용을 모델링하기 위해 transformer 블록으로 구축된 네트워크를 사용합니다. 이를 통해 이 방법은 길고 가는 차선 구조와 글로벌 컨텍스트 정보를 더 잘 캡처할 수 있습니다. 제안된 방법은 도로 구조와 카메라 포즈를 모델링하는 차선 모양 모델의 매개 변수를 직접 회귀시키는 것을 포함합니다. 이를 통해 계산 집약적일 수 있는 중간 표현이나 후 처리가 필요하지 않습니다.
3. Method
3.1. Lane Shape Model
이 모델은 지면의 차선 선 모양을 이미지 평면에 투영할 수 있는 다항식 곡선, 일반적으로 입방 곡선으로 표현하는 것을 목표로 합니다.
평평한 지면에서 단일 차선 선을 나타내는 입방 곡선 방정식으로 시작하여 실수 모수 k, m, n 및 b(k ≠ 0)를 사용합니다. (X, Z) 좌표는 접지면의 점을 나타냅니다. 카메라의 광축이 지면과 평행할 때, 입방 곡선 방정식은 새로운 매개변수 k', m', n' 및 b'를 사용하여 영상 평면에 투영될 수 있습니다. 이 경우, (u, v)는 영상 평면에서 픽셀을 나타냅니다.
카메라가 기울어진 경우 광축은 지면과 각도 θ를 형성합니다. 기울기를 설명하기 위해 새로운 방정식이 도입되었습니다. 여기서 f는 픽셀 단위의 초점 길이이고 (u', v')는 기울어진 영상 평면에서 해당 위치입니다. θ = 0일 때 이 방정식은 평행 광축에 대한 방정식으로 단순화됩니다.
그런 다음 파라미터를 피치 각도 θ와 결합하여 곡선을 다시 매개변수화하여 기울어진 카메라 평면에서 곡선을 나타내는 새로운 방정식을 생성합니다. 수직 시작 및 종료 오프셋 α 및 β는 차선 라인의 상한 및 하한을 설명하기 위해 도입되었습니다. 실제 도로 상황에서 차선은 일반적으로 전체적으로 일관된 모양을 가지고 있으므로 곡률 관련 매개변수는 이미지의 모든 차선에 대해 공유됩니다.
마지막으로, 각 차선의 출력은 차선 번호와 공유 곡률 매개변수를 고려한 새로운 방정식으로 다시 매개변수화됩니다. 각 차선은 치우침 항과 하한/상한에서만 다릅니다.
간단히 말해서, 이 모델은 다항식 곡선을 사용하고 카메라의 기울기를 조정하여 이미지에서 차선 선의 모양을 표현하는 것을 목표로 합니다. 모든 차선에 걸친 공유 곡률 매개변수와 각 차선의 수직 시작점과 끝점을 고려합니다.
3.2. Hungarian Fitting Loss
3.3. Architecture
4. Experiments
c.f.
글로벌 컨텍스트(Global context)는 이미지 또는 데이터의 서로 다른 부분 간의 광범위한 정보 또는 관계를 나타냅니다. 컴퓨터 비전과 딥 러닝의 맥락에서, 그것은 모델이 장면의 전체적인 구조나 패턴을 이해하고 인식하는 데 도움이 됩니다. 예를 들어, 차선 감지에서 글로벌 컨텍스트는 모델이 전체 도로 레이아웃과 여러 차선 간의 관계를 이해하는 데 도움이 될 수 있습니다.
'자율주행' 카테고리의 다른 글
[자율주행 차선관련 논문] Key Points Estimation and Point Instance Segmentation Approach for Lane Detection (0) | 2023.03.29 |
---|---|
[자율주행 논문] Scaling Self-Supervised End-to-End Driving with Multi-View Attention Learning (0) | 2023.03.24 |
[자율주행 차선관련 논문] End to End Learning for Self-Driving Cars (0) | 2023.02.20 |
[코딩] Python을 이용한 고전적 방식의 차선인식1_(코드) (0) | 2023.01.01 |
[코딩] Python을 이용한 고전적 방식의 차선인식1_색상추출 (1) | 2023.01.01 |
댓글