Abstract
PolyLaneNet이라고 하는 자율 주행의 맥락(context)에서 차선 감지를 위한 새로운 방법을 제시합니다. 차선 감지 방법은 실시간(초당 최소 30프레임)으로 작동해야 하므로 효과적(높은 정확도)과 효율적(빠른) 시스템을 개발하는 것이 주요 목표입니다.
제안된 방법은 차량에 장착된 전방 카메라의 이미지를 입력으로 사용하고 심층 다항식 회귀를 사용하여 이미지의 각 차선 표시를 나타내는 다항식을 출력합니다. 저자는 PolyLaneNet이 효율성(115FPS)을 유지하면서 TuSimple 데이터 세트를 사용하여 기존의 최첨단 방법과 경쟁적으로 성능을 발휘함을 보여줍니다.
이 논문은 또한 두 개의 추가 공개 데이터 세트에 대한 광범위한 질적 결과를 포함하고 있으며, 차선 감지를 위해 최근 작업에 사용된 평가 지표의 한계를 강조합니다. 재현성과 추가 연구를 촉진하기 위해 저자는 최신 차선 감지 방법 중에서는 흔치 않은 소스 코드와 훈련된 모델을 제공합니다. 전체 소스 코드 및 사전 훈련된 모델은 https://github.com/lucastabelini/PolyLaneNet 에서 확인할 수 있습니다.
I. INTRODUCTION
자율 주행 분야에서 차선 추정의 과제와 중요성에 대해 논의합니다. 차선 표시는 중요한 시각적 단서를 제공하고 운전자의 행동에 대한 경계를 설정하기 때문에 차선 추정은 환경을 이해하고 안전한 주행을 결정하는 데 필수적입니다. 그러나 다양한 차선 표시 모양과 색상, 부분 폐색, 다양한 환경 및 기상 조건으로 인해 작업이 어렵습니다.

전통적인 차선 추정 방법에는 수작업 형상을 추출한 다음 곡선 피팅 프로세스가 포함됩니다. 이러한 접근 방식은 특정 상황에서는 잘 작동할 수 있지만 불리한 조건에서는 어려움을 겪습니다. 결과적으로, 딥러닝은 강력한 기능을 학습하고 차선 표시 추정 프로세스를 개선하는 데 사용되었습니다. 그러나 이러한 모델의 대부분은 2단계 프로세스(특성 추출 및 곡선 적합)를 사용하므로 비효율적이고 글로벌 정보를 무시할 수 있습니다. 또한, 민간 기업의 일부 작업은 결과를 복제할 수 있는 수단을 제공하지 않아 연구 진행을 방해합니다.
이러한 문제를 해결하기 위해 저자는 종단 간 차선 표시 추정을 위한 컨볼루션 신경망(CNN)인 PolyLaneNet을 제안합니다. 네트워크는 전방 카메라에서 입력 이미지를 가져와 각 차선 표시를 나타내는 다항식과 각 차선에 대한 도메인 및 신뢰 점수를 출력합니다. 이 접근 방식은 기존의 최첨단 방법과 경쟁력이 있고, 더 빠르며, 사후 처리가 필요하지 않습니다. 저자들은 또한 문헌에서 제안한 메트릭을 사용하여 심층적인 분석을 제공하고 결과의 복제를 가능하게 하기 위해 소스 코드와 훈련된 모델을 릴리스합니다.
II. RELATED WORKS
Lane Detection
수작업(hand-crafted features)에 의존한 모델 기반 또는 학습 기반 접근 방식에서 시작하여 차선 감지 방법의 진화에 대해 설명합니다. 이러한 초기 방법은 갑작스러운 조명 변화, 날씨 조건 및 카메라 간의 외관 차이에 강인하지 않았습니다.
딥러닝의 증가와 함께, 연구원들은 그것을 차선 감지에 적용하기 시작했습니다. Huval 등[14]은 나중에 DBSCAN 클러스터링을 사용하여 후처리된 분할 맵을 생성한 모델과 함께 이러한 맥락에서 딥러닝을 사용한 최초의 사례 중 하나였습니다. 차선 감지를 위한 딥 러닝의 성공은 기업들의 관심을 끌었고, 포드는 측면에 장착된 카메라를 기반으로 차선을 감지하지만 모델링 접근 방식으로 인해 적용 가능성이 제한된 DeepLanes[15]를 출시했습니다.
CVPR'17에서 개최된 차선 감지 챌린지는 TuSimple [16] 데이터 세트를 공개했으며, 우승 방법은 특수하게 설계된 CNN 구조를 사용한 SCNN [7]이었습니다. 그 후, Line-CNN [8], FastDraw [17] 및 Enet-SAD [9]와 같은 다른 방법이 제안되었으며, 성공과 재현성의 정도는 다양했습니다. 심층 신경망에 의해 예측된 점에 곡선을 맞추기 위해 차별화 가능한 최소 제곱 적합 모듈이 사용된 [18]에서 다른 접근 방식이 제안되었습니다.
기존 최첨단 방법의 주요 문제 중 하나는 재현성입니다. 대부분이 사용된 데이터 세트나 소스 코드를 게시하지 않기 때문입니다. 대조적으로, 저자들은 공개 데이터 세트에서 최첨단 방법과 경쟁력 있는 결과를 제시하고 소스 코드를 제공하여 완전한 재현성을 보장하고 미국 외부의 데이터 세트를 포함하여 공개적으로 사용 가능한 데이터 세트를 활용합니다.
III. POLYLANENET
전방 차량 카메라에서 이미지를 입력으로 가져와 다항식으로 표현된 차선 표시 후보를 수평선의 수직 위치와 함께 출력하는 PolyLaneNet 모델을 설명합니다.
Model Definition
모델의 아키텍처는 특징 추출을 위한 백본 네트워크로 구성되며, Mmax + 1 출력을 가진 완전 연결된 레이어가 뒤따릅니다. 여기서 Mmax는 차선 표시 후보의 최대 수입니다. 모형은 각 차선 표시에 대한 다항식 표현의 계수와 각 차선에 대한 수직 오프셋 및 예측 신뢰 점수를 추정합니다.
Model Training
모델 교육을 위해 저자는 다항식 적합성, 수직 오프셋, 신뢰 점수 및 수평선에 대한 손실을 포함하는 다중 작업 손실 함수를 고려합니다. 모델은 평균 제곱 오차(MSE)와 이진 교차 엔트로피(BCE) 함수의 조합을 사용하여 훈련됩니다. Lp 손실 함수는 주석이 달린 점에 대한 다항식의 조정 정도를 측정합니다.
IV. EXPERIMENTAL METHODOLOGY
공개적으로 사용 가능한 데이터 세트에서 PolyLaneNet을 평가하기 위한 실험 방법론을 소개하여 구현, 메트릭 및 수행된 실험에 대한 세부 정보를 제공합니다.
A. Datasets
세 가지 데이터 세트를 사용한 PolyLaneNet 모델의 평가에 대해 설명합니다. TuSimple은 주석이 달린 6,408개의 이미지가 있는 널리 사용되는 데이터 세트이며 정량적 결과에 사용됩니다. LLAMAS는 99,042개의 이미지를 가진 대규모 데이터 세트이지만 벤치마크 및 테스트 세트 주석을 사용할 수 없기 때문에 정성적인 결과만 제시됩니다. ELAS는 16,993개의 이미지가 있는 브라질의 데이터 세트이며, ego-lane에만 주석을 다는 데 중점을 둡니다.
B. Implementation details
저자는 EfficientNet-b0을 백본 네트워크로 사용하고 데이터 확대 및 변환을 적용하여 이미지를 사전 처리합니다. Adam optimizer와 Cosine Annealing 학습률 스케줄러를 training에 사용합니다. training 세션은 배치 크기가 16개인 Titan V GPU에서 약 35시간이 소요됩니다. 이 모델은 ImageNet에서 사전 교육을 받았습니다. 손실 함수 모수 및 신뢰 점수 임계값이 지정됩니다.
C. Evaluation Metrics
제안된 방법의 성능은 TuSimple 벤치마크의 정확도(Acc), 거짓 양성(FP) 및 거짓 음성(FN) 속도를 사용하여 측정됩니다. 저자들은 또한 차선 위치 편차(LPD) 메트릭을 사용하여 자아 차량의 다양한 시야 깊이에서 모델의 정확도를 포착합니다. 이러한 메트릭 외에도 저자는 계산 효율성과 정확성 간의 균형을 분석하기 위해 초당 프레임 수(FPS) 및 다중 누적 연산(MAC)과 같은 속도 관련 메트릭에 대해 보고합니다. 또한 이 기사에서는 서로 다른 계산 요구 사항을 가진 PolyLaneNet 변형을 평가하기 위한 절제 연구에 대해 설명합니다.
D. Quantitative Evaluation
State-of-the-art Comparison
제안된 방법은 훈련 및 테스트를 위해 TuSimple 데이터 세트를 사용하여 SCNN, Line-CNN, ENet-SAD 및 FastDraw의 네 가지 State-of-the-art 방법과 비교됩니다. 평가는 초당 프레임 수(FPS) 측면에서 예측 품질 메트릭과 모델 속도에 중점을 둡니다. 제안된 모델의 경우 다중 누적 연산(MAC)도 보고됩니다.
Polynomial Degree
저자들은 기본 3차 다항식과 비교하여 저차 다항식, 특히 1차 및 2차 다항식으로 차선 표시를 모델링하는 것의 영향을 조사합니다. 또한 서로 다른 차수의 다항식에 대한 상한을 계산하여 표준 TuSimple 메트릭의 허용성을 분석합니다.
Ablation Study
제안된 방법에 대한 다양한 결정의 영향을 조사하기 위해 절제 연구가 수행됩니다. 이 연구에서는 TuSimple의 교육 세트를 교육에 사용하고 검증 세트를 테스트에 사용합니다. 저자들은 ResNet-34, ResNet-50 및 EfficientNet-b1을 포함한 다양한 백본 네트워크를 평가합니다. 또한 네트워크 성능 및 정보 손실과 관련하여 서로 다른 이미지 입력 크기(480x270 및 320x180 픽셀) 간의 균형을 평가합니다. 또한, 그들은 (i) 개별적으로 예측된 각 차선의 끝을 공유하지 않는 것, (ii) 사전 훈련된 모델을 사용하는 것 대 처음부터 훈련하는 것, (iii) 데이터 확대를 사용하는 것이 모델의 성능에 미치는 영향을 조사합니다.
E. Qualitative Evaluation
저자들은 TuSimple 데이터 세트에서 훈련된 모델을 사전 훈련 단계로 사용하여 정성적(Qualitative) 평가를 수행합니다. 그들은 ELAS 데이터 세트에 2개(차선 표시 유형 분류가 있는 것과 없는 것)와 LLAMAS 데이터 세트에 1개의 추가 모델을 교육합니다.
ELAS 데이터 세트의 경우, 모델은 추가적인 385 에포크에 대해 훈련되며, 이는 학습 속도가 최소가 되는 선택된 학습 속도 스케줄러의 기간의 절반에 해당합니다. LLAMAS 데이터 세트의 경우, LLAMAS의 훈련 세트가 ELAS의 훈련 세트보다 약 5배 크다는 것을 고려할 때, 모델은 75개 이상의 에포크에 대해 훈련되며, 이는 ELAS에 사용되는 반복 횟수와 거의 같습니다.
차선 표시 유형 분류에 대한 실험은 PolyLaneNet 모델이 각 차선의 범주를 예측하기 위해 어떻게 쉽게 확장될 수 있는지를 보여주며, 다양한 작업에 대한 유연성과 적응성을 보여줍니다.
V. RESULTS
State-of-the-art Comparison.
PolyLaneNet은 다른 State-of-the-art 방법과 비교하여 TuSimple 데이터 세트에서 경쟁력 있는 결과를 보여줍니다. 카메라에 가까운 차선 표시에 대한 정확한 예측을 보여주는 반면 수평선에 가까운 차선 표시에 대한 성능은 떨어집니다. 데이터 세트의 불균형과 예측 라인에 대한 네트워크의 편향이 원인이라 예상합니다.
Polynomial Degree
하위 다항식을 사용할 때 정확도의 차이는 데이터 집합의 불균형을 강조합니다. LPD 메트릭은 1차 다항식을 사용하여 훈련된 모델과 다른 모델 간의 차이를 더 잘 포착합니다. TuSimple 메트릭이 거의 직선으로 보이는 차선 표시의 일부에서만 정확한 예측을 적절하게 처벌하지 못할 수 있으며 LDP 메트릭은 상한을 명확하게 구별할 수 있음을 보여줍니다.
Ablation Study
절제 연구 결과에 따르면 EfficientNet-b1이 가장 높은 정확도를 달성하고 EfficientNet-b0 및 ResNet-34가 그 뒤를 이룹니다. ResNet-50과 같은 대형 네트워크는 데이터에 과적합할 수 있습니다. 입력 크기를 줄이면 정확도가 떨어지지만 속도가 향상될 수 있습니다. top-y(h) 매개 변수를 공유하면 결과가 약간 향상되고 ImageNet에서 사전 훈련된 모델의 훈련은 최종 결과에 상당한 영향을 미칩니다. 또한 데이터 확대는 정확성을 향상시킵니다.
VI. CONCLUSION
본 연구에서는 심층 다항식 회귀(deep polynomial regression)를 기반으로 한 새로운 차선 감지 방법을 제안합니다. 이 방법은 최첨단 접근 방식에 비해 경쟁력 있는 정확도를 유지하면서 간단하고 효율적입니다. 정확도가 약간 높은 일부 방법이 존재하지만 대부분 복제를 위한 소스 코드를 제공하지 않기 때문에 방법 간의 차이를 심층적으로 조사하는 것이 어렵습니다.
저자들은 그들의 방법이 계산적으로 효율적일 뿐만 아니라 공개적으로 이용 가능할 것이라고 강조합니다. 이를 통해 차선 표시 감지에 대한 향후 연구가 비교 및 출발점으로 기준선을 가질 수 있습니다. 그들은 또한 차선 표시 감지 방법을 평가하는 데 사용되는 메트릭의 문제를 지적하며, 향후 연구가 다양한 접근 방식(예: 분할)에서 사용할 수 있는 메트릭을 탐색하고 차선 감지 방법의 결함을 더 잘 강조할 수 있음을 시사합니다.
REFERENCES
[1] C. Badue, R. Guidolini, R. V. Carneiro, P. Azevedo, V. B. Cardoso, A. Forechi, L. Jesus, R. Berriel, T. Paixao, F. Mutz ˜ et al., “Self-driving Cars: A Survey,” arXiv preprint arXiv:1901.04407, 2019. [2] L. C. Possatti, R. Guidolini, V. B. Cardoso, R. F. Berriel, T. M. Paixao, C. Badue, A. F. De Souza, and T. Oliveira-Santos, “Traffic light ˜ recognition using deep learning and prior maps for autonomous cars,” in 2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019, pp. 1–8. [3] P. Yang, G. Zhang, L. Wang, L. Xu, Q. Deng, and M.-H. Yang, “A partaware multi-scale fully convolutional network for pedestrian detection,” IEEE Transactions on Intelligent Transportation Systems, 2020. [4] D. Feng, C. Haase-Schutz, L. Rosenbaum, H. Hertlein, C. Glaeser, ¨ F. Timm, W. Wiesbeck, and K. Dietmayer, “Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges,” IEEE Transactions on Intelligent Transportation Systems, 2020. [5] J. C. McCall and M. M. Trivedi, “Video Based Lane Estimation and Tracking for. Driver Assistance: Survey, System, and Evaluation,” IEEE Transactions on Intelligent Transportation Systems, vol. 7, no. 1, pp. 20–37, 2006. [6] R. F. Berriel, E. de Aguiar, A. F. De Souza, and T. Oliveira-Santos, “Ego-Lane Analysis System (ELAS): Dataset and Algorithms,” Image and Vision Computing, vol. 68, pp. 64–75, 2017. [7] X. Pan, J. Shi, P. Luo, X. Wang, and X. Tang, “Spatial As Deep: Spatial CNN for Traffic Scene Understanding,” in Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
[8] X. Li, J. Li, X. Hu, and J. Yang, “Line-CNN: End-to-End Traffic Line Detection With Line Proposal Unit,” IEEE Transactions on Intelligent Transportation Systems, vol. 21, no. 1, pp. 248–258, 2019. [9] Y. Hou, Z. Ma, C. Liu, and C. C. Loy, “Learning Lightweight Lane Detection CNNs by Self Attention Distillation,” in Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019, pp. 1013–1021. [10] K. Kluge and S. Lakshmanan, “A deformable-template approach to lane detection,” in Proceedings of the Intelligent Vehicles Symposium. IEEE, 1995, pp. 54–59. [11] K.-Y. Chiu and S.-F. Lin, “Lane Detection using Color-based Segmentation,” in Proceedings Intelligent Vehicles Symposium. IEEE, 2005, pp. 706–711. [12] C. R. Jung and C. R. Kelber, “Lane Following and Lane Departure Using a Linear-Parabolic Model,” Image and Vision Computing, vol. 23, no. 13, pp. 1192–1202, 2005. [13] R. F. Berriel, E. de Aguiar, V. V. de Souza Filho, and T. Oliveira-Santos, “A Particle Filter-based Lane Marker Tracking Approach Using a Cubic Spline Model,” in 28th SIBGRAPI Conference on Graphics, Patterns and Images. IEEE, 2015, pp. 149–156. [14] B. Huval, T. Wang, S. Tandon, J. Kiske, W. Song, J. Pazhayampallil, M. Andriluka, P. Rajpurkar, T. Migimatsu, R. Cheng-Yue, F. Mujica, A. Coates, and A. Y. Ng, “An empirical evaluation of deep learning on highway driving,” arXiv preprint arXiv:1504.01716, 2015. [15] A. Gurghian, T. Koduri, S. V. Bailur, K. J. Carey, and V. N. Murali, “DeepLanes: End-To-End Lane Position Estimation using Deep Neural Networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2016, pp. 38–45. [16] TuSimple. TuSimple Benchmark. [Online]. Available: https://github. com/TuSimple/tusimple-benchmark [17] J. Philion, “FastDraw: Addressing the Long Tail of Lane Detection by Adapting a Sequential Prediction Network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 11 582–11 591. [18] W. Van Gansbeke, B. De Brabandere, D. Neven, M. Proesmans, and L. Van Gool, “End-to-end lane detection through differentiable leastsquares fitting,” arXiv preprint arXiv:1902.00293, 2019. [19] K. Behrendt and R. Soussan, “Unsupervised labeled lane marker dataset generation using maps,” in Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019. [20] M. Tan and Q. Le, “EfficientNet: Rethinking model scaling for convolutional neural networks,” in Proceedings of the 36th International Conference on Machine Learning (ICML), 2019, pp. 6105–6114. [21] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “ImageNet: A large-scale hierarchical image database,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009, pp. 248–255. [22] R. K. Satzoda and M. M. Trivedi, “On Performance Evaluation Metrics for Lane Estimation,” in International Conference on Pattern Recognition (ICPR). IEEE, 2014, pp. 2625–2630. [23] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.
댓글