ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Sunshine to Rainstorm: Cross-Weather Knowledge Distillation for Robust 3D Object Detection 리뷰 - (1) 논문 리뷰
    Study/Paper 2024. 12. 18. 17:36

     

    본 리뷰는 AAAI 2024에 나온 Sunshine to Rainstorm: Cross-Weather Knowledge Distillation for Robust 3D Object Detection 논문을 읽고 작성하였다. 아래에서 제시되는 그림 및 표의 출처는 논문임을 밝혀둔다.

     

    논문은 Xiamen University와 Texas A&M University의 저자들이 작성하였다.

     

    우선 제목으로 논문의 내용을 파악해보면, 3D Object Detection task에서 KD 방법론을 통해서 맑은 날을 학습하고, 흐린 날을 예측할 수 있는 방법을 제시하고 있는 것처럼 보인다. 정말 그런 기법이 맞을지, 차근차근 확인해보자.

     


     

    Abstract & Introduction

    기존의 방법과 문제점

    LiDAR 기반의 3D 객체 탐지 모델은 비가 올 때 신호가 저하되며 노이즈가 발생하게 된다. 기존에는 노이즈를 시뮬레이션해서 강건성을 개선하려고 했지만 시뮬레이션 데이터와 실제 비 영향을 받은 데이터 사이에는 차이가 존재할 수 밖에 없다.

     

    문제점들을 아래와 같이 나열해보았다.

    • 데이터 부족 (Waymo Open Dataset의 단 0.6%뿐인 비 오는 장면)
    • 비 데이터의 낮은 품질 (밀집된 비 노이즈와 포인트 손실)

    따라서 두 날씨 사이에는 domain gap이 생긴다.

     

    기존 연구들인 LISA와 SPRAY는 시뮬레이션을 통해 해결하려고 하지만 비 환경 이론과 객체-장면 동역학을 간과하면서 비의 현실성이 떨어지는 한계가 존재한다. 또한 단순히 시뮬레이션 데이터를 학습 데이터에 추가하는 것만으로는 환경 적응이 부족하다.

     

    LDNet은 맑은 날씨에서 악천후로의 지식 증류 개념을 도입했지만 현실적인 비 시물레이션 없이는 효과적으로 적용되지 못하며, 서로 다른 날씨 조건 간의 데이터 차이를 간과하고 있다.

     

    해결책

    Dynamics and Rainy Environment Theory를 통합한 새로운 비 시뮬레이션 기법인 DRET를 제안한다. 또한 SRKD 프레임워크를 제안하여 비에 특화된 3D 탐지기를 제안한다. 이 프레임워크를 통해 맑은 날씨 탐지기로부터 비가 오는 날씨의 동일한 장면을 학습하도록 학생 네트워크를 훈련시킨다.

     

    추가적으로 노이즈 인식 예측 보정 모듈을 설계하여 비와 관련된 노이즈를 효과적으로 처리한다.

    위의 과정을 통한 결과가 맑은 날씨에서도 성능 개선을 보인다는 것은 주목할 만한 점인데, 저자들은 희소 객체에 대한 강건성 증가를 이유로 꼽고 있다.

     

    Related work

    더보기

    Simulation of rain

     

    물리 기반 시뮬레이션은 눈과 안개 같은 조건에서 포인트 클라우드를 재현하기 위해 활용되었지만, 비 오는 날씨를 시뮬레이션하기에는 부족하다.

     

    LISA같은 경우 LiDAR 빛 산란 증강에 의존하고 비 오는 환경의 밀집된 노이즈의 영향을 간과하며, SPRAY의 경우 비 오는 날 차량으로 인해 발생하는 물 튀기는 효과를 동역학으로 시뮬레이션하지만 물리 이론이 결여되어 분포가 잘 모방되지 못했다.

     

    3D object detection

    주로 맑은 날씨 조건에만 초점을 맞추며, 단일 단계와 2단계 접근법으로 나눌 수 있다.

     

    단일 단계와 2단계 방법 모두 복셀 기반 희소 컨볼루션( voxel-based sparse convolution ) 또는 포인트 기반 집합 추상화( point-based set abstraction )로 특징을 추출하며 2단계 방법의 경우 두 연산을 결합하여 사용하거나 3D 트랜스포머 백본을 도입하기도 했다.

     

    • 단일 단계 방법: SECOND(Yan, Mao, and Li 2018), PointPillars(Deng et al. 2021), SA-SSD(He et al. 2020), SE-SSD(Zheng et al. 2021)
    • 2단계 방법
      • Voxel-RCNN(Deng et al. 2021), SFD(Wu et al. 2022), VirConv(Wu et al. 2023): 복셀 기반 희소 컨볼루션
      • PointRCNN(Shi, Wang, and Li 2019)과 STD(Yang et al. 2019): 포인트 기반 집합 추상화
      • PV-RCNN(Shi et al. 2020), CT3D(Sheng et al. 2021), PV-RCNN++(Shi et al. 2022)은 복셀 기반포인트 기반 연산을 결합
      • DSVT(Wang et al. 2023): 효율적이고 배포 가능한 3D 트랜스포머 백본을 도입해 WOD에서 최첨단 성능

     

    지식 증류는 3D 객체 탐지에서도 연구되었고 SparseKD나 다른 연구들( Zheng et al. 2022a,b )이 다중모달/다중 프레임 모델에서 단일 모달/단일 프레임 모델로의 증류를 시도했지만 비 오는 날씨에서의 강건성은 부족하다.

     

    3D object detection in adverse weather

    최근 연구 Charron, Phillips, and Waslander 2018; Heinzler et al. 2020 는 세그멘테이션이나 필터링 알고리즘과 같은 경량화 접근법을 통해 밀집된 노이즈를 제거하였지만 노이즈 제거 모델의 성능에 크게 의존하며 비 오는 날의 포인트 손실 문제를 해결하지 못한다.

     

    또한 Xu et al. (2021) 은 날씨 및 환경 조건 간의 도메인 적응 문제를 해결하는 일반화된 보완 프레임워크를 설계했지만 포인트 손실 현상만을 집중적으로 다루고 다른 현상들의 영향은 간과했다.

     

     

    Method

     

    데이터의 한계와 모델 적응성 문제를 해결하기 위해 현실적인 비 시뮬레이션(DRET)과 비 환경에 최적화된 객체 탐지 방법(SRKD)을 제시한다.

     

    DRET Rain Simulation Method

    맑은 날의 포인트 클라우드 데이터 D를 입력 받아서 비가 오는 시뮬레이션 포인트 클라우드 D*을 생성한다. 기존의 방식인 SPRAY와 LISA는 동적 입자 시뮬레이션과 비 환경 이론을 통합된 방식으로 고려하지 못했다.

     

    총 2단계 시뮬레이션으로, 1단계에서는 동적 물 튀김 효과와 바람 간섭을 재현하기 위해 각각 Unity3D 엔진과 Perlin 노이즈를 사용한다. SPRAY의 방식을 따르지만 Perlin 노이즈로 무작위 방향 가속도를 추가하면서 더 현실적이고 넓은 범위의 비 입자 행동을 모방하게 된다.

     

    2단계에서는 비 환경 이론을 기반으로 장면 처리 과정을 추가하며, 기존의 SPRAY와 달리 LiDAR 반사 강도(intensity)를 계산하여 비 조건에 맞게 조정한다.

     

    (1)에서 LiDAR 데이터의 비 입자 강도를 계산하여 시뮬레이션된 비 데이터를 현실적으로 만든다. 베타와 알파는 각각 산란률과 감쇠 계수이다.

     

    (2)에서는 원래 데이터에서 LiDAR 강도가 일정 기준 이상인 포인트만 필터링하게 된다.

    Comparison with other rain simulation method

    10,000개의 비 시뮬레이션 데이터를 LISA, SPRAY, DRET로 생성한 후 실제 비 데이터와 비교했다. Fig. 4(a)에서 SPRAY는 반사 강도가 크게 차이났지만, LISA는 비율 랜덤화로 인해 일시적인 작은 차이를 보인다. 또한, DRET는 전체 포인트 및 노이즈에서 가장 낮은 강도 차이를 보였으며, 거리별 포인트 격차 또한 다른 방법보다 훨씬 작았다.

    Sunny-to-Rainy Knowledge Distillation

    도메인 갭을 해결하기 위해서 SRKD 프레임워크를 설계했다. AWID( Adaptively Weighted Instance Distillation 적응형 가중치 인스턴스 증류)와 PRD( Precise Response Distillation 정확한 응답 증류)를 통합하여 맑은 날의 지식을 비 오는 날로 효과적으로 전달하고, NAPC( Noise-Aware Prediction Correction 노이즈 인식 예측 보정)을 추가하여 비로 인한 노이즈의 영향을 완화한다.

     

    각 과정을 좀 더 자세히 들여다보자.

    Analysis on impact of rain on 3D object detection

     

    테이블 1을 보면 Voxel-RCNN은 WOD 데이터셋의 비 오는 날씨에서 두 메트릭 값이 크게 감소한다.

     

    또한 fig 5를 확인하면 비 노이즈가 밀집되어 거짓양성이 발생하고, 노이즈 때문에 신뢰도가 낮아지면서 거짓음성도 생기고, 포인트가 손실되어 희소화되면서 탐지 오차가 증가하는 것을 확인할 수 있다.

     

    따라서 단순하게 시뮬레이션 데이터만 증강하기보다 맑은 날과 비 오는 날의 갭을 해결해야만 한다.

     

    AWID ( Adaptively Weighted Instance Distillation 적응형 가중치 인스턴스 증류)

    맑은 날의 인스턴스를 비 오는 날로 증류하면 탐지기가 희소하고 식별하기 어려운 객체에서 효율적으로 특징 추출이 가능하다. 기존 연구 ( Zheng et al. 2022a,b)처럼 맑은 날의 인스턴스 특징을 비 오는 날로 직접 증류하면 밀도와 형태의 차이로 어려움이 있으므로 객체의 유사성을 증류 가중치로 사용해보자.

     

    밀도 유사도와 형태 유사도를 따로 구해서 결합한 값을 최종 유사도로 결정하고 이를 통해 인스턴스 특징 로스를 계산한다.

     

     

    (3)은 밀도 유사도 수식으로, 맑은 날과 비오는 날의 포인트 개수 중 더 적은 값을 분자에, 두 값의 차이에 엡실론을 더한 값을 분모로 해서 같은 객체 간의 밀도 차이를 tanh로 결과값을 0에서 1사이로 계산하여 유사도를 측정한다. 여기서 엡실론을 분모에 더하는 이유는 분모가 0이 되는 것을 방지하기 위해 작은 상수값을 둔 것이다.

     

    (4)는 형태 유사도 수식으로, 두 객체 간의 형태 차이를 측정하기 위해 맑은 날과 비오는 날의 포인트 클라우드 간의 거리를 chamfer거리로 계산하고 이때 값이 클수록 유사도가 낮아지므로 보정하기위해서 이를 1-tanh로 계산하여 유사도를 측정한다.

     

    (5)는 (3)과 (4)를 곱한 값으로 최종 유사도로 사용된다.

     

    (6)은 인스턴스 로스값인데, 맑은 날과 비오는 날의 인스턴스 특징 간의 손실을 계산할 때 L1 손실 함수를 사용하여 두 인스턴스 특징 간의 거리를 계산하고 그 값에 유사도를 가중치로 활용하여 각 객체 박스들의 평균을 구하여 로스로 활용한다. 여기서 객체들의 평균을 로스값으로 사용하는 이유는 어떤 한 객체에 지나치게 치우치지 않도록 하기 위해서이다.

     

    PRD ( Precise Response Distillation 정확한 응답 증류)

    AWID는 ROI 헤드에서 비 오는 날과 맑은 날의 객체 간 특성을 잘 증류하지만 전체 프레임워크에 한계가 있으므로 PRD를 통해 예측 일관성을 강화하자.

     

    맑은 날 모델의 높은 신뢰도 예측 결과만 비 오는 날 모델에 증류하는 과정을 거친다.

     

     

    (7)번에서는 맑은 날의 분류 결과를 비 오는 날로 증류하였다.

    c는 분류 예측, b는 회귀 예측, 파이는 시그모이드 함수, I는 높은 신뢰도만 필터링하는 함수이다.

     

    (8)번에서는 맑은 날과 비 오는 날의 박스 회귀 값을 비교하여 손실을 계산했다.

     

    (9)번은 최종 응답 증류 손실인데, 분류와 회귀 응답 손실을 결합하였다.

    이전 연구의 설정을 그대로 유지하며 각 람다는 15와 0.2로 설정한다.

     

     

    NAPC( Noise-Aware Prediction Correction 노이즈 인식 예측 보정)

    이전 모듈들은 비 오는 날의 강건성 향상에는 도움이 되지만, 밀집된 비 노이즈로 인한 거짓 양성을 완전히 제거하기는 어렵다. 이를 해결하기 위해서 NAPC 헤드를 도입해서 비 노이즈를 억제한다.

     

     

     

    예측 박스의 포인트 개수인 B_i와 노이즈 포인트인 K^hat과 노이즈가 아닌 포인트인 K~tilde를 고려하자.

    (10)에서 예측된 박스에 대한 노이즈 포인트 비율을 계산한다. 여기서 상수는 분모가 0이 되는 것을 방지하기 위해 더해준다.

     

    노이즈 인식 예측 보정 손실 함수는 (11)번과 같이 표현되고, 여기서 C_i는 예측 박스의 신뢰도이다.

    노이즈 비율을 가중치로 하여 예측 박스의 신뢰도를 조절한다.

     

    Overall Loss Function

    최종 손실 함수는 (12)와 같이 표현된다. 각각은 분류 손실, 회귀 손실, 그리고 앞서 정의한 손실들이다.

     

    Experiments

    데이터셋은 Waymo Open Dataset(WOD)의 두 하위 집합인 WOD-P와 WOD-DA를 사용하여 평가되었다.

    더보기
    1. WOD-P: 약 158,000개의 훈련 프레임과 40,000개의 검증 프레임으로 구성되며, 대부분 맑은 날씨(99.4%)를 포함한다. 맑은 날 평가를 위해 WOD-P 검증 데이터를 사용하였다.
    2. WOD-DA: 다양한 날씨 조건(안개, 흐림, 비)을 포함하며, 3,000개의 비 오는 프레임을 선택하여 비 오는 날 테스트를 수행하였다.

    또한 비교 모델로는 최신 모델인 DSVT(Wang et al. 2023), PV-RCNN++(Shi et al. 2022), Voxel-RCNN(Deng et al. 2021)을 사용하였다.

     

    평가지표는 mAP(L1,L2)와 mAPH(L1, L2)를 사용하였다.

    더보기
    • mAP(L1, L2): 평균 정확도
    • mAPH(L1, L2): 방향 포함 평균 정확도
    • L1과 L2는 난이도 수준을 나타낸다.

     

    Main Experiment Results & Ablation Study

    더보기

    Performance comparison under rainy weather

     

    WOD-DA에서 비 오는 날 성능을 평가한 결과 모두 향상되었다. 특히 Pedestrian 클래스에서 Voxel-RCNN은 크게 향상되었다.

     

    Performance comparison under sunny weather

     

    맑은 날 성능도 소폭 향상되었고, 이는 희소하고 구분하기 어려운 객체에 대한 탐지 강건성 강화 덕분으로 해석된다.

     

    Rain simulation methods & Robust 3D object detection methods in rain

     

    기존 비 시뮬레이션 기법인 LISA-Aug와 SPRAY-Aug와 비교한 결과 L2에서 성능이 더 좋았다.

    그리고 기존 비 객체 탐지 방법인 De-Noising(Heinzler et al. 2020)과 SPG(Xu et al. 2021)과 비교했을 때도 성능이 좋았다.

     

    Ablation Study

    Data augmentation based on DRET-Aug

     

    DRET-Aug 단독 사용했을 때도 성능 개선이 있다.

     

    Component of SRKD analysis & Similarity weighting strategies

     

    유사도 없이 직접 증류하면 성능이 저조하다.

    Conclusion

    DRET를 통해 현실적인 비 데이터를 생성해서 데이터 부족 문제를 완화하고, SRKD를 통해 맑은 날과 비 오는 날 모두에서 3D 객체 탐지를 개선하였다.

     

    Limitations

    2단계 프로세스를 요구하므로 입자 세트 생성과 같은 전처리 시간이 소요되어 학습 시간은 증가하지만 추론 효율성은 그대로 유지된다.

     

     


     

    위와 같이 Sunshine to Rainstorm: Cross-Weather Knowledge Distillation for Robust 3D Object Detection 논문에 대한 리뷰를 진행하였다.

     

     

    더보기
    • Idea가 독특한 것 같아서 가져왔음
    • 비 오는 환경에 대한 기존 연구의 부족한 점이 있고 비의 현실성 고려를 위해 추가적으로 해야 하는 일들이 존재한다고 하며 본 논문을 제시하게 됨
    • T와 S 모델 구조에 대한 변화는 없고, 들어가는 input 데이터가 다른데도 유효한 정보를 전달해준다는 점에 집중하면 좋을듯
     
     
    이 논문에서 자주 언급되는 이전 연구 논문들은 아래의 세 논문들이고, 순서대로 중요도를 가지고 있으므로 각각을 간단하게 리뷰하였다.
     
    1. Zheng, W.; Hong, M.; Jiang, L.; and Fu, C.-W. 2022a. Boosting 3D Object Detection by Simulating Multimodality on Point Clouds. In CVPR.
    2. Zheng, W.; Jiang, L.; Lu, F.; Ye, Y.; and Fu, C.-W. 2022b. Boosting Single-Frame 3D Object Detection by Simulating Multi-Frame Point Clouds. In ACMMM
    3. Do, A. T.; and Yoo, M. 2022. LossDistillNet: 3D Object Detection in Point Cloud Under Harsh Weather Conditions. IEEE Access, 10: 84882–84893.

     

    더보기

    1번 논문의 리뷰

    • TASK: 단일 모달리티(LiDAR) 3D 객체 검출
    • 다중 모달리티(LiDAR-이미지) 검출기를 따르는 특징과 반응을 시뮬레이션하도록 가르쳐 단일 모달리티(LiDAR) 3D 객체 검출기를 향상
    • 단일 모달리티 검출기를 학습할 때만 LiDAR-이미지 데이터가 필요, 잘 학습되면 추론 시에만 LiDAR 데이터가 필요
    • 핵심적인 반응 샘플에 집중하고 배경 샘플을 피하기 위한 반응 증류
    • 추정된 핵심 복셀에서 복셀 의미론과 관계를 학습하기 위한 희소 복셀 증류
    • 작고 먼 객체의 특징을 더 잘 처리하기 위한 세밀한 복셀-포인트 증류
    • 심층적 특징 일관성을 더욱 향상시키기 위한 인스턴스 증류
    • nuScenes 데이터 세트에 대한 실험 결과
      • 모든 SOTA LiDAR 전용 3D 감지기보다 성능이 뛰어나고 핵심 NDS 지표에서 기본 LiDAR 이미지 감지기보다 더 뛰어나며 단일 및 다중 모달 감지기 간 72% mAP 격차를 메움

    2번 논문의 리뷰

    • TASK: 단일 프레임 3D 객체 감지
    • 다중 프레임 포인트 클라우드에서 학습된 특징과 반응을 시뮬레이션하도록 학습
    • 단일 프레임 감지기를 학습할 때만 다중 프레임 포인트 클라우드가 필요, 학습이 완료되면 추론 중에 단일 프레임 포인트 클라우드만 입력으로 사용하여 객체를 감지
    • Simulated Multi-Frame Single-Stage object Detector(SMF-SSD) 프레임워크를 설계
      • 다중 프레임 포인트 클라우드를 생성하기 위해 기준 진실 객체를 밀도화하는 다중 뷰 밀도 객체 융합
      • 다중 프레임에서 단일 프레임 복셀로의 일대다 지식 전송을 용이하게 하는 셀프 어텐션 복셀 증류
      • 저수준 공간 및 고수준 의미적 BEV 특징에서 지식을 전송하는 다중 스케일 BEV 특징 증류
      • 높은 신뢰도와 정확한 위치 추정의 단일 프레임 반응을 활성화하는 적응적 반응 증류
    • Waymo 테스트 세트에 대한 실험 결과
      • SMF-SSD가 mAP와 mAPH 측면에서 난이도 레벨 1과 2의 모든 객체 클래스에 대해 최첨단 단일 프레임 3D 객체 감지기보다 지속적으로 우수한 성능

     

    3번 논문의 리뷰

    • TASK: 3D 객체 감지 모델 - 악천후
    • 기존 SE-SSD 모델은 교사와 학생 모델 간에 특징을 교환하여 성능이 높지만 악천후에 의해 상당히 감소
    • 교사와 학생 모델을 동시에 학습하는 대신 지식 증류 알고리즘을 적용
      • 교사 모델은 먼저 정상적인 입력으로 학습
      • 학생 모델은 악천후 입력에 의한 증류 및 학생 손실로 학습합
    • 최근 연구는 원래 모델의 악천후 성능을 향상시키기 위해 다양한 유형의 센서 입력을 결합
    • 문제점: 포인트 클라우드에 대한 누락된 포인트 문제를 직접 해결하는 연구는 없음
    • 해결책
      • Deep Mixture of Factor Analyzers(DMFA) 네트워크
      • 손실-합성곱 계층을 포함하는 확률 추정
    • 안개와 눈 환경에서 세 가지 밀도 수준(가벼움, 중간, 강함)으로 모델 평가를 수행했고 제안된 모델의 성능을 두 가지 최첨단 모델(일반 기상 조건 모델과 혹독한 기상 조건 모델)의 성능과 비교
     

     

Designed by Tistory.