Adore__

[Measure] Dice coefficient / Hausdorff 본문

Basis/Statistics, Probability

[Measure] Dice coefficient / Hausdorff

3_GreenHeart 2023. 6. 13. 12:43
728x90

segmentation model의 성능평가 지표로서 많이 사용되는 방법으로 Pixel Accuracy, IoU, Dice, Hausdorff 등 여러 방법이 있지만 본 포스팅에서는 Dice와 Hausdorff 두가지에 대해 다루려고 한다.

 

자세한 설명은 참조한 블로그에 잘 정리되어 있다.

 

Sorensen-Dice coefficient

두 샘플간의 유사도를 측정하는 통계학적인 방법이다.

두 집합 X와 Y가 있을 때, DSC공식은 다음과 같이 정의된다.

 

직관적으로 보면 두 집합이 겹쳐지는 부분에 2를 곱하고, 총 이미지의 픽셀 수로 나누는 것이다.

 

Dice

따라서 모델이 예측한 이미지가 정답 이미지와 유사할수록 Dice값은 높아지고, 모델 성능이 좋다고 말할 수 있다.

 

 

IoU (Intersection over Union)과 매우 유사한데, 분모에 있어서 차이가 있다.

IoU

 

 

⛔ 한계점

  • 이미지 구조의 크기가 DSC에 미치는 영향이 크다. 구조가 매우 작을 때, 겹치는 부분이 조금만 변하더라도 값이 너무 크게 변한다.
  • 두 알고리즘(prediction 1과2)의 예측은 단일 픽셀의 개수(1개냐 2개냐)에서만 다르다. 하지만 구조가 작은 경우(b) DICE값에 상당한 영향을 미친다.

https://openreview.net/pdf?id=76X9Mthzv4X (Fig1)

 

  • 임상적 관점에서, 관심 있는 모든 구조(예: 종양)를 다루는 알고리즘 (prediction 2)은 한 구조에 대해 매우 정확한 분할을 생성하며 다른 구조를 누락하는 알고리즘 (prediction 1)에 비해 훨씬 더 높은 가치가 있다. 하지만 이는 그림 2와 같이 DSC 값에 반영되지 않는다.

https://openreview.net/pdf?id=76X9Mthzv4X (Fig2)

 

 

 

Hausdorff Distance

두 집합이 있을 때, X집합에서 Y집합의 점까지 도달하기 위해 가장 먼 거리값을 말한다.

 

공식을 쉽게 풀어서 생각해보면, 위 그림에서 그려진 두 점선 길이 중에, 더 긴 값 (더 먼 거리값)을 최종값으로 결정하게 된다. 이처럼 Hausdorff는 두 집합의 outlier에따라서 값이 결정되는 경향이 있다.

Hausdorff distance 값이 클수록 집합간의 유사도가 떨어진다고 해석할 수 있다.

 

⛔한계점

  • 두 집합의 outlier에 크게 의존하므로, 만약 한 데이터가 비정상적으로 튀어나오거나 멀리 떨어져있다면 이 두 집합의 분포 유사성을 잘 나타내준다고 말할 수 없다.

 

 

 

항상 주의할 것은 이러한 성능지표값이 절대적인 결정 기준이 되어서는 안된다는 것이다.


Reference

https://towardsdatascience.com/metrics-to-evaluate-your-semantic-segmentation-model-6bcb99639aa2

https://towardsdatascience.com/biomedical-image-segmentation-u-net-a787741837fa

 

Comments