zero-shot 物体検出では同一物体に複数ラベルが乗るため IoU で重複統合が必要
画像処理
機械学習
物体検出
OWL-ViT / OWLv2 などの zero-shot (open-vocabulary) 物体検出は、複数の候補ラベルを渡すと、同一オブジェクトに対してホぼ同じ位置へ複数の検出結果 (異なるラベル) を返すことがある。そのまま使うと個数が水増しされるため、IoU (矩形の重なり度を0-1で表す) や包含率で「位置がほぼ同じ結果は同じオブジェクト」とみなして score の高いものだけ残す後処理 (NMS 相当) が必要。zero-shot detector を特定用途に使う際の定番の後処理。