近日,我院张果博士以第一作者在IEEE Transactions on Visualization and Computer Graphics上发表论文《A self-supervised network-based depth estimation and smoke removal for monocular endoscopic videos》。 IEEE Transactions on Visualization and Computer Graphics(TVCG)是计算机图形学和可视化领域的国际权威顶级期刊,研究领域包括计算机图形学、可视化、虚拟现实(VR)、增强现实(AR)和人机交互等。被中国计算机学会(CCF)列为A类国际学术刊物(JCR一区和中科院SCI一区Top,影响因子5.2)。TVCG以高标准和严格的同行评审过程而闻名,对于可视化和计算机图形学领域的学术研究具有重要的地位和贡献。
在微创手术视频中由于烟雾的影响,无标签的单目腹腔镜深度估计具有挑战性。为此,在这项工作提出了一种新的单目内窥镜视频深度估计方法,将其分解为去雾和深度估计两个步骤。第一步,作者开发了一种DS-cGAN以减轻不同浓度的烟雾成分。生成器网络包括锐化导向编码模块(SGEM)、残差密集瓶颈模块(RDBM)和精细化上采样卷积模块(RUCM),还原了更详细的器官边缘和组织结构。第二步,设计由一个深度网和两个Posenet组成的高分辨率残差HRR-UNet来提高深度估计精度,并利用相邻帧进行摄像机自运动估计。该方法在训练和推理阶段既不需要人工标记也不需要患者计算机断层扫描。并且不假设亮度恒定,适用于内窥镜手术。在Hamlyn中心腹腔镜数据集上的实验研究表明,该方法可以在保留手术部位血管、轮廓和纹理的情况下,在真实手术场景中有效地获得准确的去雾后的深度信息。实时帧率达到94.45fps。这项研究具有良好的临床应用前景,并为内窥镜图像三维重建提供了重要参考。
图1 去雾前后深度估计的消融研究结果
(a)烟雾图像 (b) DS-cGAN去雾图像 (c) HRR-UNet烟雾图像的深度图,以及绿色矩形框区域的局部放大视图 (d) HRR-Unet去雾结果的深度图,以及绿色矩形框区域的局部放大视图。