近期,青岛科技大学数据科学学院一篇关于视频目标检测的论文(题目为MSTDiff: Multiscale-Aware Transformer Diffusion Network for Video Object Detection)被CCF A类国际会议Annual AAAI Conference on Artificial Intelligence(AAAI 2026)接收。该论文由学院青年老师齐强和硕士研究生尚文琦共同完成,青岛科技大学数据科学学院为第一单位和通信单位,合作单位为暨南大学、鹏城实验室。

图1 所提出的网络框架图
论文简介:
视频目标检测是计算机视觉领域中一项基础但极具挑战性的任务。近年来,基于DETR的方法因其强大的全局建模能力而在该领域备受关注。为此,我们提出了一种多尺度感知的Transformer扩散网络(MSTDiff),并在公开的 ImageNet VID 数据集上进行了大量实验。结果表明,所提出的MSTDiff在使用 ResNet-101 作为骨干网络时达到了 87.7% mAP,优于大多数视频目标检测方法。
该研究工作得到了国家自然科学基金、山东省自然科学基金、青岛市自然科学基金等项目的支持。