AI视觉研究的持续光明视野成果被评为世界优秀会议

近日，特斯拉自动驾驶事故频传，同时华为“自动驾驶”技术问世，不少网友认为已达到L4自动驾驶水平，有关汽车辅助驾驶系统的讨论再次升温。其中最重要的核心是关于汽车视觉的感知系统。

事实上，随着AR+AI时代的到来，AI视觉作为实现工业自动化和智能化的重要核心技术，已成为人工智能发展最快的分支。当机器能够“了解这个世界”时，它就会转向人类的价值，不仅会改变我们的移动方式，还会改变我们的娱乐、学习等与生活有关的一切。

一直以来，光明的视野为AR和AI投入了巨大的精力，在为行业提供支撑企业数字化转型的硬件和平台的同时，与中科院自动化所建立了联合实验室，通过对算法协同、多模态任务、环境测试等多方面进行综合研究我们一直在努力实现AI多模式感知融合。最近，它的许多研究成果成功地被评为计算机视觉世界的优秀会议。

“基于结构信息保持的弱监督目标定位”当选CVPR2021

Unveiling the Potential of Structure-Preserving for Weakly Supervised Object Localization. CVPR 2021。

CVPR2021是计算机视觉三大峰会之一！本届大赛共收到来自全球的7015份有效投稿，最终录取1663份突出重围，录取率仅为23.7%。

本文所研究的是弱监督目标定位（WSol）能力，这目前仍是一项具有挑战性的计算机视觉任务，现有工作通过利用空间正则化策略可以明显提高目标定位精度，但忽略了从训练好的分类网络中提取目标结构信息的方法有大幅提高性能和效率的空间。

本次研究提出了利用WSol卷积特征中包含的结构信息的2阶段方法“结构保持活性化（SPA）”。通过对CUB-200-2011和ILSVRC两个公开标准进行的大量实验表明，文中提出的SPA方法与标准方法相比，性能得到了显著的提高。

分析并注意进行中存在的警告和风险

这样的提高能够在汽车驾驶时对感知系统下的更多物体实现更准确的检测和判定，降低事故发生率。

“SiamCPN：基于孪晶中心预测网络的视觉跟踪”被选为CVM2021

SiamCPN： Visual tracking with the Siamese center-prediction network. CVM 2021。

CVM是亚洲图形学会（ASIA Graphics Association）旗下三大系列会议之一，由清华大学图形学实验室于2012年在北京创立，发展至今，已在国际上形成巨大影响力。这次被选为CVM2021的论文也同时被选为SCI索引源。

本文主要针对目标跟踪问题，通过anchor-free的孪晶网络SiamCPN，给出初始帧中的参考跟踪对象，可直接预测后续帧中对象的中心点和大小。与其他先进的双子网络算法相比，该方法GOT-10K、UAV123数据集取得了更好的结果，推理速度也提高了1.5-2.0倍。

让虚拟NPC一直坐在人物的肩上

该成果可应用于互动游戏，将虚拟场景与现实自然融合，使虚拟创造的NPC更真实地与玩家互动，从而提升玩家更有沉浸感的真实游戏体验。

其实不仅这些场景，这两项科研成果还可以应用到更多的领域。目前，光明的视野将这些技术带入工业巡检领域，从而促进技术的快速成熟，并将技术带入国民用户的一般生活。

例如，“基于结构信息保持的弱监督目标定位”目前已应用于电力、制造、能源等领域的生产现场，通过该技术被赋予AVG机器人中，机器人可以在复杂的环境中实现自主行走、避障等，实现机器人的搬运、能够提高筛选等的效率。此外，将该技术嵌入AR智能眼镜中，可为现场人员提供实景导航、安全提示等，提高生产安全性。

另一方面，“基于双晶中心预测网络的视觉跟踪”技术可以更好地应用数字双晶技术、三维建模技术，员工可以更方便地查看设备图纸，操作设备虚拟三维模型，提高生产、运行维度和远程培训的效率。

AI是进入未来世界的关键，是实现改变世界梦想的关键。到目前为止，放眼望去已经有一些AI科研成果被列入世界优秀会议，将这些技术产业化，为不同行业带来了智能化的解决方案。未来，亮将继续扩大AI领域的研究，通过人工智能和增强现实技术，以第一视角使人与人、人与机器、人与数据的沟通更加自然高效。