
2.3 联邦学习与计算机视觉
计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步地说,就是用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,并进一步做图像处理。
作为一门科学学科,计算机视觉研究相关理论和技术试图创建能够从图像或者多维数据中获取“信息”的人工智能系统。这里的“信息”指由信息学家香农定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作从感官信号中提取信息,所以计算机视觉也可以看作研究如何使人工系统从图像或多维数据中“感知”的科学。
作为一门工程学科,计算机视觉寻求基于相关理论与模型来创建计算机视觉系统。这类系统的组成部分包括:
- 过程控制(例如工业机器人和无人驾驶汽车)。
- 事件监测(例如图像监测)。
- 信息组织(例如图像数据库和图像序列的索引创建)。
- 物体与环境建模(例如工业检查、医学图像分析和拓扑建模)。
- 交感互动(例如人机互动的输入设备)。
计算机视觉同样可以被看作生物视觉的一个补充。在生物视觉领域,人类和各种动物的视觉都得到了研究,从而创建了这些视觉系统感知信息过程中所使用的物理模型。在计算机视觉中,靠软件和硬件实现的人工智能系统得到了研究与描述。生物视觉与计算机视觉的学科间交流为彼此带来了巨大价值。
计算机视觉包含画面重建、事件监测、目标跟踪、目标识别、机器学习、图像分割、图像恢复等多个方面。计算机视觉自20世纪80年代首次公开亮相以来,发展十分迅速,其特征提取方式逐渐从底层图像特征如梯度直方图(Histogram of Gradient,HOG)和尺度不变特征转换(Scale Invariant Feature Transform,SIFT)等转变为深度神经网络(Deep Neural Network,DNN)和卷积神经网络(Convolutional Neural Network,CNN)(相比DNN,CNN引入了卷积核,从而能捕捉图像的局部特征,获得性能的提升)。传统的CV解决方案大多采用图像预处理、特征提取、模型训练和输出结果这样的步骤顺序。随着深度学习框架的发展,计算机视觉问题可直接通过端到端的方式解决,我们所需要做的只是输入原始数据,其他烦琐的工程作业将留给机器和框架来自动处理。
得益于大量可获得的图像数据集,比如经典的CIFAR-10/100、STL-10和备受关注的ImageNet,计算机视觉领域获得了长足的发展,推动着人工智能行业继续向前。然而,这种以数据为中心的发展模式极大地阻碍了大量小公司对先进的人工智能技术的使用。这些公司掌握着虽然有限但极具价值的数据资源,一种可行的方式是进行数据共享,然而由于数据隐私保护、监管风险和商业秘密等多方面原因,小公司对此的积极性并不强烈。现在有了联邦学习技术,它允许多家公司在不泄露数据隐私的前提下,利用自身所拥有的数据,协同地训练和共享人工智能模型。此外,联邦学习支持线上实时反馈和模型动态更新,使得经过训练后的模型可以实时符合用户的动态需求。
在目标识别和检测领域,例如一篇被人工智能领域顶级会议AAAI2020[1]收录的论文介绍了一个基于联邦学习的在线视觉物体检测平台FedVision。区别于传统的集中式数据聚合方式的训练(见图2-3),这篇文章提出用基于联邦学习的模型聚合的新式训练方式,让非联邦学习技术的从业者也能快速开展学习与训练新的目标检测框架,如图2-4所示。传统的训练方式是让多个用户先进行数据的标注工作[2](一般称为众包图像标注,即Crowdsourced Image Annotation),然后将标注好的图像统一上传到云数据库进行保存,之后基于获得的数据进行模型(这里的模型选用的是目标检测的经典模型YOLO V3)训练调优,最后使用训练好的模型进行推理评估和实际应用。正如前文所述,传统的训练方式不能很好地适应小公司的数据保护和模型使用需求,因而难以进行推广。

图2-3 传统的数据集中式训练方式
现在,基于全新的联邦学习的训练方式如图2-4所示,每个用户的标注数据不再需要上传到公共服务器上,大大方便了模型的训练进程。我们现在只需将模型框架从联邦学习服务器发送到每一个参与方,然后直接使用本地存储的数据来训练这个模型。训练收敛后,来自各方的加密模型参数将被发送回服务器,之后将它们聚合到一个全局模型中。这个全局模型最终将分发给联邦中的各方,用于后续推理评估工作。这篇文章中的具体任务是火焰检测,我们还可以将其扩展到更多的应用中,比如物体产品的缺陷检测、行为异常检测、安保检测等。
行人重识别(Person Re-identification)也是CV领域比较热门的方向。它是一种利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。给定一个拟监控行人的图像,检索跨设备下的该行人图像,旨在弥补固定单个摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,广泛应用于智能视频监控、智能安保等领域。然而,当前行人重识别模型的训练依赖于大量集中的个人图像数据,给个人信息带来潜在的隐私风险,甚至导致一些国家的行人重识别研究项目暂停。因此,我们有必要在保护隐私的前提下引导其发展。南洋理工大学和商汤科技公司联合提出了针对这一任务的一个全新联邦学习框架FedReID,然后根据模型结构并非在所有客户机中都相同(即可能拥有不同的身份分类器)这一特点,提出了一个性能优化的方法Federated Partial Averaging(FedPav),该方法支持与具有部分不同模型的客户机进行联合训练。在整个模型训练过程中,它与Federated Averaging(FedAvg)相似,不同之处在于每个客户端只将更新后模型的一部分发送到服务器。

图2-4 新型的模型集中式训练方式
随着各国政策加强对隐私的保护,如行人重识别等数据隐私敏感型技术的应用恐怕会越发具有挑战性,这也会给联邦学习带来一些新的机遇。