一个与人类合作自动识别野生动物的框架

导读 在过去的几十年里,计算机科学家开发了许多机器学习工具,可以识别图像和视频中的特定物体或动物。虽然其中一些技术在简单的动物或物品(例...

在过去的几十年里,计算机科学家开发了许多机器学习工具,可以识别图像和视频中的特定物体或动物。虽然其中一些技术在简单的动物或物品(例如猫、狗、房子)上取得了显着的成果,但它们通常无法识别野生动物和不太知名的植物或动物。

加州大学伯克利分校 (UC Berkeley) 的研究人员最近开发了一种新的野生动物识别方法,其性能远优于过去开发的技术。该方法发表在Nature Machine Intelligence 上的一篇论文中,是由邝钟奇构想的,他最初开始探索人工智能 (AI) 工具可以对由运动触发的相机陷阱收集的野生动物图像进行分类的想法。这些是野生动物生态学家和研究人员经常设置的相机,用于监测栖息在特定地理位置的物种并估计它们的数量。

的有效使用,用于识别野生动物图像种AI由于相机陷阱拍摄可以显著简化生态学家的工作,并减少他们的工作量,防止它们不必去翻几十万图像的生成物种的特定位置分布图. Miao 和他的同事开发的框架与过去提出的其他方法不同,因为它将机器学习与一种被称为“循环中的人类”的方法相结合,以更好地概括现实世界的任务。

“我们‘循环中的人类创新’的一个重要方面是它解决了‘长尾分布问题,”进行这项研究的研究人员之一韦恩 M. 格茨告诉 TechXplore。“更具体地说,在使用在一个地区部署的相机陷阱生成的数十万张图像中,常见物种的图像可能出现数百甚至数千次,而稀有物种的图像可能只出现几次。这产生了不同物种图像频率的长尾分布。”

如果所有物种都被相机陷阱以相同的频率捕获,它们的分布将是所谓的“矩形”。另一方面,如果这些频率高度不平衡,最常见的频率(首先沿 y 轴绘制)将远大于最不常见频率(绘制在图表底部),导致长尾分布。

“如果将标准的 AI 图像识别软件应用于长尾分布数据,那么该方法在识别稀有物种时就会失败,”Getz 解释说。“我们研究的主要目的是找到一种方法,通过以迭代方式将人类纳入该过程来改善稀有物种的识别。”

在尝试在现实环境中应用传统 AI 工具时,计算机科学家可能会遇到一些挑战。正如 Getz 提到的,第一个是在现实世界中收集的数据通常遵循长尾分布,与具有矩形或正态的数据相比,当前最先进的 AI 模型在这些数据上的表现不佳分配。

“换句话说,当应用于具有长尾分布的数据时,大的或更频繁的类别总是比小的和稀有的类别产生更好的性能,”该论文的第一作者 Miao 告诉 TechXplore。“此外,稀有类别的实例(尤其是稀有动物的图像)不容易收集,这使得通过数据收集解决这个长尾分布问题更加困难。”

在现实世界中应用人工智能的另一个挑战是,它们要解决的问题通常是开放式的。例如,野生动物监测项目可以无限期地持续下去,跨越很长一段时间,在此期间将设置新的相机陷阱并收集各种新数据。

此外,由于一些可能的因素,包括意外入侵、动物重新引入项目或重新定植,新的动物物种可能会突然出现在摄像机监控的地点。所有这些变化都将反映在数据中,最终损害预训练机器学习技术的性能。

“到目前为止,人类对人工智能训练的贡献是不可避免的,”苗说。“由于现实世界的应用是开放式的,确保 AI 模型学习和适应新内容需要额外的人工注释,尤其是当我们希望模型识别新的动物物种时。因此,我们认为存在一个 AI 识别系统的循环新数据收集、新数据的人工注释和新类别的模型更新。”

在他们之前的研究中,研究人员试图以几种不同的方式解决在现实世界中影响人工智能性能的因素。虽然他们设计的方法在某些方面很有希望,但他们的表现并没有他们希望的那么好,在标准化长尾数据集上进行测试时,分类准确率低于 70%。

“人们很难相信一个只能产生约 70% 准确率的 AI 模型,”Miao 说。“总的来说,我们认为一个可部署的 AI 模型应该:在不平衡的分布(长尾识别)中实现平衡的性能,能够适应不同的环境(多域适应),能够识别新的样本(out-of-分布检测),并且能够尽快从新样本中学习(小样本学习、终身学习等)。然而,这些特征每一个都难以实现,而且没有一个被完全实现尚未解决,更不用说将它们组合在一起并提出完美的 AI 解决方案了。”

因此,Miao 和他的同事没有使用著名的和现有的 AI 工具,也没有尝试开发一种“理想”的方法,而是决定创建一种依赖于一定数量人类输入的高性能工具。迄今为止,人类对数据的注释已被证明对于提高基于深度学习的模型的性能特别有价值,因此他们将精力集中在最大限度地提高效率上。

“我们项目的目标是通过仅在困难图像或新物种上应用人工注释来尽可能减少人工干预的需要,同时最大限度地提高每个模型更新程序的识别性能/准确性(即更新效率), ”苗说。

通过以有效的方式将机器学习技术与人类的努力相结合,研究人员希望实现一个能够更好地识别现实世界野生动物图像中动物的系统,克服他们在过去研究中遇到的一些问题。值得注意的是,他们发现他们的方法可以在野生动物图像分类任务上达到 90% 的准确率,使用标准 AI 方法实现这一准确率所需的 1/5 的注释。

“无论以前对标准数据集的研究有多么有希望的理论结果,将人工智能技术付诸实践一直是一项重大挑战,”苗说。“因此,我们尝试提出一个 AI 识别框架,即使 AI 模型不完美,也可以在现场部署。我们的解决方案是将高效的人力投入到识别系统中。在这个项目中,我们使用了野生动物识别作为我们框架的实际用例。”

Miao 和他的同事设计的框架不是使用单个数据集来评估 AI 模型,而是关注先前训练的模型如何有效地分析新收集的包含先前未观察到的物种图像的数据集。他们的方法结合了一种主动学习技术,该技术使用预测置信度度量来选择低置信度的预测,以便人类进一步对其进行注释。另一方面,当模型以高置信度识别动物时,它们的框架会将这些预测存储为伪标签。

“然后根据人工注释和伪标签更新模型,”Miao 解释说。“该模型的评估基于:更新后每个类别的整体验证准确性(即更新性能);验证的高置信度预测百分比(即节省注释的人力);高置信度预测的准确性;以及被检测为低置信度预测(即对新颖性的敏感性)的新类别的百分比。”

Miao 和他的同事使用的优化算法的总体目标是最小化人力(即最大化模型的高置信百分比),同时最大化性能和准确性。从技术上讲,研究人员的框架是主动学习和半监督学习的结合,人类在循环中。缪和他的同事使用的所有代码和数据都是公开的,可以在线访问。

“我们提出了一个可部署的人机识别框架,它也适用于模型本身不能完美执行的情况,”苗说。“通过迭代的人机更新程序,框架可以在不断收集新数据时保持更新部署。此外,未来可以用更先进的方法替换该框架中的每个技术组件,以取得更好的效果。”

缪和他的同事概述的实验环境可以说比以前的作品中考虑的更现实。事实上,它不是专注于模型训练、验证和测试的单个周期,而是专注于多个周期或阶段,这可以让模型更好地适应数据的变化。

“我们工作的另一个独特方面是我们提出了人与机器之间的协同关系,”Miao 说。然后用来更新机器,让机器在未来变得更强大、更通用。这是一种持续和长期的关系。”

未来,这组研究人员引入的框架可以让生态学家更有效地监测不同地方的动物物种,减少他们检查陷阱相机收集的图像的时间。此外,他们的框架可以适用于解决其他现实世界的问题,这些问题涉及分析具有长尾分布的数据或随时间不断变化的数据。

“Miao 现在正在研究尝试从卫星或航拍图像中识别物种的问题,与相机陷阱图像相比,这存在两个挑战:分辨率要低得多,因为相机离正在捕获的对象和被成像的个体要远得多可能是整个框架中的众多图像之一;图像通常只显示一维投影(即从顶部),而不是相机陷阱数据的二维投影(前/后和左侧/右侧),”Getz 说.

Miao、Getz 和他们的同事现在还计划在现实环境中部署和测试他们创建的框架,例如由他们的一些合作者在非洲组织的相机陷阱野生动物监测项目。与此同时,Miao 正在开发其他深度学习工具,用于分析航拍图像和录音,因为这些工具对于识别鸟类或海洋动物特别有用。他的总体目标是让生态学家和分析野生动物图像的研究人员更容易使用深度学习。

“在更广泛的范围内,我们认为人与机器之间的协同关系是一个令人兴奋的话题,人工智能研究的目标应该是开发能够增强人的能力(或智力)的工具,而不是消除人类的存在(例如,寻找不需要人类就能处理所有事情的完美机器),”苗补充道。“这更像是一个循环,机器让人类变得更好,而人类反过来让机器变得更强大,就像我们在论文中提出的迭代框架一样。我们称之为人工增强智能(A2I 或 A-square I),其中“最终,人的智能会被人工智能增强,反之亦然。未来,我们希望继续探索 A2I 的可能性。”