传统的计算机视觉技术是由手动特征提取和经典算法驱动来解释图像和视频,而现代计算机视觉则受到端到端深度学习模型和生成式人工智能 (GenAI) 的影响。这意味着自动驾驶、物体识别和工作场所安全等用例有更大的可能性。
到 2032 年,全球计算机视觉市场规模预计将从 203.1 亿美元增长八倍多,达到 1757.2 亿美元。[1]人工智能和计算机视觉的快速发展正在催生跨行业的多样化应用,例如新加坡警察部队配备摄像头的巡逻机器人[2]和阿布扎比首个多式联运智能交通中央平台,作为首都城市交通战略的一部分实施。
早期的计算机视觉系统依赖于手动设计的功能,这些功能虽然对某些任务有效,但由于无法适应动态和非结构化环境而受到限制。

深度学习的出现标志着时间线的关键转变。利用大型数据集和强大的 GPU 来训练可以自动从图像中提取特征的神经网络,从而减少了手动干预的需要。
自 2020 年以来,视觉和文本模型的早期集成开始重塑计算机视觉格局。到了 2022 年,Transformer 架构和海量数据预训练的成功让 GenAI 成为人们关注的焦点。
视觉和文本模型之间的协同作用已大大加强,彻底改变了计算机视觉任务。这种融合实现了更复杂的图像理解、物体检测和场景解释。
在 M6米乐(中国)官方网站,我们利用集团工程中心 (GEC) 的下一代技术的力量,在这里开发、测试先进的视频分析和 AI 模型,并将其集成到实际的解决方案中,以应对现实世界的挑战。
GEC 视频分析工程师 Wang Shuya 探索 AI 如何为计算机视觉做出贡献,计算机视觉是人工智能的一个子集,专注于理解视觉内容。
“多年来,我们的技术已经从简单的轮廓识别发展到复杂的场景理解。该领域正在快速发展,但我们努力跟踪所有最新的技术、模型、数据集和硬件。”  | 
“我们通过利用多种传感器(包括 RGB 摄像头、红外摄像头、深度传感、LiDAR 和雷达)来开发复杂的 AI 模型来实现这一目标。”
在 GEC,这些技术被开发成我们所说的可重用通用模块,这是一个工具和平台的集合,是计算机视觉发展的关键驱动力。然后可以对这些模块进行定制和扩展,以支持我们所有解决方案中的各种应用程序,从而加速整个组织的创新。
用户体验是确保视觉 AI 解决方案在市场上取得成功的重要组成部分。 Nah Wu,GEC 视频分析首席工程师,专注于人工智能集成的实际方面。
“我们采用可重复使用的通用模块,并分析如何将它们与其他技术堆栈一起用于特定用例。我们的目标是使这些技术实用且易于最终用户日常使用。”  | 
“无论是边境访问控制、生物识别访问还是客户出勤跟踪,我们的任务都是确定用例并确保可扩展性、成本效益和无缝功能,”Nah Wu 分享道。

为了确保 AI 模型不仅在理论上合理,而且在实践中也可部署,我们进行了严格的测试,以实现低延迟和高可扩展性。
“挑战在于确保一切顺利进行,并且在用户执行搜索时可以扩展。需要重新思考旧技术,以实现更高的准确性和更低的成本。”
由我们的 GEC VisionX 可重复使用通用模块提供支持,AGIL 愿景将 AI 和 GenAI 功能结合在一款革命性工具中,该工具可以跨监控用例进行部署,包括安全和威胁管理、人群管理、对象检测以及烟雾和火灾检测。

在构建此模块之前,这样的模型需要六个月的交付时间。但现在,一个月内即可为合作伙伴和客户设置完毕。
以前需要多个步骤的任务(例如在视频源中搜索对象)现在只需一个命令即可完成。 AGIL Vision 将复杂的搜索过程简化为可管理的任务,从而简化了流程。
传统视频分析引擎提供基本的跟踪和检测功能,但通常仅限于预定义的场景。 AGIL Vision 通过创新的对象检测和自动视频理解等高级功能增强了这些功能,使其更加准确、灵活并能够处理复杂的场景。
“与之前的对象检测和分类引擎相比,这是一个重大飞跃。我们的模型在大量数据集上进行了预训练,无需过多训练即可实现开放词汇对象检测等功能。”  | 
“这些功能缩短了数据收集和定制培训时间,将实施和部署从数月缩短至数周,”Shuya 解释道。
想象一个人工智能体可以模仿思想、适应甚至自我改进的世界。代理人工智能是一种旨在设定复杂目标并采取行动实现这些目标的自主系统,为计算机视觉及其他领域打开了一个充满可能性的世界。人工智能代理可以借助先进的计算机视觉算法来学习理解现实世界。
机会无穷无尽。借助代理人工智能,我们正在教机器理解 3D 对象并自动执行人类任务。为了充分发挥其潜力,我们正在利用代理工具的力量来探索更广泛的用例,这些用例可以提高搜索和检索能力、自动化工作流程等。
Shuya 迎接计算机视觉的新篇章,他对代理 AI 对应对现实世界挑战的视觉 AI 创新的影响持积极态度。
“我们不再只是检测,而是转向主动解释和响应。下一个时代将看到计算机视觉系统不仅能够观察,还能理解和做出反应。”  | 
这些系统将在上下文中解释视觉数据,做出明智的决策并启动适当的响应。从本质上讲,我们可以利用代理人工智能的目的驱动性质来补充我们的日常任务,并将计算机视觉能力提升到新的高度。
[1]《财富》商业洞察。 (2025 年 1 月 13 日)。计算机视觉市场规模、趋势|预测分析[2032]. 查看文章。[2]Sun, D.(2023 年,6 月 16 日)。警察机器人将部署在新加坡各地;两人目前在樟宜机场 T4 航站楼巡逻。 海峡时报。查看文章。