Visual Computing(视觉计算)是所有处理二维图像和三维模型的计算机科学学科的总称,即计算机图形学、图像处理、可视化、计算机视觉、虚拟和增强现实、视频处理,但也包括模式识别、人机交互、机器学习等方面。核心挑战是视觉信息(主要是图像和视频)的获取、处理、分析和渲染。应用范围包括工业质量控制、医学图像处理和可视化、测量、机器人、多媒体系统、电影和电视的特效以及计算机游戏。
随着计算机图形学,图像处理,计算机视觉等个学科间的交叉越来越广泛,许多使用的数学和算法方法在处理图像的所有领域都是相同的:图像格式、过滤方法、颜色模型、图像评估等。还有图形硬件的编程方法、处理大量数据的操作技巧、教科书和会议、这些学科的科学社区和公司的工作组越来越多地混合在一起。为了更一般化的描述这种交叉领域或学科,"视觉计算 "名称应运而生。
常见的视觉计算的任务如下:
现在,应用程序越来越需要同时来自多个领域的技术。要生成复杂对象的非常详细的模型,需要图像识别、3D 传感器和重建算法,并且要可信地显示这些模型需要具有复杂照明模拟的逼真渲染技术。实时图形是可用的虚拟和增强现实软件的基础。器官的良好分割是医学扫描 3D 可视化交互操作的基础。机器人控制需要将物体识别为环境模型。所有设备(计算机)都需要符合人体工程学的图形用户界面。
尽管许多问题被认为是在组成视觉计算的子学科的科学界内解决的(主要是在理想假设下),但作为一个整体,视觉计算的一个主要挑战是将这些部分解决方案集成到适用的产品中。这包括处理许多实际问题,例如处理大量硬件、使用真实数据(通常是错误的和/或规模巨大的)以及未经培训的用户的操作。在这方面,视觉计算不仅仅是其子学科的总和,它是迈向适合在所有领域使用计算机上的图像或 3D 对象的系统的下一步。
视觉计算的特点如下:
- 需要高效地处理:更高的能耗比(ops/watt),专用的芯片(并行、异构)
- 面向特定领域的编程框架:OpenGL、Halide、游戏引擎框架、深度学习框架
- 计算处理方面基本上是近似的