0731-88575016

详细内容

竞技宝官网app·图像识别技术的发展过程发展历史什么时候提出的图像识

时间发布时间:2024-05-15 05:21:36 来源:竞技宝app下载官网 作者:竞技宝官网地址     

  图像识别是深度学习算法其中的一个应用方向,而关于图像识别方法的研究始于上世纪 50 年代,经过了 50 多年的发展,图像识别技术大致可分为以下三个阶段。

  A. 图像处理的文字识别,该阶段是从 1950 年开始到 1965 年结束,其主要特征是对文本型的数据进行识别,比如数字,字符等,其在生活中的应用也非常广泛。

  B. 数字图像处理与识别,该阶段从 1965 年开始,到 20 世纪初,其主要特征是对数字图像进行识别和处理研究,与传统的模拟图像相比,数字图像解决了传输及存储过程中的数据丢失的问题。因此,对于数字图像的识别意义重大。

  C. 物体三维识别,该阶段是近年来基于对三维世界的物体识别而兴起的,该阶段属于计算机视觉领域的高级复杂任务,是近几年随着大数据到人工智能兴起而产生的一种新兴技术。它以数字图像处理与识别为基础,结合机器学习和深度学习的算法对图像进行识别,其研究成果被广泛应用于工业及机器人领域。

  从动物学家针对化石的研究中,人们发现生物的视觉系统大概起源于5亿4千3百万年前—在那之前,地球上只存活着非常少的一些物种。而之后短短的1000万年间,物种数量却呈现出了爆炸式的增长(如图19-1所示)。虽然人们还无法完全揭晓那一段历史时期内所发生的具体事情,但业界目前一个普遍的观点就是:视觉系统的出现和不断完善迫使不同物种间的竞争加剧,进而极大地缩短了它们的进化时间,最终导致了大爆炸现象的出现。

  相对于生物视觉系统漫长的进化历程,计算机视觉显然是“非常年轻而且稚嫩”的,因为人们是从20世纪50年代才开始尝试赋予计算机系统这一重要的感知能力。而且,这个学科的涉及面比较宽泛,它不仅依赖于计算机科学知识,同时还涉及生物学、数学、神经科学等多个领域,如图19-3所示。

  当然,这并不代表人类在这个领域一无所获。应该说,人们在多年的探索过程中,已经取得了不少阶段性的进展。

  人们总是在探索着他们所处世界中的万事万物—这其中当然包括人类自身。20世纪50年代左右,生物学家们做了很多努力来试图理解动物的视觉系统,其中比较有名的是Hubel和Wiesel的一些研究成果。他们从电生理学的角度来分析猫(据说选择猫的原因在于它和人类的大脑比较相近)的视觉皮层系统,从中发现了视觉通路中的信息分层处理机制,并提出了感受野的概念,实验示意图如图19-8所示。他们也因此获得了诺贝尔生理学或医学奖。

  严格意义上来讲,计算机视觉是在20世纪60年代逐步发展起来的。这个时期还诞生了人类历史上的第一位计算机视觉博士,即Larry Roberts。他在1963年撰写的论文“Machine perception of three-dimensional solids”中将物体简化为几何形状(立方体、棱柱体等)来加以识别(如图19-9所示)。当时人们相信只要提取出物体形状并加以空间关系的描述,那么就可以像“搭积木”般拼接出任何复杂的三维场景。人们的研究热情空前高涨,研究范围遍布角点特征、边缘、颜色、纹理提取以及推理规则建立等很多方面。

  随后的1966年,MIT举办了一个名为“Summer Vision Project”的活动,与会人员“雄心勃勃”地希望在一个暑假的时间里彻底解决计算机视觉问题。虽然这个活动没能达到预期的目的,但随后几十年人们对于计算机视觉的热情却持续高涨,其影响范围也蔓延到了全世界。

  MIT的人工智能实验室在这一时期的计算机视觉领域中发挥了相当积极的推动作用。一方面,它于20世纪70年代设置了机器视觉(Machine Vision)课程;同时人工智能实验室还吸引了全球很多研究人员参与到计算机视觉的理论和实践研究中。

  其中,David Marr教授在计算机视觉理论方面做出了非常多的贡献。他融合了心理学、神经生理学、数学等多门学科,提出了有别于前人的计算机视觉分析理论,并在前后二十年的时间里影响了这一领域的发展。他的主要著作是Vision: A computational investigation into the human representation and processing of visual information(由于David在1980年不幸病逝,这本书据说是由其学生归纳总结出来的),书中将视觉识别过程划分为三个阶段,如图19-10所示。

  20世纪80年代,逻辑学和知识库等理论在人工智能领域占据了主导地位。人们试图建立专家系统来存储先验知识,然后与实际项目中提取的特征进行规则匹配。这种思想也同样影响了计算机视觉领域,于是诞生了很多这方面的方法。例如,David G. Lowe在论文“Three-Dimensional Object Recognition from Single Two-Dimensional Images”中提出了基于知识的视觉(Knowledge-based Vision)的概念,如图19-11所示。有兴趣的读者可以下载论文了解详情。

  此时计算机视觉虽然已经发展了几十年,但仍然没有得到大规模的应用,很多理论还处于实验室的水平,离商用要求相去甚远。人们逐渐认识到计算机视觉是一个非常难的问题,以往的尝试似乎都过于“复杂”,于是有的学者开始“转向”另一个看上去更简单点儿的方向—图像分割(Image Segmentation)。后者的目标在于运用一些图像处理方法将物体分离出来,以此作为图像分类的第一步。

  另外,伴随着统计学理论在人工智能中的逐渐“走红”,计算机视觉在20世纪90年代也同样经历了这个转折。学者们利用统计学手段来提取物体的本质特征描述(如图19-12所示),而不是由人工去定义这些规则。这一时期产生的多种基础理论直到现在还有广泛的应用,例如图像搜索引擎。

  随着机器学习的兴起,CV领域开始取得一些实际的应用进展。例如,Paul Viola和Michael Johns等人利用Adaboost算法出色地完成了人脸的实时检测,并被富士公司应用到商用产品中;同时SPM、HoG(如图19-13所示)、DPM等经典算法也如“雨后春笋”般涌现了出来。

  大家有幸正在经历人工智能大爆发的这个历史阶段—包括计算机视觉在内的多项人工智能领域取得了长足的进步。从其他章节的学习中,我们知道这主要归功于如下几个原因。

  ② ImageNet、PASCAL等超大型图片数据库(见图19-14)使得深度学习训练成为可能(注:大型图片数据库虽然在2000年后期就已经出现了,但真正大放异彩还是在最近十年),同时,业界一些极具影响力的竞赛项目(例如ILSVRC)激励了全世界范围内的学者们竞相加入,从而催生了一个又一个优秀的深度学习框架。


竞技宝官网app
电话:13973131243
邮箱:dingdangang@douyin.com
地址:竞技宝官网app
扫一扫浏览手机站