视觉研究的前世今生(上)王天珍(武汉理工大学)

视觉是人类最重要的知觉,没有视觉人类很难定位,识别物体,了解坏境,得以生存发展。20世纪两次世界大战,使得西方各国,不论是为了飞机安全着陆,还是导弹精确制导,都对视觉研究有了非常大的兴趣,系列的欧洲视知觉会议(ECVP,1978),杂志“视觉研”(vision research,1961)在上世纪的出现,都不同程度源于得到了各大基金和有关军方的支持NASA,NIH NSF, officeof Navel, Air Force Research)。至今在西方各国视觉研究依然是一个热门研究方向。

80年代,我在新华文摘上读到钱学森关于人工智能的一篇讲话,他提到计算机的出现改变了人类社会,计算机又快又准确,但就是在物体识别方面无论如何也赶不到人类视觉,这引起了我对物体识别的极大兴趣。几年后到美留学,学习数字图像处理,这才知道物体识别属于计算机视觉的研究范围,知道至今为止不论是计算机视觉研究,还是人类视觉研究都没有大的突破。

我是一个喜欢追根刨底的人,从小电影,电视剧,小说一定要知道结尾,于是就被套了进去,不论有钱没钱,英文中文,凡是与视觉有关的杂志,书,都要找来看,各种会议自己花钱也要去参加,何况回国后主要工作也是图像处理方面的教学和研究。近30年来还是有些成果:1,对视觉机理有了比较深的理解;2,知道了不少古今中外研究视觉的人和故事.于是就有了把这些故事说出来的愿望,在唯SCI的时代,和在职的年青教师研究生去抢饭碗,去投稿一级学报,争取发表,没有必要,就在博客上吹吹牛吧。

按照J Wade 在视觉的自然史中的划分原则,和我自己的思路,我将视觉史的研究分为3个阶段:1838年前,作为自然观察研究时代;将Wheaston 发明立体镜到1982年作为实验研究时代;将1982年Marr的:“VISION”(中文译为”视觉计算理论”)出版作为信息科学研究时代的开始。

最后谈谈我知道的国内有关研究。

 

视觉研究的前世今生(一)

王天珍

一,   从古希腊到18世纪的视觉研究


§1-1视觉是什么:外射说和射入学之争

狼和狮子等猛兽的眼睛在黑夜里闪闪发光,引起恐怖和神秘之感;检阅时统帅们用眼角余光逼视着他的队伍里的士兵,让他们感到威严的压力,如此等等使得古希腊一些学者认为视觉是人类眼中发出来的光作用到物体上产生的感觉。认为视觉是从眼睛里发出的光或者火,灵魂借以感知世界的学说被称为外射学。外射学的提倡者和支持者有:柏拉图(Plato,350 B.C.)欧几里得(Euclid,300B.C.),托勒密(Ptolemy,150)。  


图1柏拉图

欧几里德是古希腊公认的大数学家,他依据光是直线传播的事实,按照柏拉图的等同光与视觉的思路,数学化了光学,写了“光学”从而将视觉也几何化了,他提出光线从眼里投射到物体,视觉被限制到视线形成的立体锥中,对着大角的物体被知觉为较大,这样他不仅对光通过空间作了说明,他的光学是一种空间知觉几何理论。科学研究不等于数学,但是只有有了数学,科学研究才能深入。美国资源委员会对科学研究的定义是:“科学研究工作是科学领域中的检索和应用包括对已有知识的整理、统计以及对数据的搜集、编辑和分析研究的工作。要整理、统计以及对数据的搜集、编辑和分析非数学不可,因此任何一门学科的研究,只要有了数学家的加入,就特别有活力。                                                                                                                     图2欧几里德

                                                                            

 外射学从常识来看,好像不合理。反对外射学的亚里士多德(Aristotle)就质疑说,如果视觉真如灯笼一样是从眼往外发射光,为什么在黑暗中,眼睛没有看的能力呢?但就是因为欧几里得等同视觉与光,从几何的角度,说得头头是道,使得外射学流行了几百年。

原子论的提倡者德莫克里特(Democritus,400 b.c.)认为从物体发射的原子压缩空气带物体的影像到眼睛,引起视觉,这个观点被伊毕鸠鲁(Epicurus,300 b.c.)发扬光大,形成了另一个学派射入学派,射入学派经过亚里士多德的学生Theophrastus(300  b.c)的整理更接近现代光与视觉的概念:太阳发出的光被物体反射,通过透明,或者半透明的媒质被眼睛接受,反映亚里士多德意识到作为物质的光和作为媒质运动的光的区别,他们认为,这样的运动是瞬间的,能同时被很多观察者接受。但是这一学派当时并没有被广泛接受。

图3亚里士多德

托勒密一般坚持欧几里德几何光学理论,但是他认为视觉不是等同通过单个视锥,而需要双眼视锥的结合。他更看重实验,他对折射反射作了长期观察,能够准确的描叙这些现象,发现在两种不同的透光物资界面上,光发生了弯曲,从折射角不等于入射角,而是有定量的关系。注意到建立物理和视觉的心理分析间的一致,这一点为后来的海桑(Ibn al-Haytham, Alhazen,1040)所发展 。但是他坚持外射学,。

解剖学介入视觉研究比较早,把视觉研究从古希腊的哲学家的清谈和数学家的推演中走出来的,是古罗马的医生和哲学家盖伦(Galen,129,199)他活体解剖过动物,尤其是臾猴,并由此推论人体的构造。他发现白内障致盲,但是移去白内障,能够恢复视力,因此认为视线从晶状体发出(晶状体式视觉的基地)。                                                                                                                             图4盖伦

他混淆阳光中的光线和视线。他依据解剖和生理的结合,同意托勒密的双眼单视。因为解剖他知道视神经在视交叉中结合,于是推测灵魂是从单一位置发出的。

世界科学的大发展有三个高峰,古希腊,罗马,文艺复兴。罗马以后,欧洲因为战乱,和黑死病流行对经济的影响,大约有六百多年,科学研究受到压抑,很多希腊文献散失,学派消失。只是经过阿拉伯学者的努力,保留了大量的希腊学者的著作,并再翻译为拉丁文,欧洲到文艺复兴时,才能在希腊学术研究的基础上再次繁荣。

在其中阿拉伯的学者海桑(Ibn al-haytham,Alhazen,965-1039)起了承前启后的作用。他的巨作“光学”让欧洲重新知道了古希腊的各种学说。利用自己设计的各种装置,他有系统的研究光线的传输,反射与折射。他观察到睁开眼睛就能使整个天空充满阳光,而强的阳光会引起眼睛的疼痛,因而他相信外射学,他说眼睛是为感光而设计的。他还提出了后来认为是J.J.Gibson 提出的空间知觉理论,提出了被认为是Helmholtze最先提出的无意识推理。

 图5开普勒    外射学和射入学之争直到17世纪开普勒(Kepler,1571-1630)才算经纬分明。1611年,他在“折射光学”中提出人们能够看见物体是因为物体发出的光通过眼睛的水晶体投射在视网膜上形成倒像,晶状体不过是一个光线的折射装置。1625年德国的物理学家沙伊儿(Christoph  Scheiner,1575-1650)用牛眼验证了他的说法。他在被摘出的牛眼后极部,切除巩膜和脉络膜,于是人们在视网膜上看见了倒置的景物。这样大家才最后相信是物体发出的光进入眼睛,在眼底形成了倒置的景物影像,经历了一千多年的岁月,射入说,终于得到了承认。        

       

§1-2眼睛的光学结构及调节现象的研究,眼镜及照相机的发明。

盖伦开始,解剖学进入视觉研究,盖伦主要通过对猴子的解剖和偶然对洪水漂来腐烂尸体研究,对眼睛结构有了一些初步的了解,在他的著作“身体各部分的用处”一书中,有一节是关于眼睛和它的附属器官的,他描叙了玻璃体,捷膜,角膜,虹膜,晶体,脉络膜和视网膜。盖伦解剖过视神经,知道它的走向,并看见了视交叉得出视交叉是精灵进入脑时左右眼互相交换的地方。有两只眼的原因是能看到更大的范围,而且一只眼出了问题,还可以用另一只眼看。16世纪,意大利的天文学家F.Maurolico(1494-1575研究了折射现象并企图解释彩虹,他描叙了小孔成倒象,并提出晶状体相当折光棱镜,光通过晶状体折射。1619 德国天文学家,物理学家沙奈尔(C.Scheiner,1575-1650)第一个科学地绘出了人眼的示意图,正是他用牛眼的断层实验,验证了Scheiner 1619年绘制的眼调节图Kepler的倒像论,他用各种光学实验证明晶状体和玻璃体的屈光率,测定了角膜的曲率和晶状体的弯曲度,眼视光学从此登上科学的舞台。他写到,年轻人看东西清楚是因为他们的晶状体适应性好,网膜能自由活动。能够看远也能看近。 

图6.Scheiner 1619年绘制的眼调节图。(引自A Natural history of vision)


 人类在对眼睛的结构进行研究的同时,发明了眼镜和照相机。

眼镜的发明改善了视力。据说眼镜最早出现在1289年意大利弗罗伦萨,是叫阿尔马托的光学家发明的。但马可波罗在1260年写到,中国老人为了清晰地阅读而戴着眼镜。说明眼镜是从中国传过去的。中国历史博物馆有一幅藏画“南都繁会景物图卷,中有一老者戴着眼镜,说明早在明永乐年间中国就有眼镜出现了。

照相机本身就是眼睛结构研究自然的产物。小孔成像的研究导致了暗箱的出现。水到渠成,经过了文艺复兴,1829年法国的艺术家盖达儿(Louis Daguerre 1787 – 1851发明了照相机

7  盖达儿    

 照相机的发明反过来又加深了对视觉的研究,因为与相机的对比,从开普勒到19世纪中,对视觉的研究很重要的一部分集中在对眼睛调节机理的研究上。人们推测是眼睛的哪一部分完成了调节作用使得人眼能在很大一个范围内看清物体,而不是像相机只能在一个距离上聚焦。有三种猜测:1,角膜改变曲率完成调节,近处曲率变大;2,晶状体在眼内前后移动,持这个观点的是开普勒,Scheiner是他的支持者,但也考虑晶状体形状的改变;3,晶状体改变形状完成调节,托马斯·杨ThomasYoung17731829),1793年从逻辑和生理的角度推出这个结论。他同时还解决了晶状体本身的结构问题,假设晶状体用肌肉的纤维组成。

眼睛调节在17世纪,被笛卡尔等作为知悉距离的线索,这成了柏克莱的肌肉调节是距离知觉的重要原因的空间视觉理论的重要依据。

网膜之后眼睛接受的图像去了哪儿?下节谈谈古人对双眼单视和视觉通道的解剖生理研究

                       视觉研究的前世今生(二)

王天珍

 

§视觉通道,双眼单视,和颜色视觉

§2-1视觉通道和双眼单视

人都有长在头前的两只眼,但看见的物景却是一个,这称为双眼单视。为什么双眼单视,双眼比一个眼看东西好,还是用一个眼好,自古以来就是学者们争论不休的话题。

双眼单视甚至在荷马的史诗“奥德塞(Odyssey)”中反映出来,神王宙斯(Zeus)的雷神就是独眼(cyclopine eye)。

亚里士多德(Aristotle)注意到复视,他说如果将手指压迫一个眼睛,一个东西就会看为两个,也就是说,从那时开始,人们就注意到双眼单视了。

这被托勒密(Ptolemy)用实验检验,较之Euclid只用光的投射解释双眼视觉,托勒密用控制观察法确定了双眼单视的条件,说明交叉和非交叉视差的差别。为现代双眼视觉研究铺平了道路。

托勒密的工作可能影响到几乎同时代的解剖学家盖伦(Galen),盖伦不仅通过解剖了解眼睛的结构,也通过解剖,发现从两眼到脑的神经通道。                                                                                                                                                                                            托勒密

J Wade 考证,在古时候,脑本身就不太被重视,视觉通道较之眼解剖更被忽视。希波拉底(Hippocrates)认为愉快,感觉,思想在脑,但是心是感觉力的中心,虽然这一点,不为Aristotle赞同。通过解剖研究,Galen认为视觉通道起源于脑前室,在此,动物精神与视神经引起的视觉精神交互。视神经本身在视交叉聚合,但是每一方保留在自己这边。这个错误被重复,并被笛卡儿(Descartes)整合进入他的视觉分析中。Galen的脑前室类似于丘脑。在笛卡儿的折光学中视神经从每个眼同侧进入脑,在后面的松果体结合。他将此类比为盲人拄两根拐杖去触觉一个物体。P105图,P250

对于双眼和单眼的关系,亚里士多德考虑双眼从一个单源移动,因此单眼视觉优于双眼,他用眼动控制来解释这一点。托勒密注意到双眼和单眼的视方向不必一致,当两眼视方向一致时,双眼单视。而盖伦的理论是视精神在视交叉交互,故他考虑一个眼在使用时比两个眼视精神更集中。(Wade P240

意大利自然哲学家波尔塔(Porta)则更激进,他认为因为竞争,每个时间只有一个眼在在工作。波尔塔的观点得到法国的画家,透视学教师LeClere的支持,他收集了一些实例,这些人每个眼分开比双眼看的更清楚,以此为证,说明每次只有一个眼在工作。

笛卡儿推测从两眼来的纤维(视神经)结 合在松果体,但是作为画家和透视教师的

9  笛卡儿     LeClere不同意他的观点,LeClere用透视图说明虽然两眼得到的图像来源于同一个物体,但是由于透视的原因两者并不相等,以此来反对笛卡儿的双眼融合论。P265

双茼望远镜和显微镜的发明者Cherubin dOrieans认为双眼视觉是优于单眼,在光度计被发明后,得到了证实。

§2-2颜色视觉

心理学家在什么是感觉,什么是知觉方面意见一贯不一致,但是他们一致同意颜色是感觉。但是为什么会有色盲,为什么我们会感觉到颜色,白光与颜色光的关系是什么,为什么会有彩虹这个问题一直到牛顿(Newton)才有了比较大的进展。牛顿在他的“光学”(1704)中说,我不是用假说解释光的性质,我是用推理和实验提出并证实它们。他用棱镜将白光分解成了彩色光谱,他意识到光谱是连续的,但报告了七种颜色,红,橙,黄,绿,蓝,靛,紫。从此人们知道白光能够分解成单色光,按一定比例,色光也能结合成白光

10   牛顿  

 基于颜色混合的事实,汤姆士。杨(Young)在1807年提出三原色的假设。他设想视网膜上存在三种神经纤维,每种都引起一种原色的感觉,即红,绿,蓝色觉。到了1860年赫姆霍茨(Helmholtz)对三色学作了补充,提出光谱的不同成分引起三种纤维不同比例的兴奋,他们有不同的兴奋曲线 

(寿书P234),在颜色混合中混合色是三种纤维按比例同时兴奋的结果。这就是后来有名的Young- Helmholtz三色学。三色说能很好的解释颜色混合现象,但是不能解释色盲现象。  

 色盲的概念是1844年由布律斯特(Brewester)提出来,但是在18世纪就已经有了纪录。原子论的提出者道尔顿(Dalton1794年就在曼彻斯顿的文哲协会上就报告自己不能从黑色中区分红色,并引起了科学界极大的震惊(P137)。三色学认为色盲是因为缺乏一种(单色盲)和三种纤维(全色盲)造成的,按此学说至少应该有三种色盲:红色盲,绿色盲,蓝色盲,他们可以单独存在。并且依此理论只有三种纤维同时兴奋才有非彩色感觉,既然色盲缺乏一种或者几种纤维,那么色盲都不应该有明度感(白色感觉)。但是事实上,几乎所有的红色盲也是绿色盲,而全色盲着也同样有白色感觉。                                                                11赫姆霍茨

  1864年赫林(hering)提出了对立色(拮抗)学说。认为视网膜中有三对视素,白-黑视素,-绿视素,黄-蓝视素。每对视素对光照和黑暗呈相反的反映。色觉取决于视素的分解和还原。异化产生红,黄,白,复原产生蓝,绿,黑,在视觉研究史上称为hering law。拮抗学能很好解释色盲和负后像和同时对比。但是对三原色能产生光谱一切颜色没有给以说明。(hering law 英汉医学词典)

一个多世纪以来两种学说进行了长期,反复的争论,好像互不相容。近几十年来,尤其是微分光光度术的出现,色觉研究有了重大突破。现已证明人的视网膜上确实存在三种感色的锥细胞,而在从网膜向视觉中枢传递的过程中,颜色信息都是编码为拮抗对的形式传递。从而解决了两种理论之争,美国著名生理学家Hartline 说,两者都是对的。

         图12 海林


本文转自:http://blog.sciencenet.cn/blog-1239700-853296.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/246884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看了数百个PPT封面,我只想告诉你这两个套路!

做PPT离不开的一个词就是封面,封面即门面,很大程度上决定了你的作品给人的第一印象。 我们经常能够在网上看到一些大神做的封面,比如阿文、珞珈,非常酷炫。 这类封面也许不需要太多技巧,但一定是花了很多心思并且需要…

caffe 框架梳理(待续)

本文更多资料来源于罗韵北京深度学习资料和Ian Goodfellow的书籍《Deep Learning》 链接: http://pan.baidu.com/s/1jIRJ6mU 提取密码:xehi caffe:全称Convolutional Architecture for Fast Feature Embedding,是一个计算CNN 相关算法的框…

深度学习 - 强化学习 -迁移学习(杨强教授报告)

李宏毅机器学习课程-Transfer Learning 深度学习 -> 强化学习 ->迁移学习(杨强教授报告) 链接: http://pan.baidu.com/s/1nu6DMRn 密码: an9q 深度学习的局限 表达能力的限制。因为一个模型毕竟是一种现实的反映,等于是现实的镜像&…

Caffe: 贾扬清2015年讲座

链接: http://pan.baidu.com/s/1jIRJ6mU 提取密码:xehi 一、讲座正文 大家好!我是贾扬清,目前在GoogleBrain,今天有幸受邀来和大家聊聊Caffe。没有太多准备,所以讲的不好的地方还请大家谅解。 大家最近一段时间应该已…

关于机器学习的领悟与反思(张志华北大数学系教授)

张志华教授:机器学习——统计与计算之恋 COS访谈第十九期:张志华教授 张志华老师教学之感悟 部分共享资料见链接: https://pan.baidu.com/s/1bpGc0nP 密码: 49ei ◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆…

《见字如面》赏析-待续

《爸爸的信——学会鄙视自己,才不会妥协》 理想太容易妥协,欲望太容易放大。 百岁老夫妻70年前写出最美战地情书 穿越到70多年前的抗日战争缅甸战场,化身文质彬彬又器宇轩昂的远征军翻译官曹越华,在炮火连天的异国战场&#xf…

机器真的已经战胜人类医生了吗?医学AI标题党文章中的三大陷阱

作者 | Dr Luke Oakden-Rayner 翻译校对|吴蕾 刘晓莉 曹翔 ◆ ◆ ◆ 序 关于“机器人战胜人类医生”的文章铺天盖地,正高居各类科技网站首页。 例如《通过辐射变化,计算机程序的脑肿瘤辨识能力战胜医生(神经科学新闻,2016&#x…

安装测试 Lasagne

Lasagne不只是一个美味的意大利菜,也是一个与Blocks和Keras有着相似功能的深度学习库,但其在设计上与它们有些不同。 下面是Lasagne的一些设计目的: 简单化:它应该是易于使用和扩展的机器学习库。每添加一个特征,就应…

Python 处理医学影像学中的DICOM

DICOMDICOM(Digital Imaging and Communications in Medicine)即医学数字成像和通信,是医学图像和相关信息的国际标准(ISO 12052)。它定义了质量能满足临床需要的可用于数据交换的医学图像格式,可用于处理、…

基于CNN的性别、年龄识别及Demo实现

一、相关理论 本篇博文主要讲解2015年一篇paper《Age and Gender Classification using Convolutional Neural Networks》paper的创新点在哪里。难道是因为利用CNN做年龄和性别分类的paper很少吗?网上搜索了一下,性别预测,以前很多都是用SVM算…

Faster R-CNN的安装及测试(Python版本和Matlab版本)

rbg的Python版本 一、拉取源码 git clone --recursive https://github.com/rbgirshick/py-faster-rcnn.git 拉取完成后,在/home/cmwang/目录下增加了py-faster-rcnn文件夹【cmwang是我的ubuntu用户名】 二、安装依赖 sudo apt-get install python-opencvsudo pip…

2016 亚洲共识指南:肺结节的评估

2016 年 2 月,亚洲肺部疾病和胸外科多学科专家小组在美国胸科医师学会(ACCP)制定的肺结节评估指南的基础上结合亚洲患者的自身特点制订了亚洲肺结节患者的评估指南。 亚洲肺结节的评估与 APCC 指南中所指出的重要注意事项大致相同。但该指南…

Ubuntu 15.04 安装TensorFlow(源码编译) 及测试梵高作画

介绍Google的TensorFlow机器学习开源库,在UbuntuKylin上的安装和和源码编译。 原始官方文档参见:http://www.tensorflow.org. 本电脑配置如下: 3.19.0-15-generic #15-Ubuntu x86_64 GNU/Linux NVIDIA Corporation GK110BGL [Tesla K40c] …

Ubuntu SSH Algorithm negotiation failed

问题 解决方法 chmod 777 /etc/ssh/sshd_configgedit /etc/ssh/sshd_config添加如下 Ciphers aes128-cbc,aes192-cbc,aes256-cbc,aes128-ctr,aes192-ctr,aes256-ctr,3des-cbc,arcfour128,arcfour256,arcfour,blowfish-cbc,cast128-cbcMACs hmac-md5,hmac-sha1,umac-64openssh.…

不同matlab版本所支持的gcc g+版本

问题 关于 GCC 和 G 版本问题 Matlab 2014a gcc/g 4.7.x, Matlab 2016a gcc/g 4.9.x Matlab 2017a gcc/g 4.9.x Ubuntu 15.04 gcc/g 4.9.x, Ubuntu 16.04 gcc/g 5.4.x 原则上Matlab需要和Ubuntu版本一致,由于CUDA 8只支持16.04,而且需要GCC 5.4.x 进行编译&#…

Linux 终端配置

一般Linux中的配置文件大多以点开头,而且多以rc结尾。比如vim的配置文件 .vimrc,bash shell的配置文件.bashrc,等等。 像这样的配置文件,如果用ls -l命令是列不出来的,需要用ls -a来列出。 “rc”,它是“…

caffe2 介绍

Caffe2的特性 Caffe2框架可以通过一台机器上的多个GPU或具有一个及多个GPU的多台机器来进行分布式训练。 也可以在iOS系统、Android系统和树莓派(Raspberry Pi)上训练和部署模型。只需要运行几行代码即可调用Caffe2中预先训练好的Model Zoo模型。Caffe2…

Python 中的numpy 库

待总结 用scikit-learn和pandas学习线性回归 用scikit-learn和pandas学习Ridge回归 待整理的 Numpy & Pandas numpy——主要对其 N 维数组对象有用 http://www.numpy.org/ Pandas数据转为 numpy数据 df_numpyMatrix df.as_matrix() df_numpyMatrixdf.values a([3.23…

Python 中的Pandas库

待总结 用scikit-learn和pandas学习线性回归 用scikit-learn和pandas学习Ridge回归 基于python的数据分析库Pandas pandas——Python 数据分析库,包括数据框架(dataframes)等结构 http://pandas.pydata.org/ 10 Minutes to Pandas&#…

weka和matlab完成完整分类实验

本文 本文简单介绍数据集介绍、weka的使用、weka与LIBSVM、matlab与LIBSVM以及分类的若干细节问题。 1. 数据集介绍 打开网址UCI数据集,如下图。 从右下角可以看到Iris这个数据集,这是使用最多的数据集,目前下载量超过了82万。 打开之后跳…