视觉研究的前世今生（上）王天珍（武汉理工大学）

视觉是人类最重要的知觉，没有视觉人类很难定位，识别物体，了解坏境，得以生存发展。20世纪两次世界大战，使得西方各国，不论是为了飞机安全着陆，还是导弹精确制导，都对视觉研究有了非常大的兴趣，系列的欧洲视知觉会议（ECVP，1978），杂志“视觉研”（vision research，1961）在上世纪的出现,都不同程度源于得到了各大基金和有关军方的支持NASA,NIH NSF, officeof Navel, Air Force Research）。至今在西方各国视觉研究依然是一个热门研究方向。

80年代，我在新华文摘上读到钱学森关于人工智能的一篇讲话，他提到计算机的出现改变了人类社会，计算机又快又准确，但就是在物体识别方面无论如何也赶不到人类视觉，这引起了我对物体识别的极大兴趣。几年后到美留学，学习数字图像处理，这才知道物体识别属于计算机视觉的研究范围，知道至今为止不论是计算机视觉研究，还是人类视觉研究都没有大的突破。

我是一个喜欢追根刨底的人，从小电影，电视剧，小说一定要知道结尾，于是就被套了进去，不论有钱没钱，英文中文，凡是与视觉有关的杂志，书，都要找来看，各种会议自己花钱也要去参加，何况回国后主要工作也是图像处理方面的教学和研究。近30年来还是有些成果：1，对视觉机理有了比较深的理解；2，知道了不少古今中外研究视觉的人和故事.于是就有了把这些故事说出来的愿望，在唯SCI的时代，和在职的年青教师研究生去抢饭碗，去投稿一级学报，争取发表，没有必要，就在博客上吹吹牛吧。

按照J Wade 在视觉的自然史中的划分原则，和我自己的思路，我将视觉史的研究分为3个阶段：1838年前，作为自然观察研究时代；将Wheaston 发明立体镜到1982年作为实验研究时代；将1982年Marr的：“VISION”（中文译为”视觉计算理论”）出版作为信息科学研究时代的开始。

最后谈谈我知道的国内有关研究。

视觉研究的前世今生（一）

王天珍

一，从古希腊到18世纪的视觉研究

§1-1视觉是什么：外射说和射入学之争

狼和狮子等猛兽的眼睛在黑夜里闪闪发光，引起恐怖和神秘之感；检阅时统帅们用眼角余光逼视着他的队伍里的士兵，让他们感到威严的压力，如此等等使得古希腊一些学者认为视觉是人类眼中发出来的光作用到物体上产生的感觉。认为视觉是从眼睛里发出的光或者火，灵魂借以感知世界的学说被称为外射学。外射学的提倡者和支持者有：柏拉图（Plato，350 B.C.）欧几里得（Euclid,300B.C.）,托勒密（Ptolemy，150）。

图1柏拉图

欧几里德是古希腊公认的大数学家，他依据光是直线传播的事实，按照柏拉图的等同光与视觉的思路，数学化了光学，写了“光学”从而将视觉也几何化了，他提出光线从眼里投射到物体，视觉被限制到视线形成的立体锥中，对着大角的物体被知觉为较大，这样他不仅对光通过空间作了说明，他的光学是一种空间知觉几何理论。科学研究不等于数学，但是只有有了数学，科学研究才能深入。美国资源委员会对科学研究的定义是：“科学研究工作是科学领域中的检索和应用包括对已有知识的整理、统计以及对数据的搜集、编辑和分析研究的工作。要整理、统计以及对数据的搜集、编辑和分析非数学不可，因此任何一门学科的研究，只要有了数学家的加入，就特别有活力。图2欧几里德

外射学从常识来看，好像不合理。反对外射学的亚里士多德（Aristotle）就质疑说，如果视觉真如灯笼一样是从眼往外发射光，为什么在黑暗中，眼睛没有看的能力呢？但就是因为欧几里得等同视觉与光，从几何的角度，说得头头是道，使得外射学流行了几百年。

原子论的提倡者德莫克里特（Democritus,400 b.c.）认为从物体发射的原子压缩空气带物体的影像到眼睛，引起视觉，这个观点被伊毕鸠鲁（Epicurus,300 b.c.）发扬光大，形成了另一个学派射入学派，射入学派经过亚里士多德的学生Theophrastus（300 b.c）的整理更接近现代光与视觉的概念：太阳发出的光被物体反射，通过透明，或者半透明的媒质被眼睛接受，反映亚里士多德意识到作为物质的光和作为媒质运动的光的区别，他们认为，这样的运动是瞬间的，能同时被很多观察者接受。但是这一学派当时并没有被广泛接受。

图3亚里士多德

托勒密一般坚持欧几里德几何光学理论，但是他认为视觉不是等同通过单个视锥，而需要双眼视锥的结合。他更看重实验，他对折射反射作了长期观察，能够准确的描叙这些现象，发现在两种不同的透光物资界面上，光发生了弯曲，从折射角不等于入射角，而是有定量的关系。注意到建立物理和视觉的心理分析间的一致，这一点为后来的海桑（Ibn al-Haytham, Alhazen，1040）所发展。但是他坚持外射学，。

解剖学介入视觉研究比较早，把视觉研究从古希腊的哲学家的清谈和数学家的推演中走出来的，是古罗马的医生和哲学家盖伦（Galen，129，199）他活体解剖过动物，尤其是臾猴，并由此推论人体的构造。他发现白内障致盲，但是移去白内障，能够恢复视力，因此认为视线从晶状体发出（晶状体式视觉的基地）。图4盖伦

他混淆阳光中的光线和视线。他依据解剖和生理的结合，同意托勒密的双眼单视。因为解剖他知道视神经在视交叉中结合，于是推测灵魂是从单一位置发出的。

世界科学的大发展有三个高峰，古希腊，罗马，文艺复兴。罗马以后，欧洲因为战乱，和黑死病流行对经济的影响，大约有六百多年，科学研究受到压抑，很多希腊文献散失，学派消失。只是经过阿拉伯学者的努力，保留了大量的希腊学者的著作，并再翻译为拉丁文，欧洲到文艺复兴时，才能在希腊学术研究的基础上再次繁荣。

在其中阿拉伯的学者海桑（Ibn al-haytham,Alhazen,965-1039）起了承前启后的作用。他的巨作“光学”让欧洲重新知道了古希腊的各种学说。利用自己设计的各种装置，他有系统的研究光线的传输，反射与折射。他观察到睁开眼睛就能使整个天空充满阳光，而强的阳光会引起眼睛的疼痛，因而他相信外射学，他说眼睛是为感光而设计的。他还提出了后来认为是J.J.Gibson 提出的空间知觉理论，提出了被认为是Helmholtze最先提出的无意识推理。

图5开普勒外射学和射入学之争直到17世纪开普勒（Kepler，1571-1630）才算经纬分明。1611年，他在“折射光学”中提出人们能够看见物体是因为物体发出的光通过眼睛的水晶体投射在视网膜上形成倒像，晶状体不过是一个光线的折射装置。1625年德国的物理学家沙伊儿（Christoph Scheiner,1575-1650)用牛眼验证了他的说法。他在被摘出的牛眼后极部，切除巩膜和脉络膜，于是人们在视网膜上看见了倒置的景物。这样大家才最后相信是物体发出的光进入眼睛，在眼底形成了倒置的景物影像，经历了一千多年的岁月，射入说，终于得到了承认。

§1-2眼睛的光学结构及调节现象的研究，眼镜及照相机的发明。

从盖伦开始，解剖学进入视觉研究，盖伦主要通过对猴子的解剖和偶然对洪水漂来腐烂尸体研究，对眼睛结构有了一些初步的了解，在他的著作“身体各部分的用处”一书中，有一节是关于眼睛和它的附属器官的，他描叙了玻璃体，捷膜，角膜，虹膜，晶体，脉络膜和视网膜。盖伦解剖过视神经，知道它的走向，并看见了视交叉得出视交叉是精灵进入脑时左右眼互相交换的地方。有两只眼的原因是能看到更大的范围，而且一只眼出了问题，还可以用另一只眼看。16世纪，意大利的天文学家F.Maurolico（1494-1575）研究了折射现象并企图解释彩虹，他描叙了小孔成倒象，并提出晶状体相当折光棱镜,光通过晶状体折射。1619 德国天文学家，物理学家沙奈尔（C.Scheiner，1575-1650)第一个科学地绘出了人眼的示意图，正是他用牛眼的断层实验，验证了Scheiner 1619年绘制的眼调节图Kepler的倒像论，他用各种光学实验证明晶状体和玻璃体的屈光率，测定了角膜的曲率和晶状体的弯曲度，眼视光学从此登上科学的舞台。他写到，年轻人看东西清楚是因为他们的晶状体适应性好，网膜能自由活动。能够看远也能看近。

图6.Scheiner 1619年绘制的眼调节图。（引自A Natural history of vision）

人类在对眼睛的结构进行研究的同时，发明了眼镜和照相机。

眼镜的发明改善了视力。据说眼镜最早出现在1289年意大利弗罗伦萨，是叫阿尔马托的光学家发明的。但马可波罗在1260年写到，中国老人为了清晰地阅读而戴着眼镜。说明眼镜是从中国传过去的。中国历史博物馆有一幅藏画“南都繁会景物图卷，中有一老者戴着眼镜，说明早在明永乐年间中国就有眼镜出现了。

照相机本身就是眼睛结构研究自然的产物。小孔成像的研究导致了暗箱的出现。水到渠成，经过了文艺复兴，1829年法国的艺术家盖达儿（Louis Daguerre， 1787 – 1851）发明了照相机。

图7 盖达儿

照相机的发明反过来又加深了对视觉的研究，因为与相机的对比，从开普勒到19世纪中，对视觉的研究很重要的一部分集中在对眼睛调节机理的研究上。人们推测是眼睛的哪一部分完成了调节作用使得人眼能在很大一个范围内看清物体，而不是像相机只能在一个距离上聚焦。有三种猜测：1，角膜改变曲率完成调节，近处曲率变大；2，晶状体在眼内前后移动，持这个观点的是开普勒，Scheiner是他的支持者，但也考虑晶状体形状的改变；3,晶状体改变形状完成调节，托马斯·杨（ThomasYoung，1773－1829），1793年从逻辑和生理的角度推出这个结论。他同时还解决了晶状体本身的结构问题，假设晶状体用肌肉的纤维组成。

眼睛调节在17世纪，被笛卡尔等作为知悉距离的线索，这成了柏克莱的肌肉调节是距离知觉的重要原因的空间视觉理论的重要依据。

网膜之后眼睛接受的图像去了哪儿？下节谈谈古人对双眼单视和视觉通道的解剖生理研究

视觉研究的前世今生（二）

王天珍

§2 视觉通道，双眼单视，和颜色视觉

§2-1视觉通道和双眼单视

人都有长在头前的两只眼，但看见的物景却是一个，这称为双眼单视。为什么双眼单视，双眼比一个眼看东西好，还是用一个眼好，自古以来就是学者们争论不休的话题。

双眼单视甚至在荷马的史诗“奥德塞（Odyssey）”中反映出来，神王宙斯（Zeus）的雷神就是独眼（cyclopine eye）。

亚里士多德（Aristotle）注意到复视，他说如果将手指压迫一个眼睛，一个东西就会看为两个，也就是说，从那时开始，人们就注意到双眼单视了。

这被托勒密（Ptolemy）用实验检验，较之Euclid只用光的投射解释双眼视觉，托勒密用控制观察法确定了双眼单视的条件，说明交叉和非交叉视差的差别。为现代双眼视觉研究铺平了道路。

托勒密的工作可能影响到几乎同时代的解剖学家盖伦（Galen），盖伦不仅通过解剖了解眼睛的结构，也通过解剖，发现从两眼到脑的神经通道。图8 托勒密

J Wade 考证，在古时候，脑本身就不太被重视，视觉通道较之眼解剖更被忽视。希波克拉底（Hippocrates）认为愉快，感觉，思想在脑，但是心是感觉力的中心，虽然这一点，不为Aristotle赞同。通过解剖研究，Galen认为视觉通道起源于脑前室，在此，动物精神与视神经引起的视觉精神交互。视神经本身在视交叉聚合，但是每一方保留在自己这边。这个错误被重复，并被笛卡儿（Descartes）整合进入他的视觉分析中。Galen的脑前室类似于丘脑。在笛卡儿的折光学中视神经从每个眼同侧进入脑，在后面的松果体结合。他将此类比为盲人拄两根拐杖去触觉一个物体。P105图，P250图

对于双眼和单眼的关系，亚里士多德考虑双眼从一个单源移动，因此单眼视觉优于双眼，他用眼动控制来解释这一点。托勒密注意到双眼和单眼的视方向不必一致，当两眼视方向一致时，双眼单视。而盖伦的理论是视精神在视交叉交互，故他考虑一个眼在使用时比两个眼视精神更集中。（Wade P240）

意大利自然哲学家波尔塔（Porta）则更激进，他认为因为竞争，每个时间只有一个眼在在工作。波尔塔的观点得到法国的画家，透视学教师LeClere的支持，他收集了一些实例，这些人每个眼分开比双眼看的更清楚，以此为证，说明每次只有一个眼在工作。

笛卡儿推测从两眼来的纤维（视神经）结合在松果体，但是作为画家和透视教师的

图9 笛卡儿 LeClere不同意他的观点，LeClere用透视图说明虽然两眼得到的图像来源于同一个物体，但是由于透视的原因两者并不相等，以此来反对笛卡儿的双眼融合论。P265图

双茼望远镜和显微镜的发明者Cherubin dOrieans认为双眼视觉是优于单眼，在光度计被发明后，得到了证实。

§2-2颜色视觉

心理学家在什么是感觉，什么是知觉方面意见一贯不一致，但是他们一致同意颜色是感觉。但是为什么会有色盲，为什么我们会感觉到颜色，白光与颜色光的关系是什么，为什么会有彩虹这个问题一直到牛顿（Newton）才有了比较大的进展。牛顿在他的“光学”（1704）中说，我不是用假说解释光的性质，我是用推理和实验提出并证实它们。他用棱镜将白光分解成了彩色光谱，他意识到光谱是连续的，但报告了七种颜色，红，橙，黄，绿，蓝，靛，紫。从此人们知道白光能够分解成单色光，按一定比例，色光也能结合成白光。

图10 牛顿

基于颜色混合的事实，汤姆士。杨（Young）在1807年提出三原色的假设。他设想视网膜上存在三种神经纤维，每种都引起一种原色的感觉，即红，绿，蓝色觉。到了1860年赫姆霍茨（Helmholtz）对三色学作了补充，提出光谱的不同成分引起三种纤维不同比例的兴奋，他们有不同的兴奋曲线

（寿书P234），在颜色混合中混合色是三种纤维按比例同时兴奋的结果。这就是后来有名的Young- Helmholtz三色学。三色说能很好的解释颜色混合现象，但是不能解释色盲现象。

色盲的概念是1844年由布律斯特（Brewester）提出来，但是在18世纪就已经有了纪录。原子论的提出者道尔顿（Dalton）1794年就在曼彻斯顿的文哲协会上就报告自己不能从黑色中区分红色，并引起了科学界极大的震惊（P137）。三色学认为色盲是因为缺乏一种（单色盲）和三种纤维（全色盲）造成的，按此学说至少应该有三种色盲：红色盲，绿色盲，蓝色盲，他们可以单独存在。并且依此理论只有三种纤维同时兴奋才有非彩色感觉，既然色盲缺乏一种或者几种纤维，那么色盲都不应该有明度感（白色感觉）。但是事实上，几乎所有的红色盲也是绿色盲，而全色盲着也同样有白色感觉。图11赫姆霍茨

1864年赫林（hering）提出了对立色（拮抗）学说。认为视网膜中有三对视素，白-黑视素，红-绿视素，黄-蓝视素。每对视素对光照和黑暗呈相反的反映。色觉取决于视素的分解和还原。异化产生红，黄，白，复原产生蓝，绿，黑，在视觉研究史上称为hering law。拮抗学能很好解释色盲和负后像和同时对比。但是对三原色能产生光谱一切颜色没有给以说明。（hering law 英汉医学词典）

一个多世纪以来两种学说进行了长期，反复的争论，好像互不相容。近几十年来，尤其是微分光光度术的出现，色觉研究有了重大突破。现已证明人的视网膜上确实存在三种感色的锥细胞，而在从网膜向视觉中枢传递的过程中，颜色信息都是编码为拮抗对的形式传递。从而解决了两种理论之争，美国著名生理学家Hartline 说，两者都是对的。