前一段时间,IBM 沃森参加了CBS的益智节目《危险边缘》(Jeopardy),这是他在全国观众面前首次亮相。确切地说,站在中央舞台选手答题台后面的IBM沃森实际上 是不断闪烁的虚拟头像。尽管如此,摆在沃森面前的答题按钮却是如假包换的,在《危险边缘》的快速问答环节,沃森必须按动按钮才能答题。这个按钮是靠一套专 门设计的应用程序来激活,该程序是在沃森的后台服务器集群中运行,并辅以IBM Scale-Out NAS (SONAS)存储系统。
在我看来,沃森在节目开始的前15分钟确实表现惊人,他以闪电般地速度给出答案并选择下一个问题类别,真令人目不暇接。而与之对阵的真人选手Brad Rutter 和Ken Jennings 则只能默默站在一旁,眼睁睁地看着沃森一次又一次得分。然而,当节目接近尾声时,沃森似乎变得有些迟钝,它竟然给出了和其中一位选手一模一样的错误答案。 在第二阶段的15分钟竞赛中,Brad 奋起直追,Ken也摆脱了困境。哈,难道是沃森不想再让创造他的人类蒙羞出丑了?
沃森的想法我 们可能永远都无从知晓,那么我们就着重探讨一下已知的情况吧。从存储的角度来看,沃森能够依靠海量的数据及其运算能力在三秒内从一系列有可能胜出的答案中 计算出“正确”答案的概率,关于这一点,我们已经讨论得很充分。鉴于沃森针对大型数据排列组合的实时解析能力,IBM已计划将沃森的基础技术拓展到的大型 数据分析领域。
这当然很好。但是,沃森的开发工作既令开发人员倍感振奋,同时也是IBM所面对的巨大挑战,我觉得IBM在应对这一挑战的过程中所取得的成果才是最值得关注的。从Tony Pearson的博客中 可以了解到,沃森的数据存储系统是以经过改良的IBM SONAS集群为基础的,其原始容量总计21.6TB。但Pearson同时也透露了另一条重要消息,在我看来这是相当惊人的数据点:“当沃森启动时,载 入的RAM总计15TB,随后,深度问答(DeepQA)处理过程就可以依靠内存全部完成。根据IBM研究分析,生成备选答案和评估相关依据时,所用数据 (经过分析和索引的文本、知识库等等)的实际大小还不到1TB。”
按Pearson所言,沃森在选出正确答案的过程中实际使用的数据集只需1TB的硬盘即可容纳。处理大数据所需的容量就只有这么多?
在我看来,大数据存储曾经是一道难解的谜题,但沃森的诞生则雄辩有力地解答了这个问题。确实,我曾经在文章中论及的新型业务分析系统充斥着来自多种来源 的海量数据,大数据也确实为存储供应商带来巨大的机遇。而沃森却在此时此刻横空出世,并且大声宣告:“伙计们,一切都过去了,我只需要1TB!”
沃森知道,在既定时刻,他所处理的数据中只有极小的一部分可以用于解决目标问题。在实验室中完成若干项《危险边缘》模拟游戏之后,沃森及其开发者认识 到,他们必须开发一种极其精确、紧凑的数据集,以适应沃森的内存要求。事实上,沃森的内存可以轻而易举地处理多个拷贝和版本的数据集。
我认为,无论对于存储技术专业人士还是存储系统供应商,沃森所揭示的不仅仅是数据提取和归档阶段的海量存储需求,而且也表明了关联引擎的开发需求。沃森对 存储系统开发人员提出了这样一个问题:你能否仅仅将相关数据存入系统?没错,存储系统的高速缓存确实是一种关联引擎,不过与沃森的能力相比,它最多也只能 算是一种简单的原始引擎。
更多精彩内容请关注:
IBM存储化官方微博
IBM存储化官方网站
转载于:https://blog.51cto.com/ibmhome/574442