`
mywebcode
  • 浏览: 993449 次
文章分类
社区版块
存档分类
最新评论

一位盲人工程师的谷歌之路

 
阅读更多

过去20年中,Google工程师莱曼通过编写软件,让自己需要使用的台式机、笔记本、手机、电视……每一部机器都能“开口讲话”


  莱曼简历

  莱曼(T.V.Raman),1966年出生于印度普纳,14岁时因为严重的青光眼而失明。1994年,在康奈尔大学凭借对技术文本的语音识别系统的研发成果,获得应用数学的博士学位。先后在Adobe和IMB从事计算机软件研发,2005年进入Google公司,负责“互联网可访问性”的研发。莱曼在Google的研发成果,包括一套更适于读屏软件工作的Google搜索界面、盲人用的Android手机、带有语音辅助功能的Google TV等。目前,莱曼博士正针对Google基于云计算全力开发的Chrome操作系统,进行可访问性的相关研发。

Google创新论坛 (7日在北京召开)

  T.V.Raman博士表示,全世界平均每十个人中就有一个失明、失聪或者行动不便的残疾人,google最新的创新技术可以帮助这些世界上最大的少数群体与健全人一样使用互联网,从科技的飞速发展中受益。

  T.V.Raman博士透露,Google已经开发出了数十款具有开创性的可访问技术,让视觉和听觉受损人士能够更方便地访问和浏览互联网,“对于全世界3.14亿4和2.78亿听力障碍人士来说,这些基于web 或手机的可访问技术的创新意义重大。”从智能手机到现代互联网浏览器,人们访问网络的方式正在不断改变。这些全新的网络辅助工具为视觉和听觉受损人士利用互联网、提升生活品质提供了难得的契机。他表示,除了改善互联网的可访问性,这些创新还能从整体上提升所有人的上网体验。例如,结合自动字幕技术与领先的翻译技术,用户将可以克服语言障碍自如观看网络视频。

  “你看不见东西,怎么工作?”

  44岁的Google工程师莱曼(T.V.Raman)每一次与记者见面,几乎都被问到这样的问题。“这很简单,因为我操作的每个机器都能跟我讲话。”每次莱曼都这么愉快地回答。

  12月7日,莱曼在北京Google中国创新论坛上,以“属于每个人的互联网”为题发表演讲,介绍他在互联网“可访问性”(accessibility)方面的研发成果。当天,个子不高的莱曼身着一件干净的浅枣红色衬衫,应该是为这天的演讲特意准备的新衣。脸上流线型的棕红色时尚墨镜格外引人注目,看上去很像个摇滚明星,而不是平时整日伏案编程、讲话腼腆的软件工程师。

  “互联网应该属于每个人,但目前全世界仍然有3.14亿视力障碍和2.78亿听力障碍人士被隔离在网络之外。我努力研究的方向,正是提升Web或手机对这些用户的可访问性……”莱曼说。

  过去20年,莱曼通过编写软件,让自己要使用的台式机、笔记本、手机、电视……每部机器都能“开口讲话”。

  2005年,莱曼加入Google。一个盲人为什么可以在这样一个挤满了精英和天才的公司拥有一席之地?

  让机器说话

  莱曼出生于印度普纳,14岁时患上严重的青光眼症,最终完全失明。17岁时,莱曼开始学习盲文。

  莱曼虽然看不见,但是天赋极高。他对语言格外敏感,可以讲英语、法语、德语和若干种印度语在内的八种语言。他一直酷爱数学,对与数字有关的猜谜智力游戏最为着迷。他刚刚失明那几年,最喜欢玩魔方,练就了平均在30秒内就能复原魔方六个面的绝技。

  1987年,莱曼在印度普纳一所大学读完数学专业本科后,选择了孟买的印度科技学院攻读计算机科学硕士课程。从本科到硕士,他靠志愿者帮助阅读所有非盲文信息,得以完成所有学业。

  但是,他强烈期待主动利用技术来弥补自己的缺陷,最大限度地接近正常人方便生活的程度。

  三年后,莱曼顺利毕业,离开印度,到美国康奈尔大学从事计算机科学和应用数学的博士课题研究。其间,他完成了自己第一项针对盲人或弱视力用户拓展计算机可访问性的基础软件开发——Audio System For Technical Readings(ASTER)。这是一种可以将技术文本生成语音信息的计算机系统。

  这套计算机语音系统的缩写——ASTER,也是莱曼第一只导盲犬的名字。这条黑色的拉布拉多犬陪伴他整整十年,因皮肤癌去世。出于怀念,莱曼还建立了介绍ASTER生平的网站。

  “完成博士课题的过程中,我学到的第一个东西就是,仅仅让屏幕上显示出来的文字变得有声是不够的。”莱曼告诉本刊记者。

  他意识到屏幕上提供的可视信息很丰富,比如文字的大小、字体的区别等等,都有很多意义。因此整个语音阅读系统,除了能对文本解读,也应该注意怎样体现文字之外的更多信息。

  “如果我能看得见东西,恐怕就不会去考虑这些失明的人的需求,因此就不会想去编写这些辅助他们访问计算机的软件。”

  莱曼表示,失明虽是件坏事,但让他有机会意识到某些正常人无法想象的用户需求,比如让所有机器都有机会“开口说话”。“作为一个工程师,你会有先天条件接触到各种领先科技,你有机会完成很多人可能感觉不可能实现的任务。”莱曼对本刊记者说。

  工作在Google

  莱曼离开康奈尔大学后,曾先后在Adobe和IBM从事研发工作,研究从语音识别角度解决计算机可访问性。2005年,在朋友的鼓励建议下,他进入Google。“选择Google的原因,是这里可以让我接触和帮助到更多用户,有机会了解他们的实际需求。”莱曼说。

  进入Google后,莱曼首先开发了一套适用于配合读屏软件工作的Google搜索界面。此后,他便投入到对移动平台Android操作系统和Chrome浏览器的可访问性开发。

  “我每天早上8点搭公司班车去办公室上班,单程约45分钟。我们班车上有无线网络,我一上车就能打开笔记本电脑开始工作。”莱曼说。

  现在,陪伴莱曼的是他的第二只拉布拉多导盲犬——ASTER二世,13岁。它甚至拥有一张印有“大头贴”的通行证,可以在Google办公楼里通行无阻。

  2007年,只有23岁的华裔工程师查尔斯•陈加入到莱曼研发小组,并成为他形影不离的朋友。“莱曼很聪明,而且平易近人,”他评价莱曼说。别的工程师能做的,对莱曼来说也都没有问题,所以与他合作的过程,相比与别的工程师其实没有任何不同。

  莱曼用自己研发的一款Emac Speak软件读取电邮,其语音速度是正常语速的3倍,可以帮助莱曼达到正常人用眼睛浏览文字相同的信息读取速度。

  手机多智能

  “跟写作和绘画相似,工程师工作的精彩之处,也是从无到有地创作一个事物。”年轻的查尔斯•陈告诉本刊记者,他被莱曼的课题深深吸引,因为可以看到自己的发明创造帮助人们完成那些原本看似不可能完成的任务。

  莱曼透露,Google目前已开发出数十款具有开创性的可访问技术,帮助视觉和听觉受损人士更方便地访问和浏览互联网。比如TTS(Text To Speech)语音合成功能,是由莱曼小组开始的。

  Google负责Android研发的工程师也意识到,TTS不仅只对残障人士有价值,对需要不看手机屏幕就能完成操控的用户,也很有价值。特别是在GPS定位产品中加入TTS应用后,用手指触摸地图,那些被触及区域的相关信息,就能用语音形式被提示给手机用户。

  “GPS的语音提示功能,可以给你方向——向左或向右,而我的研发成果是帮助盲人在触摸手机地图的过程中,开发对位置的信息理解。”莱曼说。

  他举起一部手机演示:随着手指移动,手机可以用语音方式告诉用户当前所处位置——街道名称,正在前进的方向,以及步行距离。用户在前进过程中,还会不断被提醒已经过了哪些建筑物。

  “普通的GPS不会告诉你这些,因为正常人都可以看到。”莱曼说。

  Android 1.6版本中首次植入了TTS功能,并作为一个重要的新功能隆重推出。此后,TTS开放API接口,鼓励第三方公司制作针对TTS的不同版本的语音引擎,在Andriod软件商城中销售推广,以实现多语种的信息语音转换。

  莱曼告诉本刊记者,现在有越来越多的信息已被转移到网上。如何在复杂的信息环境下更精确识别有效信息并转换为语音,是他目前研发的主要课题。

  未来在移动互联网时代,一部手机到底可以多么智能?

  “作为一个工程师,我希望有朝一日可以通过技术来实现——当我把一本书扫描成电子版,或者我用手机上的数码相机拍出一张照片,我的电子设备都可以帮我读出它们看到些什么。你想这将会多么精彩——等于说你将有机会无限接近于一种复明的状态!”这是莱曼给我们的答案。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics