男子因病失明,用复读机自学编程,开发黑科技帮盲人“看见”世界

“科技向善”并非一句口号,而是无数件“好事”的累积。当一件好事发生,它极少以惊天动地的姿态出现,更多是带着润物无声的温柔,照亮少有人关注的角落,给予生活其间的人们前行的力量。近期,萤火计划陆续推出《一件好事》系列,讲述被科技改变的人生。得益于信息无障碍化的推进,手机已成为视障人士的“第三只眼”、密不可分的生活工具,让无法看见的他们,得以享受便利的生活。

很多人并不知道,通过无障碍优化,视障人士也可以正常使用手机。

对一位视障者来说,障碍无处不在,它们是身旁无处不在的磕磕绊绊,也是漫漫人生里难以逾越的座座山丘。

2014年,刘彪越过山丘,从北方来到深圳,当了一名程序员。

时隔多年后,他庆幸当初做了这个决定,不然现在的他,应该是一位盲人按摩师,在按摩室的小小天地里,度过重复的时光。

刘彪体会过从光明到失明的过程,视网膜色素变性一点点夺走了他的视力。多彩的世界随短暂的童年一起逝去后,他的未来逐渐被黑暗笼罩。

因为曾经拥有,所以更懂珍惜,不愿轻言放弃。

只有在强烈的光线下,刘彪的眼睛才有微弱的光感。

“我想当一名程序员”

2005年,15岁的刘彪立下志向,当一名程序员。

这个理想源于一本志愿者赠送的《C语言程序设计》,它指引刘彪走到了编程的门前,但打开这扇门的过程,却异常艰难。

母亲和八九岁的妹妹,两个女人用一台复读机、几盘磁带,把这本书逐行逐句转化成声音,遇到不认识的单词,就拆成单个字母来念。

刘彪再将声音转录到盲文笔记里,“4、5百页的书,每天读8页,花了一个夏天才抄完”。

他明白选择这条路,前途必然障碍重重,但他不想回头。

家里没有电脑,程式只能在刘彪脑子里演算。而第一次上机实操,已是两年以后,家里花500元钱,为他购买了一台最低配置的二手电脑。

第一次上机刘彪就懵了,“之前脑子里想的,和真实场景完全不一样”。

借助早期的读屏软件,将屏幕上的文字转化为语音,刘彪用耳朵代替眼睛,开始了编程之旅。他很快发现,读屏软件功能少、缺陷多,版本多年未更新,用起来大费周章。

“举个例子,编程软件有代码自动补全、提示功能,明眼人能看见,但读屏软件读出不来,你只能摸着键盘,把代码一点点敲进写字板里,再反复测试”。

刘彪在虚拟世界中遇到的困境,和现实如出一辙,“我们有读屏软件,但并不实用。我们有无障碍设施,但很多形同虚设”,出门依然是一件危险的事,“你可能在盲道撞上电杆、单车,甚至被带入坑里,一脚踏空”。

刘彪试图通过编程,改变这种状况,让更多像他一样的视障朋友,享受到无障碍的便利生活——哪怕只是在网络上。

刘彪和同事在一起工作。

2010年,刘彪考入长春大学特教学院,针灸推拿专业。

刘彪并没把心思放在“主业”上,绝大多数时间,他都窝在宿舍学习编程,“从每天几个小时,到十几个小时,假期时我可以一整天不出门”。

2014年,临毕业前一年,得知深圳市信息无障碍研究会(中国最早专注信息无障碍的专业机构)在招募视障程序员,刘彪认为机会来了。

他坐了36个小时火车,从长春来到广州,再转汽车赶往深圳。

尽管有同行的广州同学帮助,对刘彪来说,这依然是一趟异常艰难的旅途。

“那时可以网上购票,但网页没有无障碍适配,光是验证码就能把你卡死”,刘彪说,他只能选择到购票大厅买票。

跌跌撞撞的旅途中,刘彪曾很多次向路人求助,“别人可能帮,也可能不帮”,离开宿舍,离开代码构成的世界,现实中的刘彪举步维艰。

手机和盲杖,是刘彪出门必带的两件工具。

距刘彪第一次到深圳已过去6、7年,常人眼中的世界,变化并不显著,但刘彪却感受到了天翻地覆的改变。

他把耳朵凑近手机,一连串语速极快,常人难以听清的语音倾泻而出,在声音的指引下,他用手指触摸屏幕,像明眼人一样接收、回复微信消息。

除了聊天,他可以用手机购物、买票、打车、订餐,甚至步行导航。“而在几年前,这还是很难想象的”。

刘彪认为,在信息无障碍的推广上,国内近几年的进步可谓突飞猛进——只是这种进步很难被普通人感知,“很多人甚至都不知道,盲人也可以正常使用手机”。

“障碍消除者”

让刘彪自豪的是,这场“信息无障碍”运动,他是重要的推动者之一。

2021年3月底的一天,刘彪出现在信息无障碍研究会办公区,地上铺设的盲道,把他指引向工位。他和伙伴们一起,在电脑前开始了一天的工作。

信息无障碍研究会的办公区地面,铺设了一条盲道。

15岁那年的理想,在深圳这片开放、包容的土壤里生根发芽、开花结果,刘彪如愿成了一名程序员。

不仅是程序员,他同时也扮演着用户、测试者、意见领袖的角色,协助国内的科技公司、合作伙伴,推动其产品信息无障碍的进程。

刘彪在电脑前工作,为了直观地向我们演示,他点亮了屏幕。

刘彪最早参与的无障碍优化产品,是手机QQ和QQ空间。

之后,他和微信、腾讯文档、微云、腾讯会议……几乎所有的腾讯产品都有过合作,通过定期例会、Tapd平台(腾讯敏捷研发协作云平台),为腾讯的技术团队提供无障碍优化方案。

刘彪估算了一下,这些年他已为包括腾讯在内的合作伙伴反馈了上万条优化意见。

“和腾讯的合作让我印象最为深刻”,刘彪说,“这是一家把无障碍纳入标准研发流程的公司,它重视我们的意见,对反馈的处理也很及时”。

刘彪使用手机QQ的OCR功能,扫描牛奶的包装。

但刘彪也承认,并非所有公司都能达到这样的响应速度,“有些产品的无障碍优化,一直处于修修补补的状态,我们的需求优先级也很低”。

站在程序员的角度,刘彪对同行表达了理解,“一是使用场景少,开发耗费大;二是这本身不是别人的KPI(绩效考核),有时我们提了需求,对方说先排期,再从长计议,但后来就没有再议”。

“你花了心思和精力做的工作,普通用户感知不到”,刘彪说,“换了你,也不一定有动力去做,对吧?”

同样是使用手机QQ的OCR功能,对图案进行扫描测试。

刘彪对“无障碍”的朴素理解,就是用耳朵代替眼睛的功能,帮助视障人士“看见”这个世界。

“举个例子,用QQ聊天,别人发来表情,以前手机读屏软件是不能识别的,你不知道别人说了啥,也搭不上话,通过无障碍优化,现在表情可以读了,沟通就更顺畅了”。

另一个与之相似,但更为实用的功能,是手Q的OCR识图技术,“它可以将图片中的文字提取、识别、转化为语音,被视障者‘看见’”。

讲到这里,刘彪记起了母亲和妹妹为自己录制编程教程的往事,“如果当时有这样的技术,她们就不至于那样辛苦”。

刘彪的工位背后,写着“让每个人都能通过科技,平等享受现代文明”的标语。

除开聊天场景,OCR技术在现实中也大有用武之地,它为视障人士提供了“第三只眼”,“可以用它扫描药品、食物包装,了解它们的功效、保质期,避免误食”。

刘彪通过OCR功能扫描包装盒的二维码。

“我们常用的功能,对99%的普通用户来说,可能都是‘隐藏功能’”。

以安卓版QQ空间的“图像描述生成”技术为例,利用AI学习和理解图像、组织语言,为图片生成一句话描述,比如,“一位戴着棒球帽的中年男士端着一杯咖啡”,让视障者用耳朵“看见”图像。

在视障用户中,这是一个很受欢迎的功能,“但普通用户一辈子都不会用上”。

“清障”之路,永无止境

相比协助合作伙伴开发创新性功能,刘彪的日常工作,大部分时间花在了对细碎、复杂的“犄角旮旯”的清障中。

例如,手机上代表搜索的“放大镜”图标,明眼人都会用,“但视障者是看不见这个图标的”,如果不在图标上增加“搜索”的语音标签,那视障者就无法正常使用。

“一个产品,有无数的界面、数不清的图标,需要我们逐一测试,进行无障碍优化”。

刘彪独自在商店选购饮料。

刘彪认为,科技的发展,带来了更便捷的生活,但也会产生新的障碍。“清障”的工作,呈现着螺旋式上升的状态。

“比如,触屏手机出现前,视障人士可以用键盘打字,触屏手机普及后,他们无法摸到键盘,也无法使用智能机的软件,障碍就形成了”。

“而我们要做的,就是不断清除掉这些障碍”。

面对未来,刘彪依然保持乐观,他认为,“越来越多的互联网产品,将无障碍优化前置到产品设计之初,这体现了社会对残障人士的关爱”,传递了充满善意,让人振奋的信号。

一次失足

深圳市某小区,郑锐的家中,他向我们展示了左脚膝盖上的一处旧伤痕,它来自4、5年前,他在公交站台的一次失足。

“马路到站台原本只有一层台阶,但其中一个被切成了两阶”,郑锐一脚踏空,摔倒在地上。膝盖手术、住院一周后,他又在家躺了三个月。

他至今仍有些愤愤不平,不明白台阶为什么要那样设计。

几年后,膝盖的伤痕已经淡去,但郑锐依然难以释怀。

“这样的伤痕,我的(视障)朋友身上都有,只是多少的问题”。

相比刘彪的乐观态度,面对“无障碍”的进度,郑锐更像是一位不留情面的批评者。他认为,即使是在深圳,这样一个残障人士福利在国内领先的城市,无障碍建设仍存在很大的提升空间。

“由此也可以想象,其它城市盲人出行的处境”。

对于“信息无障碍”,郑锐的态度较为温和,承认“它一直在进步”,但还没有达到他的预期,“归根到底,一是产品经理对(视障)用户的需求不够了解,二是实体企业和互联网企业没有形成配合”。

郑锐和儿子辰辰在一起。

“提个问题,假如你是一名产品经理,你认为在网络聊天时,视障人士更愿意接收语音消息,还是文本消息?”

“你会想当然地以为,视障人士愿意收到语音消息,因为我们看不见嘛”,但实际上情况是,“我们更喜欢文本消息”。

“一段约300字的语音,你需要花60秒去听”,而换成300字的文本消息,用读屏软件不到10秒就能读完。

“这就是为什么我们需要像刘彪这样的程序员,因为他们能从视障人士的角度,协助产品经理,提出有价值的改进意见”。

但要解决互联网企业和实体企业配合的难点,仍需要时间。

读屏软件极快的语速,只有长期适应的人才能听清。

郑锐举例,当他拿到一个包装盒,“我可以用手机去扫,但我并不知道拿的是正面还是背面,哪一面有字?”光是找准拍摄角度,就要花很多时间。

“如果盒子有一个盲文标识,告诉我哪边是正面,二维码在哪儿”,这个过程会简单很多。

“有的药品包装,字体特别小,甚至超出了手机的识别范围”,这些都需要优化,“但它不是互联网产品经理自己就能解决的问题”。

郑锐使用手Q的OCR识图功能,辨别孩子的故事书。

“再好用一些”

手Q的OCR识图,是郑锐比较常用的功能。

孩子辰辰3岁了,出门在外,他已可以充当爸爸的向导。走到不熟悉的地方,“孩子会帮我用把路牌拍下来,我再用OCR功能识别”。

另一个场景,是郑锐为孩子讲故事时,可以拍摄图书文本,将其转化为语音。

“我希望它能增加一个功能,扫描时可以提醒我,有没有对齐文字,如果没有对齐,镜头需要往哪个方向移动”。

在孩子的协助下,郑锐用手机识别图书。

同时郑锐希望,面对复杂的应用场景,产品能更加智能和细分。

在现实场景里,曾有一位志愿者帮郑锐打饭,“我请他描述一下饭盒里是什么。他说,是‘一根长条状、有根和叶子的、绿颜色的蔬菜’”,郑锐问,“你说的是不是青菜?”

“他说是。我说,你直接告诉我这两个字不就好了吗?”

而在网络场景里,郑锐却有着相反的需求——同样一幅画面,一般识图软件只会识别为“女孩”,而安卓版QQ空间则为它增加了这样的描述,“蓝天白云下,一个穿着白色裙子的女孩站在草地上”。

“这样我脑子里就有一幅清晰的画面了”,不同的场景,需要不同的描述方法。

出门在外,孩子是郑锐的小向导。

面对郑锐的意见,腾讯优图实验室OCR研究组组长刘银松认为,不久之后,这些都不成问题。

刘银松回忆,OCR技术在无障碍优化上的应用,始于2016年上半年与手Q项目的合作,至今已经历了三次升级。

视障人士在使用中遇到的问题,“比如应用场景复杂,抖动、光照、运动对识别造成的干扰……”都随着产品升级,在不断得到解决。

腾讯优图实验室OCR研究组的工作日常。

“第一代是端到端的检测识别;第二代侧重高精度,结合语义上下文信息识别;第三代更多关注结构化的场景”。

所谓结构化场景,“即结合图像上的纹理信息、上下文语义信息、文字之间的位置信息等,来做结构化提取”,让OCR识图功能更加精准、好用。

“随着人工智能的技术的完善,将推进更多产品的无障碍化”,刘银松相信,它们将会为障碍人士的生活,提供更多的便利和可能性。

摄影 | 邹璧宇

编辑 | 匡匡 周维

联合出品 | 腾讯新闻 腾讯产业互联网公众号