外卖、打车、社交、视频……现代社会海量的应用服务着人们的工作和生活,让人非常方便地就能体验到丰富的物质和精神享受。但与此同时,“障碍人群”的需求也值得关注。
第二次全国残疾人抽样调查结果、国家统计局2021年第7次人口普查数据,以及中国互联网络信息中心官网等综合显示:我国有1691万视障人士、2780万听障人士、2977万肢体残障人士、2.6亿60岁及以上老年人、4.16亿非网民,以及大量的认知障碍人士。
其实,进一步说,“非障碍人群”可能也会遇到情境性障碍和临时性障碍,比如突如其来的伤病,在伤病期间,部分功能的受损,使其也临时成为“障碍人群”。
对“障碍人群”给予更多的关注和必要的帮助,不仅是社会文明进步的标志,也体现出社会的平等、公平。因此,如何让“障碍人群”平等享受现代文明,成为当下推动社会文明进步的关键命题。

信息无障碍:让每一个人都平等享受现代文明
对于“障碍人群”而言,科技所带来的改变可能是颠覆性的,将会显著提高TA们在社会活动中的独立性和生活质量,“信息无障碍”就是希望借助科技的力量,让“障碍人群”平等地享受现代文明。
2020年,工业和信息化部、中国残联联合发布的《关于推进信息无障碍的指导意见》是这样定义信息无障碍的:
“信息无障碍是指通过信息化手段弥补身体机能、所处环境等存在的差异,使任何人(无论是健全人还是残疾人、无论是年轻人还是老年人)都能平等、方便、安全地获取、交互、使用信息。”
我们欣喜地看到,现在越来越多的机构、组织、企业,正在借助科技的力量,为每一个的生活带来改变。

信息无障碍最具挑战课题:AI助盲
据世卫组织统计,全球至少有22亿人视力受损或失明。因此,在诸多“障碍”中,针对“视觉障碍”的科研和应用探索尤为广泛和深入。这其中,在众多现代化的技术中,AI助盲成为学术界和产业界关注的焦点。
一般来说,视障人群认知外界世界的渠道主要是听觉、嗅觉和触觉,这些其他模态的信息一定程度上帮助视障人士缓解了视力缺陷带来的问题。但在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此直接基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是更为有效的解决方案。
当下,某些单模态AI,图像识别已经超越了人类水平,但随着各种单模态技术的不断成熟,不同模态之间如何交互成为算法研究的瓶颈。为了提升AI模型的泛在能力,使机器具备跨模态的图像解析与理解能力,以“机器视觉+自然语言理解”为代表的多模态算法成为近年的研究焦点。而这种技术一旦成熟并应用于AI助盲领域,将能够造福数以亿计的视障人群。

AI助盲,从盲人视觉问答任务谈起
第一人称视角感知技术,对于AI助盲来说意义重大。它无需盲人跳出参与者身份去操作智能设备,而是从盲人的真实视角出发,帮助科学家们构建更符合盲人认知的算法模型,促进了盲人视觉问答任务的出现。
盲人视觉问答任务是学术界研究AI助盲的起点和核心研究方向之一,但在现有技术条件下,该任务的精度提升面临更大困难。一方面,盲人的问题类型更复杂,包括目标检测、文字识别、颜色、属性识别等各类问题,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等。另一方面,由于盲人在拍照时,很难把握手机和物体间的距离,经常会产生虚焦的情况,或者缺失关键信息,大大增加了有效特征提取难度。同时,现存的大部分视觉问答模型是基于封闭环境下的问答数据训练实现的,受样本分布限制严重,难以泛化到开放世界下的问答场景中,需要融合外部知识进行多段推理。
盲人视觉问答数据
其次,盲人视觉问答研究发现,视觉问答会遇到噪声干扰的衍生问题。如何准确定位噪声并完成智能推理,也面临重大挑战。盲人由于不具备对外界的视觉感知,因此在图文配对的视觉问答任务中,往往会产生大量错误。例如,盲人去超市购物时,由于商品外观、触感相似,很容易出现错误,比如拿起一瓶甘草片,却询问胃肠安一天吃几粒。这种语言噪声往往会导致现有AI模型失效,需要AI能够具有从庞杂的环境中分析噪声与可用信息的能力。
最后, AI助盲系统不应仅仅解答盲人当下的疑惑,还应该具备智能意图推理与智能信息呈现能力。智能意图推理技术的研究重点在于,通过让机器不断学习视障人群的语言和行为习惯,来推断其想要表达的交互意图。而由于使用者的表达方式和表达动作在时间和空间上都存在随机性,由此引发了交互决策的心理模型同样带有随机性,因此如何从连续随机的行为数据中提取用户输入的有效信息,设计出动态非确定的多模态模型,从而实现对不同任务的最佳呈现,非常关键。
毋庸置疑的是,在上述基础研究领域的重大突破,才是AI助盲技术早日落地的关键所在。来自浪潮信息的前沿研究团队正在通过多项算法创新、预训练模型和基础数据集构建等工作,推动AI助盲的进一步研究。

盲人视觉问答——看到盲人的需求
卡内基-梅隆大学等机构构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态顶级视觉问答挑战赛VizWiz-VQA盲人视觉问答挑战赛,其模式是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案。
目前,浪潮信息前沿研究团队提出了多项模型优化方法,在VizWiz-VQA上,实现了算法精度领先人类表现9.5%,在AI助盲领域获得世界冠军两项、亚军两项。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,而这些物品没法靠触觉或嗅觉来做出基本判断,例如 “这本书书名是什么?”。这需要模型拥有较强的图像文本识别能力,而盲人拍摄图片难以保证图像的方向,为此浪潮信息前沿研究团队提出自监督旋转多模态模型,通过自动修正图像角度及字符语义增
