分享好友 最新动态首页 最新动态分类 切换频道
用AI让数亿失明者重新“看见世界”
2024-12-29 21:08

以前,让失明者重见光明往往被视为一种医学"奇迹"。而随着以"机器视觉+自然语言理解"为代表的多模态智能技术的爆发式突破,给AI助盲带来新的可能,更多的失明者将借助AI提供的感知、理解与交互能力,以另一种方式重新"看见世界"。  

用AI让数亿失明者重新“看见世界”

AI助盲,让更多人重新"看见世界"

一般来说,目不能视的视障患者认知外界世界的渠道是除了视觉之外的其它感官感觉,比如听觉、嗅觉和触觉,这些其他模态的信息一定程度上帮助视障人士缓解了视力缺陷带来的问题。但科学研究表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%。因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。

在视觉感知领域,当下的单模态AI模型已经在图像识别任务上超越了人类水平,但这类技术目前只能实现视觉模态内的识别及理解,难以完成与其他感觉信息交叉的跨模态学习、理解与推理,简单来说,就是只能感知无法理解。为此,计算视觉奠基人之一的 David Marr 在《视觉》一书中提出了视觉理解研究的核心问题,认为视觉系统应以构建环境的二维或三维表达,并可以与之交互。这里的交互意味着学习、理解和推理。可见,优秀的AI助盲技术,其实是一个包含了智能传感、智能用户意图推理和智能信息呈现的系统化工程,只有如此才能构建信息无障碍的交互界面。

为了提升AI模型的泛化能力,使机器具备跨模态的图像解析与理解能力,以"机器视觉+自然语言理解"为代表的多模态算法开始兴起并飞速发展。这种多个信息模态交互的算法模型,可以显著提升AI的感知、理解与交互能力,一旦成熟并应用于AI助盲领域,将能够造福数以亿计的失明者,重新"看见世界"。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量高达45万。

从盲人视觉问答任务引发的"多米诺效应"

第一人称视角感知技术,对于AI助盲来说意义重大。它无需盲人跳出参与者身份去操作智能设备,而是可以从盲人的真实视角出发,帮助科学家们构建更符合盲人认知的算法模型,这促使了盲人视觉问答这一基础研究任务的出现。

盲人视觉问答任务是学术界研究AI助盲的起点和核心研究方向之一。但在现有技术条件下,盲人视觉问答任务作为一类特殊的视觉问答任务,相比普通视觉问答任务,精度提升面临着更大的困难。一方面,盲人视觉问答的问题类型更复杂,包括目标检测、文字识别、颜色、属性识别等各类问题,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。另一方面,由于盲人这一感知交互主体的特殊性,盲人在拍照时,很难把握手机和物体间的距离,经常会产生虚焦的情况,或者虽然拍摄到了物体,但没有拍全,亦或是没有拍到关键信息,这就大大增加了有效特征提取难度。同时,现存的大部分视觉问答模型是基于封闭环境下的问答数据训练实现的,受样本分布限制严重,难以泛化到开放世界下的问答场景中,需要融合外部知识进行多段推理。

盲人视觉问答数据

其次,随着盲人视觉问答研究的开展,科学家们在研究过程中发现,视觉问答会遭遇到噪声干扰的衍生问题。因此如何准确定位噪声并完成智能推理,也面临重大挑战。盲人由于不具备对外界的视觉感知,因此在图文配对的视觉问答任务中,往往会产生大量的错误。比如说,盲人去超市购物的时候,由于商品外观触感相似,很容易提出错误的问题,如拿起一瓶醋,却询问酱油的生产厂商是哪一家。这种语言噪声往往会导致现有AI模型失效,需要AI能够具有从庞杂的环境中分析噪声与可用信息的能力。

最后, AI助盲系统不应仅仅解答盲人当下的疑惑,还应该具备智能意图推理与智能信息呈现能力,而智能交互技术作为其中重要的研究方向,算法研究依然处于起始阶段。智能意图推理技术的研究重点在于,通过让机器不断学习视障用户的语言和行为习惯,来推断其想要表达交互意图。比如说,通过盲人端水杯坐下的动作,预测到可能会将水杯放置在桌子上的下一步动作,通过盲人询问衣服颜色或样式的问题,预测到可能会出行等等。这项技术的难点在于,由于使用者的表达方式和表达动作在时间和空间上都存在随机性,由此引发了交互决策的心理模型同样带有随机性,因此如何从连续随机的行为数据中提取用户输入的有效信息,设计出动态非确定的多模态模型,从而实现对不同任务的最佳呈现,非常关键。

专注AI助盲基础研究浪潮信息多项研究获国际认可

毋庸置疑的是,在上述基础研究领域的重大突破,才是AI助盲技术早日落地的关键所在。目前来自浪潮信息的前沿研究团队通过多项算法创新、预训练模型和基础数据集构建等工作,正在全力推动AI助盲研究的进一步发展。

在盲人视觉问答任务研究领域,VizWiz-VQA是卡内基梅隆大学等机构的学者们共同发起的全球多模态顶级盲人视觉问答挑战赛,采用"VizWiz"盲人视觉数据集训练AI模型,然后由AI对盲人提供的随机图片文本对给出答案。在盲人视觉问答任务中,浪潮信息前沿研究团队解决了盲人视觉问答任务常见的多个难题。

首先,由于盲人所拍摄图片模糊、有效信息少,问题通常也会更主观、模糊,理解盲人的诉求并给出答案面临挑性。团队提出了双流多模态锚点对齐模型,将视觉目标检测的关键实体及属性作为连结图片及问题的锚点,实现多模态语义增强。其次,针对盲人拍摄图片难以保证正确方向的问题,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决"是什么"的理解问题。最后,盲人拍摄的画面通常是模糊、不完整的,这导致一般算法难以判断目标物体的种类及用途,需要模型需具备更充分的常识能力,推理用户真实意图。为此,团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略。推理时,将交叉训练后的视觉定位和图文匹配模型用于推理定位答案区域;同时基于光学字符识别算法确定区域字符,并将输出文本传送到文本编码器,最终通过图文匹配模型的文本解码器得到盲人求助的答案,最终多模态算法精度领先人类表现9.5个百分点。

多模态视觉问答模型解决方案

当前视觉定位研究应用落地的最大障碍之一是对于噪声的智能化处理,真实场景中,文本描述往往是有噪声的,例如人类的口误、歧义、修辞等。实验发现,文本噪声会导致现有AI模型失效。为此,浪潮信息前沿研究团队探索了真实世界中,由于人类语言错误导致的多模态失配问题,首次提出视觉定位文本去噪推理任务FREC,要求模型正确定位噪声描述对应的视觉内容,并进一步推理出文本含噪的证据。FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。这一研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。

FCTR结构图

为探索AI在图像和文本的基础上进行思维交互的能力,浪潮信息前沿研究团队给业界提出了一个全新的研究方向,提出可解释智能体视觉交互问答任务AI-VQA,通过建立逻辑链在庞大的知识库中进行检索,对图像和文本的已有内容实现扩展。目前,团队构建了AI-VQA的开源数据集,包含超过14.4万条大型事件知识库、全人工标注1.9万条交互行为认知推理问题,以及关键对象、支撑事实和推理路径等可解释性标注。

ARE结构图

同时,团队提出的首个智能体交互行为理解算法模型ARE(encoder- decoder model for alternative reason and explanation)首次端到端实现交互行为定位和交互行为影响推理,基于多模态图像文本融合技术与知识图谱检索算法,实现了具备长因果链推理能力的视觉问答模型。

科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。而对于失明者而言,能够通过AI助盲技术像其他人一样独立的生活,而不是被特殊对待,恰恰体现了科技最大的善意。

在AI照入现实的当下,科技已经不再是高山仰止的冰冷,而是充满了人文关怀的温度。站在AI技术的前沿,浪潮信息希望,针对人工智能技术的研究,能够吸引更多人一起持续推动人工智能技术的落地,让多模态AI助盲的浪潮延伸到AI反诈、AI诊疗、AI灾情预警等更多场景中去,为社会创造更多价值。

最新文章
2024我的前端面试准备
先看看基本概念 库:库更多是一个封装好的特定的集合,提供给开发者使用,(控制权在开发者手上)框架:是一套架构,会基于自身的特点向用户提供一套相当于叫完整的解决方案,而且(
2024广告业盘点:萧条的广告公司和赚翻的广告平台
文 | 刀客还有几天,就要元旦了。好友王石头和我说:刀客,你是不是应该做一个2024年的广告业盘点。是啊,2024年快结束了,该怎么总结广告业的这一年呢?前不久群邑发了《今年,明年》,这是我每年都要看的一份报告。其中提到,2024年世界
AI智能抠图 2.1.3
uses-permission:'android.permission.INTERNET',允许程序访问网络连接,可能产生GPRS流量uses-permission:'android.permission.WRITE_EXTERNAL_STORAGE',允许程序写入外部存储,如SD卡上写文件uses-permission:'android.permission.READ_EX
360终端安全管理系统-移动存储管理
360终端安全管理系统-移动存储管理移动存储策略可以下发到不同的用户对象,实现精细化管控效果。在实际使用过程中,可以按照部门使用需要划分不同的安全使用范围,对内部使用或者流出进行控制。移动存储介质全流程管理:⚫ 注册管理:识别
Dual-Path Deep Fusion Network for Face Image Hallucination
题目:用于人脸图像超分的双路径深度融合网络主要思想 在过去的十年中,越来越多的超分方法被开发出来。大多数现有的基于浅层学习的工作都致力于利用正则化技术从候选对象中找到最相似的结果。虽然上述方法是非常有效的,
360搜索收录网站提交指南,提升网站流量,抢占搜索市场先机
随着互联网的飞速发展,搜索引擎已经成为人们获取信息、了解世界的重要途径,360搜索作为中国知名的搜索引擎之一,其市场份额逐年上升,为了提高网站的曝光度和流量,许多站长和网站运营者都在积极寻求360搜索收录网站的方法,本文将为您详
ChatBot
ChatBot是一款AI聊天机器人软件,可以帮助企业自动化客户服务,提供即时的帮助和销售支持。网站服务:客户支持,AI聊天机器人,付费,客户服务,商业AI,客户支持,AI聊天机器人,付费,客户服务。Automate your customer service with Cha
800块全新AirPods Pro?分享我在闲鱼的捡漏故事
自从参加工作之后,事务多了起来,我很追求效率,在朋友推荐和我的小米11刚买就发热烧的推动下,成功让我陆续入手了pad,iphone和mac。由于以前是个米boy的缘故,用的是小米的air2pro。小米air2pro蓝牙耳机,我偷的图,自己的没拍过啥照片
CPS 推广,开启商业合作的新途径
在当今数字化的商业世界中,CPS 推广(Cost Per Sale,按销售付费)作为一种创新的营销和合作模式,正逐渐崭露头角并发挥着重要的作用,究竟什么是 CPS 推广呢?CPS 推广是一种基于销售成果的合作方式,就是推广方通过各种渠道和手段,将商
30款教师节手工,环创,贺卡制作教程,祝教师节日快乐!
秋天,真是个好季节!秋风送爽的日子,我们在幼儿园迎来了一年一度的伟大节日——教师节。开学之初,大家都忙着环创布置,累坏了吧?一起来做做手工吧——史上最有创意的教师节手工,与孩子们做起来吧!一,光明希望1. 贺卡模板 简单漂亮的
相关文章
推荐文章
发表评论
0评