知识图谱是强人工智能发展的核心驱动力之一,这已是人工智能学界的共识。
而知识图谱的数据来源从来不仅仅是文本和结构化数据,也可以是图片、视频和音频等视觉或听觉形式的数据。通过机器学习的方法实现处理和理解多源模态信息的能力,就是多模态机器学习 MultiModal Machine Learning (MMML)。
多模态机器学习,可以极大地提升对数据的分类、检索和识别等能力,所以许多业界学者坚信:多模态学习才是真正的人工智能发展方向。
今天为大家介绍的领域专家候选人,是在多模态机器学习方向颇有建树的算法工程师俞宏远博士。
俞宏远博士,现任职于中国科学院自动化研究所模式识别国家重点实验室,目前研究方向主要是机器学习、多模态表征学习及计算机视觉。
俞宏远博士曾获得基于视觉的目标跟踪的顶级竞赛目标跟踪竞赛 VOT(Visual Object Tracking challenge)RGBD 赛道冠军,机器人世界杯 ROBCUP JAPAN OPEN 竞赛亚军,国际文档识别会议 ICDAR 最佳论文奖。并在神经信息处理系统大会 NeruIPS、欧洲计算机视觉国际会议 ECCV 等国际会议和计算机视觉国际期刊 IJCV、模式识别领域顶级期刊 PR、IEEE 视频技术电路和系统会刊 TCSVT 等顶级期刊发表多篇论文。俞宏远博士曾先后与百度、微软亚洲研究院及阿里巴巴蚂蚁集团开展学术研究与合作。
图像、视频、音频、语义之间的多模态学习,可是实现信息的互补,同时消除歧义,帮助 AI 更精准、系统性地理解事物,从而实现跨模态的语义搜索、补全知识图谱,增强算法的多模态数据处理能力。
(利用知识图谱增强多模态任务)
利用多模态表示学习到的特征可以用来做信息检索。应用在检索领域中,当我们检索图片时,可以自动生成文本特征,得到图片相应特征的文字描述;而检索关键词时,可以生成相应的图片特征,搜索引擎会通过检索出最靠近该特征两个图片实例,得到符合文本描述的图片。
(多模态转化的图片&文本特征示例)
即时的机器同声传译、图片描述的自动生成、视频字幕的自动生成、文字&语音的转换……背后所依赖的其实都是多模态算法。
(多模态算法为图片生成相应的描述)
一个完备的多模态知识图谱的构建,会极大地帮助现有自然语言处理和计算机视觉等领域的发展,同时对于跨领域的融合研究也会有极大的帮助。
在了解 EpiK Protocol 在知识图谱领域的宏大愿景及所作出的坚实努力之后,俞宏远博士申请成为 EpiK Protocol 多模态机器学习方向的领域专家,希望可以通过创新性的 AI 数据标注系统所采集的高质量数据,来完善他所专注的多模态机器学习算法实现。
与此同时,俞宏远博士认为,通过精准而优质的数据标注工作,可以得到更好的算法。经过多模态训练的算法,还可以为 EpiK Protocol 已经上线的领域专家后台提供更加精准和高校的自动化数据筛选工具,真正实现算法反哺数据。
(领域专家后台工具页面)
知识图谱作为链接数据(Linked Data)的概念,本身即是多模态的。目前已经落地应用的商用知识图谱,多是通过知识图谱将各种模态的数据进行关联,提供多模态搜索能力。所以,多模态机器学习及知识图谱的研究,无疑都还拥有巨大的发展空间和创新机会。
我们也期待俞宏远博士的到来,为 EpiK Protocol 生态带来全新的活力。
EpiK Protocol 相信,随着首批领域专家的「上岗」,将给整个生态带来丰富的 AI 数据及其相关落地应用。同时,官方将持续保持领域专家的提名和宣发,继续扩大 EpiK Protocol 的知识生态。EpiK Protocol 的第一阶段目标是有 50 名各个领域的专家在知识生态中进行 AI 数据的产出及 50 个落地应用的生成。从北京时间 11 月 15 日起,在 EpiK 官方钱包内,就可以为这 6 位领域专家进行投票,支持 AI 数据生态,同时也获得丰厚的投票收益。点击“阅读原文”,查看领域专家内容解读,网址:https://epk.fun/d/136-epik。