AI知识图谱技术的实际应用
本文主要讲知识图谱中对相关AI技术及NLP自然语言理解(NER/ER/CR/RE),在爱奇艺产品中的应用,enjoy~
国际研究咨询公司Gartner调查指出,根据人工智能技术成熟曲线,有86%的人工智能技术尚未进入成熟期,但AI技术中也有非常成熟的AI技术,例如:CV(人脸识别、体态识别等)、计算机听觉,MIC拾音提取音素等。
本文主要讲知识图谱中对相关AI技术及NLP自然语言理解(NER/ER/CR/RE)在爱奇艺产品中的应用。
一、需求:AI知识图谱技术应用的业务场景
我们看一个视频常常会在视频的旁边看到猜你喜欢,偶尔可能也会在视频上进行弹幕讨论一下视频内容,或者在看视频的过程中会看到与视频中某个内容相关的小广告飘出,还有为了看视频充值而咨询一下人工智能客服,又或者智能医疗,或者网上快速获得贷款的背后的金融智能风控等等。
总结下来AI知识图谱的商业应用需求场景如下:视频推荐,AI鉴黄、广告精准推荐、金融风控、教育(智能排课/监播体系/手写体)、医疗、投资等等。
二、概念:知识图谱的前世今生
知识图谱前世:
根据维基百科获得知识图谱历史即前世:知识图谱2012年加入Google搜索,2012年5月16日正式发布,首先可在美国使用。知识图谱除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。
其目标是,用户将能够使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信息,即起始阶段知识图谱是Google的一个知识库。
AI知识图谱的今生个人见解:
传统数据库——>知识图谱化,所有传统低效率的数据表现形式(指:数据相关架构、数据结构、数据表、数据库)都会逐步转向高效率的AI知识图谱化。原因是AI知识图谱才是用户想要的数据可视化,怎么理解呢?
例如你搜索连诗路,是一个网页那就是传统数据库展示的结果,如果搜索连诗路显示上海路奇智能科技创始人,AI赋能AI重新定义产品经理等畅销书的作者,那么后者就是AI知识图谱实现的数据可视化。
三、视角:知识图谱处理视频中鉴禁语&鉴黄的应用流程
具体的业务问题是管理爱奇艺视频直播中的禁用词语和黄色视频,首先确定了AI知识图谱应用范围。
然后步骤流程如下:
1. 数据的收集 & 预处理
建立一个禁用语语料库,这个禁用语可以有第三方语料库供应商提供,也可以自己建立,也可以在第三方语料库的基础上进行迭代匹配使用。
在数据收集和处理阶段会用到AI知识图谱的命名实体识别NER技术,也会用到关系抽取RE,实体统一ER、和指代消解ER等NLP的子技术。
原因是数据分为结构化数据和非结构化数据及半结构化数据,结构化是指数据库里的数据,而我们遇到的大多数数据是非结构化和半结构化数据,例如数据库不能直接存取的数据大多是非结构化数据。
以上图直播视频图为例,SS=手速,MS=秒射,而XD=胸大or兄弟?这里就需要AI知识图谱中的NLP的指代消解ER技术来理解处理SS=手速,MS=秒射,然后判断是否需要封锁背后的ID,当然做一款产品还要考虑封了以后的步骤,本文先不多说,日后再开篇撰写。
2. 设计知识图谱
关于知识图谱的设计有很多原则,总体概述下来有:以理解业务原则、以可以分析为原则、以高效为原则、以含可拓展为原则、以其他规则为原则等等。
但是设计知识图谱过程如下:
(1)需要哪些实体、关系和属性?
连诗路与路奇是两个实体,合伙人是一个属性,智能是另外一个属性,连诗路与畅销书《AI赋能》是两个实体,作者是一个关系属性,还可能有2019年等等属性。
例如下图:
(2)哪些属性可以做为实体,哪些实体可以作为属性?
构建ER实体关系图的时候,有些属性可以作为实体,有些实体可以作为属性,在关系转化中有两条准则如下:
- 作为属性,不能再具有需要描述的性质。属性必须是不可分的数据项,不能包含其他属性。
- 属性不能与其他实体具有联系,即E-R图中所表示的联系是实体之间的联系。
3. 讲知识图谱存在知识图谱数据库中
存储上要面临存储系统的选择,但由于设计的知识图谱带有属性,图数据库(区别于传统数据库SQL/MYSQL等)可以作为首选,但至于选择哪个图数据库也要看业务量以及对效率的要求。
如果数据量特别庞大,则Neo4j很可能满足不了业务的需求,这时候不得不去选择支持准分布式的系统比如OrientDB, JanusGraph等,或者通过效率、冗余原则把信息存放在传统数据库中,从而减少知识图谱所承载的信息量。
通常来讲,对于10亿节点以下规模的图谱来说Neo4j已经足够了。
四、应用:爱奇艺智能客服奇小艺产品设计
1. 构建奇小艺知识图谱
根据实体、属性两个元素完成一个知识图谱的构建,步骤如下:
- 根据知识领域对原始知识进行分类,如充值类、账号密码知识等,以部分充值类知识为例,包括“充值入口在什么地方?”、“充值的客服官方电话号码?”、“充值转让办理业务需要什么资料?”、“充值办理业务能不能退费?”等;
- 确定同类问题的实体,如步骤 1 中问题的实体为“充值”;
- 确定实体的属性列表,如实体“充值”的属性包括“官方入口地址”、“官方客服电话”、“服务内容”等;
- 检索实体的全部属性,确定所有下级属性,如属性“服务内容”的下级属性包括“电影”、“礼物”等;
- 重复步骤 4 直至不存在下级属性。
构建知识图谱如下图所示:
2. 将奇小艺知识图谱实例化
知识图谱的实例化是指为知识图谱中的实体和属性设置条件、为属性设置参数以及为实例设置标准答案的过程。一个知识图谱可以有多个实例,每个属性实例拥有一个标准答案。
实例化过程如下:
- 确定待实例化对象,如“充值”;
- 设置条件,完成对象的实例化,如条件为“奇秀右上角充值入口”,得到对象实例“奇秀充值链接”;
- 确定待实例化属性,如“官方客服电话”;
- 设置参数,完成属性的实例化,如参数为“直播”,此时对象实例为“奇秀直播充值”,属性实例为“直播充值”;
- 为属性实例设置标准答案,如“010-xxxxxxxx”。
以上完成了一个实体及其属性的实例化,同一个实体可拥有多个属性实例,如对象实例“奇秀充值”的属性实例可包括“电影”、“直播刷礼品”等。
3. 奇小艺智能问答
基于知识图谱的答案搜索首先需要进行中文分词,根据中文分词结果从知识库中搜索匹配,实例化知识图谱如下图所示:
如上图所示流程中,系统依次从分词结构中检索实体、条件、属性、参数,确定实例化的属性,并返回实例化属性对应的答案,完成答案搜索。
五、推荐AI知识图谱相关的知识和学习的方法
首先是阅读书籍和在实践中学习的方法第一本是AI产品思维:
《AI赋能:AI重新定义产品经理》AI技术助力,AI技术落地产品赋能的案例及去哪里学的方法。非常畅销,得到多位圈内朋友推荐。
如果你想系统化入门AI产品经理,掌握AI产品经理的落地工作方法,戳这里>http://996.pm/7bjab
#专栏作家#
连诗路,公众号:LineLian。人人都是产品经理专栏作家,《产品进化论:AI+时代产品经理的思维方法》一书作者,前阿里产品专家,希望与创业者多多交流。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash, 基于CC0协议
看的我晕晕的,不知道自己有没有看懂
语言组织能力有待提高啊 😀
看不懂表和库和知识图谱的语言语法吧?
你这头像放在这里真的是让人不安分。 😮