知识图谱:从“数据”竞争到“技术”竞争
2021-07-06来源: Amber Dr.Huang作者: Amber Dr.Huang

|“用知识图谱定位客户,可防失联/跑路。”

或许你已经耳熟能详人工智能,但是对此你并不满意。你吐槽:这个机器太愚蠢了!这个分析报告,人类根本无法理解。

那是因为人工智能还是一个牙牙学语的稚子,处于智能化转型的初级阶段。今天我们就来聊聊知识图谱,一项将赋予机器认知智能的关键技术。

知识图谱:从“数据”竞争到“技术”竞争
(图片来源于网络,如有侵权,请联系删除

一、什么是知识图谱?

知识图谱(Knowledge graph,KG)是一种知识库技术,在上世纪五六十年代就已萌芽,起源于语义网络的知识表现形式。

语义网络的本义是,知识由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关系。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。在表现形式上,语义网络和知识图谱相似,但语义网络更侧重于描述概念与概念之间的关系,而知识图谱则更偏重于描述实体之间的关联。所以,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供从“关系”的角度去分析问题的能力。

“知识图谱”这个概念具体什么时候被提出,网上有多种说法,广为业内认可的是2012年,Google首次公开将其应用在搜索上,也是自此,知识图谱成为了研究应用的热点。比如在谷歌上搜索“唐纳德川普”,在搜索结果页面的右侧会出现与之相关的身份信息、行为信息、社交信息、关联人等。

知识图谱:从“数据”竞争到“技术”竞争

二、知识图谱的基本特性

有了知识图谱,机器看到的就不再是简单的字符串,而是可以把这些字符串映射到各种各样的实体、概念,从而建立机器自己的认知世界,更直观的为场景服务。

下面简单梳理一下知识图谱的基本特性:

  • 网状知识结构

  • 复杂的网络结构

  • 网络由节点、边、以及它们的属性构成

  • 知识库是知识图谱承载数据的主要方式

也就是说,知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。如:(堂吉诃德,作者,塞万提斯)

常用RDF来形式化地表示这种三元关系。RDF(Resource Description Framework),即资源描述框架,是W3C制定的,用于描述实体/资源的标准数据模型。

知识图谱的表示方式之一RDF

知识图谱的表示方式之一RDF

(Semantic similarity analysis and application in knowledge graphs, Ganggao, Zhu, Phd Thesis, 2017)

RDF图中一共有三种类型,International Resource Identifiers(IRIs),blank nodes 和 literals。现实中,这种呈现方式的典型应用有Walfram Alpha知识库。它是目前世界上包含实体数最多的知识库,总量超过10万亿条。


知识图谱的表示方式之一RDF

 

三、知识图谱的关键理论和技术

早期语义网络研究如何将数据表示成机器和人都可以理解的, 所以核心的研究方向是对元数据的研究,即如何描述数据。知识图谱是在语义网基础上发展起来的,包含上亿的事实和他们之间的关系。

自然语言处理技术推动了知识图谱应用,知识图谱也为自然语言处理提供更广阔的应用空间,所以知识图谱中的关键理论和技术涉及到很多自然语言处理。

例如text analysis, document retrieval, entity linking, word sense disambiguation, name entity disambiguation, query interpretation, question answer.

知识图谱的技术架构

知识图谱的技术架构
 

(刘峤 李杨 段宏 刘瑶 秦志光 出版源:《计算机研究与发展》, 2016, 53 (3):582-600 2

三、知识图谱主要应用场景

知识图谱最大的优势在于对数据的描述能力很强大,机器学习、深度学习算法虽然在预测能力上不错,但在描述能力上却差强人意,知识图谱则刚好填补了这部分空白。

虽然知识图谱是当前研究的热点,但在国内尚属一个比较新的概念,其应用也处于初始阶段,主要集中在诸如通信、医疗、互联网、金融等对技术敏感的行业领域。

下面,我们对已有应用做一个简单介绍:

1、语义搜索

语义搜索的功能类似于知识图谱在Google, Baidu上的应用,通过知识图谱扩展用户的搜索关键词,从而返回更丰富、更全面的信息。

举个应用案例,搜索“价格在10万以下的白色长安汽车”:


语义搜索

首先是句法分析,通过实体识别,分解搜索需求,如人名、地名、品牌名、颜色等,然后根据分析结果,搜索目标-汽车,目标属性-白色、长安、价格0-10万,最后,将这些结果用图形网络的方式展示,就把复杂的信息以直观明了的图像呈现出来,让使用者对隐藏信息的来龙去脉一目了然。

2、智能问答

智能问答功能同样也可以体现在搜索引擎上,通过构建庞大的知识库,训练机器,读懂人类的需求。

如苹果Siri、电信客服、银行智能语音助手、健康助理等。其应用过程同语义搜索,只是在表现上还加入了其他技术,如语音识别、图形识别等。

智能问答

 

3、风险控制

现代商业发展面临的风险因素日趋复杂,利用知识图谱可以构建行业的知识库,进行风险挖掘,从而达到控制风险,管理风险的目的,典型应用有金融领域的反欺诈和风险预测。

那么,如何构建金融知识图谱?

“金融知识图谱”是金融行业知识搜索的基础技术,是具有语义处理与信息互联互通能力的知识库。构建“金融知识图谱”可以提升金融机构反欺诈、风险评估、预测等风险管理能力。

构建“金融知识图谱”可分为两大部分:一是数据梳理,基于资金往来,账户,抵押物,股权结构,诉讼,联系方式等关系建立企业,人, 事件等实体间的关系图谱;二是基于知识图谱的数据挖掘应用,例如:担保圈分析,可挖掘出循环担保;深度风险链条分析,揭示多层网络中风险关系;客户群体划分,可以提取满足一定条件的客户用于获客。

下面以誉存科技应用知识图谱做企业风险评估的项目为例来介绍

风险控制
(誉存科技知识图谱应用流程

1、定义需求:落实到具体业务问题,提出可视化需求。如风险关系挖掘、失信预测

2、数据收集和预处理:使用ETL+自然语言处理技术,整合海量结构化数据+非结构化数据

3、知识图谱设计:定义实体,关系,属性

4、知识图谱存储设计:Neo4j

5、上层应用开发:基于规则,基于算法


知识图片应用

企业关联图谱的展示:主体企业、关联企业、董监高法等关联人的重要关系梳理,图谱化展示。

誉存科技企业关联网络图
誉存科技企业关联网络图

(誉存科技企业关联网络图

基于企业知识图谱的企业风险挖掘:基于规则


基于企业知识图谱的企业风险挖掘

(风险链条展示)

未来风险预测:基于机器学习算法或者传导模型


未来风险预测

基于网络风险传导模型的失信风险预测:利用企业图谱的拓扑结构+启发式算法

基于网络风险传导模型的失信风险预测

结语

当前,各大互联网科技公司都纷纷创建了自己的知识库。大数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生极大的变化。

与数据与量化强相关的金融行业,对知识图谱技术更是抱着开放、欢迎的态度。许多思想领先,对技术敏感的金融机构,通过积极与金融科技公司合作,已成功将知识图谱运用于反欺诈、智能推荐、智能风控、营销获客等方面,抢先获得了技术赋能的优势与价值。未来,在金融领域,从精准营销、风险预测到用户决策,知识图谱的底层支撑性作用将越来越显著。

国内领先的数字科技企业
联系我们