人类学家罗宾·邓巴(Robin Dunbar)认为,保持密切人际关系的最大人数是150人。
在线社交平台出现后,很多人认为虚拟世界会突破邓巴的理论,但实际情况是:如果你想和更多的人互动,你肯定需要削弱花在别人身上的精力。
然而,人际关系会随着时间而改变,比如亲密和接近。如果能够确定人际关系的定义,就可以在许多领域带来更多的探索,例如:识别欺诈团伙,通过欺诈者的通信网络识别可能的团伙关系,以及消灭坏人。
在这节课上,中国联通大数据技术专家严龙将从“本体”开始介绍中国联通大数据关系图的构建和应用。蒂姆·伯纳斯·李教授是
一、本体论
万维网之父,他在1998年将语义网带入了人类的视野。目的是赋予网络理解单词、概念及其逻辑关系的能力,从而使人机交互更加有效。本体作为语义网的核心,是研究实体存在及其本质的一般理论。1993年,托马斯·格鲁伯(Thomas Gruber)教授提出了最广泛接受的本体论定义:共享概念模型的清晰形式规范。实际上有四个概念,即“概念模型”是指通过客观世界中某些现象的相关概念获得的模型。“明确”是指所使用的概念及其约束得到明确定义;“形式”意味着本体是计算机可读的;“共享”是指本体中包含的公认知识和相关领域中公认的一组概念。
本体论最初是形而上学的一个分支。为了形而上学的理解,这里有一个例子(例如:图1)
(图1)
图中的中文“猫”和“猫”,英文“猫”和“猫图片”可以用来描述真实的对象“猫”。那么在哲学层面,“猫”在亚里士多德口中是一种“实体”,在巴门尼德口中是“存在”,在本体论中是“本体”。上图中的这些描述都是指“猫”的“身体”符号。
由此可见,“本体”的概念在哲学层面上是形而上学的,只能理解而不能解释。因此,对于一个实体来说,所有的描述都是“本体”的外部符号。我们的感觉、听到和看到变成了某种从符号到本体的映射。
在解释了本体论的哲学意义之后,我们在语义层面上对本体论有了更好的理解吗?事实上,它的主要目的是建立这样的映射,例如:{“猫”、“猫”、“喵咪”、“猫”}符号集被映射到“猫”的“本体”。当我们建立本体集时,本体之间存在逻辑关系(例如,如果A⊆B和B⊆C,那么A⊆C).本体的逻辑层提供公理和推理规则来实现相应的逻辑推理,可以是“属性-本体”的关系、“子类-本体”的关系,“本体-本体”的对立或近似关系。本体的最终目标是实现知识表达、建立知识库和实现知识推理,即使用本体的基本元素:实体之间的关联作为描述现实世界的知识模型。
二、知识图谱
这个知识模型有什么用?谷歌在2012年提出知识图,将传统的基于关键词的搜索升级到基于语义的搜索。知识地图可以更好地查询复杂的相关信息,从语义层面理解用户意图,提高搜索质量。在这里,我使用本体论的概念来给出我个人对知识地图的理解:知识地图是用来描述现实世界中的各种实体及其关系的,实体本身将具有各种实例和属性。就像前面的“猫的例子”(下图2),当我们询问“喵喵喵”的时候,我们不会返回《学猫叫》,它在颤抖中非常红,而是实体“猫”。同时,在其他知识的补充下,我们可以知道“猫”的一个例子是“茄子”,而“茄子”的主人是我。我和小胡都在联通大数据部门工作,有着密切的沟通关系。实体、关系、属性、实例等的大小。在我们的知识库非常大的情况下,我们可以绘制一个巨大的网络关系拓扑图。有了这个知识库,搜索引擎可以深入了解用户查询背后的语义信息,并返回更准确的信息。换句话说,知识地图引入了更多的含义,搜索事物,思考,联想和联想,就像人类一样。这也证实了谷歌知识图表的初衷:“世界不是由字符串组成的,而是由事物组成的。”
(图2)
此外,如果我们将各种语言中的“猫”映射到“猫”的本体,那么我们可以基于由名词主语和动词主语构成的逻辑关系或动宾短语,通过反思和反思来实现简单的机器翻译。
三、图数据库
2018年9月,有一个指向地图数据库的公共号码《专家课堂|NoSQL还是SQL》,它给出了诸如NoSQL或SQL、为什么是NoSQL等主题。其中,基于场景的选择也被相应地引入,因此这里不再重复。从上一节的图中,我们可以清楚地看到呼叫记录可以以实体和关系的形式存储。这是操作员数据的固有优势。在我们的场景中,我们不需要在基于nlp技术的实体提取和关系提取上花费太多时间。我们关注的焦点是如何确保呼叫关系网络中的大量动态更新的呼叫节点和关系被加载到图中,谁具有什么呼叫行为特征,这些图中挖掘的特征如何对现有场景模型做出贡献等。例如,在风控制领域,我们正在应用图发现方法来探索样本号或身份号是否在欺诈社区中,是否存在稳定的通话社交圈,与黑色产品号存在多少程度的关联,什么是相关系数,以及是否存在多个组内关联等。这些将是风力控制和反欺诈模式的新特点。
测试数据集使用所有网络用户三个月的通话记录,节点属性包括连接号码是否连接,工作地点对应的手机号码经纬度等。辅助属性包括主叫方和被叫方之间的呼叫数、主叫方和被叫方之间的呼叫数、天数、时间长度等。数据集大小约为750克,加载到图形数据库的结果如图3所示。
(图3)
加载后,根据每台机器的顶点计数(VertexCount)和边计数(EdgeCount),可以看出图形数据库加载了大约17亿个节点(数字)和340亿个边(通信关系)。其中,NumOfSkippedVertices表示重复数据消除过程,即每个节点只加载一次。因此,总分区大小仅为大约590克,这实际上压缩了数据。
做一个简单的数字关系查询(如图4所示),你可以在有100亿条边的图形数据库中实现毫秒级的响应。有两点值得注意:1 .查询以json格式返回;2.查询语言类似于sql。
我们可以将查询语言存储为文件,并通过安装/运行查询进行查询。同时,在后台安装查询也会生成REST端点,这样参数化查询就可以通过http调用。如图5所示,通过查询语言遍历该图以找到两个数字之间的最短距离。这样,我们就可以实现熟悉的六维空间理论(small world theory),也就是说,世界上任何两个人最多可以通过六种关系找到对方。
(图6)
***,给定一个真实的场景案例,我们能不能通过企业几个员工的号码、imei或其他标识找到企业的员工组,并对该组进行分析,以反映企业的实际业务地址和活动?这里给出了[两步邻居子图的概念(以手机号码为例),即输入号码的联系人和联系人的联系人(如图7所示,这里使用可视交互界面来显示呼叫关系)。
(图7)
在建立模型的过程中,我们分析了呼叫的时间段、持续时间和频率,评估了可能的同事关系,并基于现有的工作和居住模型以及网格技术挖掘了企业的真实业务地址。以我自己的手机号码为例(如图8所示),我们可以看到返回到企业员工主要聚集的工作场所(该号码表示相应网格中的员工人数),即中国联通大数据公司(就业和居住数据取自2018年12月)和中国联通集团的两个办公区域。
(图8)
基于对人群行为的洞察,该模型可以帮助工商部门动态、客观地评价和判断企业的真实位置和活动,为相关监管提供数据支持。
值得一提的是,基于联通的大数据关系图,在一个有10亿个节点和100亿条边的大网络结构中,查询6步邻居子图需要不到1秒的时间(如图9所示)。可视化交互界面如图10所示(中间的白点是我的手机号码)。
为了更详细地了解网络中的关系,将降低显示阈值(图11)。经过检查,中环结构上的每一点都是彼此的同事关系。社交网络中的环结构上的点往往有一些隐藏的联系,如同事关系、亲密关系、帮派关系、资本流动等。基于不同样本和不同场景的应用,与传统的数据库类型相比,图形数据库可以在一定程度上挖掘样本之间的关联关系。
(图11)
此外,大量经典的图挖掘算法,如社区发现、Pagerank、LPA等。还准备向传统机器学习模型的模具特征添加更多的图形特征。
极牛网精选文章《从本体论开始说起——运营商关系图谱的构建及应用》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/4041.html