99真人线上娱乐场>投注数据>博彩程序员违法吗 知识图谱,能否成为企业下一代的数据仓库?

博彩程序员违法吗 知识图谱,能否成为企业下一代的数据仓库?-99真人线上娱乐场

2020-01-11 12:55:10

博彩程序员违法吗 知识图谱,能否成为企业下一代的数据仓库?

博彩程序员违法吗,“我认为,知识图谱是企业下一代管理数据的一种新的组织方式,能够更高效的连接上游的大数据和下游的ai建模任务。

企业最初数据量少、结构单一的时候,用mysql这样的结构化数据库就够了;再后来数据量越来越多、业务系统越来越复杂,就需要分布式数据库、数据仓库、数据集市来管理数据资产。这类数据都需要事先定义好结构。但在大数据时代,你不可能事先将数据的结构定义好,于是很多企业开始利用像 hadoop 等来搭建大数据平台,以nosql的方式存储那些事先无法定义的数据。但这些数据之间如何有效关联?例如,当一些查找稍微深度(例如四、五度或出现隐形关系),这就需要利用知识图谱进行数据组织了。”

在近期雷锋网 ai科技评论对张杰博士进行的采访中,张杰如是回答了他对知识图谱未来发展的看法。

张杰博士是明略科技资深科学家,明略科学院知识工程实验室主任,加入明略科技后便一直在负责明略科技“行业知识图谱”的研究和搭建工作,在此之前曾在华为中央研究院从事机器学习方面的研究工作。

张杰提到:“在我们内部,我们认为知识图谱是企业下一代的数据仓库。它的优点除了能够高效地进行深度关系查询外,还能图谱基础之上做一些推广,通过引入常识知识和领域知识,由已有的知识产生新的知识。”

雷锋网ai科技评论认为这是一个有趣的观点。

数据仓库的概念最早是在1990年由 比尔·恩门(bill inmon)提出。这里需要区别数据库和数据仓库之间的不同。

数据库是一种逻辑概念,用来存放数据,由多表组成,目前市面上流行的数据库例如有 oracle、db2、mysql、sybase、ms sql server等。

而数据仓库则是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方;只不过从数据量来说,数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

在比尔的著作《building the data warehouse》一书中,他将数据仓库定义为:

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

这种组织数据方式(即面向业务过程的数据组织方式),通俗来说,就是将数据物理集中在一起。从存储的角度来看,数据就是一张张独立的表结构,如常用的会员表、订单表等,表与表之间无法在数据层面整合到一起,需要通过外在的辅助工具才能进行逻辑与数据梳理,因此这种形式又被称为物理集中,而不是逻辑集中。

这种传统的数据仓库,其优势在于统计性报表,能够高效地进行数据统计。

但其缺点正如前面张杰博士所提到的:

1)对于这种结构化的数据,需要提前定义好结构(清楚地知道数据的格式和关系),且在添加数据的过程中很难改变结构。这种结构化的数据价值密度比较高,但在大数据时代我们不可能把所有的数据事先定义好,因此也就无法利用目前互联网中出现的大量非结构化的数据。

2)针对1)中的情况,目前也有很多企业使用像hadoop这种分布式处理框架来开发大数据平台,这可以存储一些事先定义不好的、量特别大的、或结构化数据库不好索引的数据。但这些数据之间如何有效关联,如何进行深度查询依然存在困难。例如通过结构化的或大数据平台的数仓,可以胜任一度关系、二度关系的查询,但涉及到四度、五度或者隐形关系查询时,就会非常困难。

知识图谱最早是在2012年由谷歌提出的一个概念,但事实上在很早就已经有了相关的研究(称为知识工程)。

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(point)和边(edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱也是“关系”的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(heterogeneous information)连接在一起而得到的一个关系网络。

张杰表示:“在知识组织层面上,图谱化将是企业进行数据管理的未来趋势。”

一方面,它便于将客户已有的结构化知识做更深的度数上的关联,同时保证查询效率,深度关联是传统数仓的技术框架下不善于实现的。另一方面可以帮助客户从来自于物联网、互联网等海量的非结构化数据中抽取出知识片段,从而拓展客户的数据维度,增大知识储量,释放出大数据红利。

而在知识表示层面上,知识图谱则是上游大数据和下游ai任务的有效连接。图谱化之后的知识便于进一步的语义化,知识碎片关联起来形成图谱之后,更多关联信息意味着更加丰富的语义信息。

经过适当的引入常识知识和领域知识,可以对图谱中的节点和关系做向量化处理,进而突破以往基于字符串匹配的浅层语义,更加便利、有效的帮助客户组织领域知识,为流程优化、辅助决策、预测分析等下游应用提供基础服务。

明略科技在这方面有足够多的构想和实践。例如在知识表示方面,目前明略科技聚焦于如下几个研究问题:带有部分属性和标签的静态图谱如何向量化表示,如何从动态变化且不符合马尔可夫性的图谱中挖掘出事件间的因果关系,常识知识、领域知识、非结构化碎片知识如何映射到相同的语义空间中,如何用统一的知识表示框架为下游的分类、检索、推荐、问答等任务提供知识服务。

然而目前为止知识图谱在成为数仓的过程中,依然存在着研究上的和产业上的问题。

在研究方面,有人曾对近几年国际顶会上的相关工作做了全方位分析,他们发现在知识图谱落地过程中的每个环节都还存在各自的问题:构建层面,目前比较关注的包括弱监督、远程监督、自监督、小样本等抽取方案;推理层面,主要集中在图神经网络、基于图表示学习的研究等;知识建模层面,则有一些事理图谱(这个是由哈工大首先提出的一种概念)、动态知识图谱、时序点过程的探索。

其次在产业应用方面:

首先,对于构建知识图谱的“数仓”,眼下最主要的问题是大规模、低时延下的效率问题。目前企业所能掌握的关系数据一般都在千万到百亿节点的规模,未来随着5g和物联网的普及,其规模会更大,而且很多场景下要求在秒级甚至毫秒级返回查询结果。这不光是对底层图数据库的挑战,很多上层ai任务的算法要配合中层的图挖掘算法和更底层的图数据库操作算子一起做跨层联合的并行化优化。

另外一个挑战是知识完备性问题,使用知识图谱的目的,除了让它做为一种中间态的数据服务之外,还期待能引入常识知识和领域知识,在大规模数据中做自动推理和补全,当图谱中的知识未达到一定的量级和丰富度之前,推理的准确度很难保证甚至难以开展,两者之间不是线性关系。

此外,也有人提到,现在越来越多的应用,其输入不仅限于文本,还会有图片、音频、视频等多模态的内容,如何为多模态的知识图谱构建提供一个比较好的解决方案,在未来一段时间里依然是一个具有挑战性的问题。

因此,张杰博士作为补充也指出,“知识图谱不是替换数据仓库,而是作为数据仓库的有效互补。”

雷锋网报道。

参考文章:

[1] 百度百科, https://baike.baidu.com/item/数据仓库

[2] 数据库 与 数据仓库的本质区别是什么?,知乎问答,https://www.zhihu.com/question/20623931

[3] 机器之心 pro, https://www.jiqizhixin.com/graph/technologies/6e896233-3f15-47a4-9b2e-479d7cc5478b

[4] 知识图谱的下一步:知识指导的预训练模型和图神经网络, 蔡芳芳, https://www.infoq.cn/article/ofdp3jgoazlg7ogmfewk

[5] 知识图谱 + 数据中台,会是未来中台战略的答案吗?, 佘磊, https://www.infoq.cn/article/dgjb0z4jkw8jzyf90dae

网络电玩城

作者:匿名
2020-01-04 14:01:53 一个夏天都不想出汗?这种硬核习惯要不得
一个夏天都不想出汗?这种硬核习惯要不得
对于健康人来说,适时进行排汗是很不错的强健骨骼的办法。控制血压运动出汗有助于扩张毛细血管,加速血液循环,增加血管壁弹性,从而达到降低血压的目的。同时,运动出汗加快了血液的循环,有助于消化系统和神经系统调节。所以,预防高血压除了饮食控制,出汗就是最佳的疗养方式。这项研究研究表明,出汗能有效地增强自身免疫力,提高抗菌抗病毒的能力,从而保持身体处于良性健康状态。在排汗量大的情况下,还需酌情增加饮水量。
2020-01-07 13:42:02 我国启动6G研发,听专家说说到底有多6?网友:5G还没用上
我国启动6G研发,听专家说说到底有多6?网友:5G还没用上
11月7日,据科技部消息,科技部近日会同发改委、教育部、工信部、中科院、自然科学基金委在北京组织召开6g技术研发工作启动会。6g技术研发推进工作组和总体专家组的成立,标志着我国6g技术研发工作正式启动。很多网友的第一反应是:什么,我5g都还没用上,6g就要来了?别急,6g还只是启动研发,预计到真正商用还有10年之久。所以研究者们认为,大约在2030年6g技术将在2030年商用。5g还未全面铺开,6
2020-01-04 09:37:55 把学生默写的成绩和照片发到家长群……专家:老师违法了
把学生默写的成绩和照片发到家长群……专家:老师违法了
案例1:家长群公布学生成绩排名 老师侵犯学生隐私权讲座一开场,张教授便抛出了班主任将学生默写古诗成绩及照片发到班级家长群这一案例,由此展开了讨论。张教授告诫老师,不得剥夺学生受教育的权利,特别是不得在上课期间让学生离开教室,否则一旦发生学生人身伤害事故,老师便有责任。张教授指出,这是一起典型的因老师组织教育教学管理严重失职而引发的事故,该老师没有依法执教。
2020-01-04 18:09:39 美国五角大楼宣布将向海湾地区派遣增援部队
美国五角大楼宣布将向海湾地区派遣增援部队
美防长埃斯珀当地时间周五表示,美国将应沙特和阿联酋的要求向海湾地区派遣增援部队。美国参谋长联席会议主席邓福德称,增援部队的确切数量和装备类型尚未确定,但将作为向该地区“适度部署”的一部分。而就在五角大楼发布此消息之前,特朗普宣布美国将制裁伊朗国家银行。
2020-01-07 13:28:46 国联安净利暴跌太保依旧接盘 险企布局公募意欲何为
国联安净利暴跌太保依旧接盘 险企布局公募意欲何为
从太保收购国联安基金谈险企布局公募图谋混业经营的大资管时代,公募基金牌照越来越受到险企青睐。至此,中国太保正式入局公募基金行业。不过太保当时发布澄清公告,称与国泰君安仅进行意向性接触,尚未达成实质性协议。国联安净利暴跌74.6% 太保一心只求公募牌照国联安基金是中国第一家获准筹建的中外合资基金管理公司。2017年国联安数据持续下行,营业收入2.79亿元,净利润0.38亿元,同比下降74.64%。
2020-01-03 16:17:19 回购将成热点:完善股份回购规定 公司法修订已过会
回购将成热点:完善股份回购规定 公司法修订已过会
此次公司法的修订主要聚焦上市公司股份回购层面,修订内容包括三方面:一是补充完善允许股份回购的情形。三是补充上市公司股份回购的规范要求。为防止上市公司滥用股份回购制度,引发操纵市场、内幕交易等利益输送行为,增加规定上市公司收购本公司股份应当依照证券法的规定履行信息披露义务,除国家另有规定外,上市公司收购本公司股份应当通过公开的集中交易方式进行。
2020-01-02 12:32:53 美国前国务卿在达沃斯论坛表示:特朗普应该辞职
美国前国务卿在达沃斯论坛表示:特朗普应该辞职
美国总统特朗普和一个由政府官员组成的代表团原本计划前往达沃斯,但由于联邦政府持续关闭而取消。达沃斯不是特朗普议程上唯一受到政府停摆影响的活动。白宫助理表示,特朗普发送国情咨文演讲信函给国会。
回到首页