Alluxio创始成员范斌:AI与开源背景下数据架构的

时间:2019-08-15

  

Alluxio创始成员范斌:AI与开源背景下数据架构的演变

  大数据生态系统正变得越来越复杂,也带来了很多挑战。在工作中能够拥有更多不同的选择对用户来说是件好事。然而,对于很多公司来说,后端基础设施会变得越来越复杂,因为他们必须同时支持各种处理数据的方法,于是只能在其系统中添加更多的新系统。

  【IT168专稿】本文根据夏军老师在2018年10月18日【第十届中国系统架构师大会】现场演讲内容整理而成。讲师简介:夏军,小米数据流平台负责人,曾就职于腾讯和百度,主要负责消息队列、大数据集成方案,...博文来自:weixin_34268610的博客

  但是这存在一个问题,对于这样一家华尔街公司,数据是重中之重。他们只愿意将数据存储在公司内部的基础设施中, 但将数据一次次移动到云端会导致高昂的成本,并且机器学习模型训练可能变得异常复杂。于是,他们将这个新的数据层与他们的机器学习工具,比如Spark部署在一起,一旦数据移动到Alluxio层,就可以进行缓存处理和数据管理,以避免机器学习训练的过程中反复从他们的数据源读取数据。这种方式可以让他们的开发机器学习模型的效率提高十倍,获得非常好的投资回报。

  如果是只有字段缓存的话,redis应该是够用了。但是如果涉及到大量文件,尤其是用hdfs作为底层存储结构的,建议用alluxio升级一下。一方面有利于spark资源控制,另一方面也可以统一入口便于扩展...博文来自:dlke03的博客

  初代的大型主机中存储和计算能力是完全耦合在一起的,基本可以实现你需要的所有功能。最开始,人们只是使用大型机进行一些基本的计算。然而随着数据量不断增长,想把所有数据储存在一个地方已经基本不可能了,必须找到一种能够以类似可扩展的方式存储数据的方法。例如,人们提出了RAID(Redundant Array of IndependentDisks)的概念,即使用多个不同的硬盘来存储数据,吞吐量更大,可靠性也更高。

  Garth Gibson是RAID系统的发明者,也是我的博士答辩委员会成员。在八十年代的初期,人们还对需要多个硬盘储存数据这个想法嗤之以鼻,而他们在试图解释这一概念的好处:这是一种用于分配存储的新算法,能够实现更大的数据吞吐量,更好的布局,更优的计算性能。

  在本世纪头十年间,Google发表了三篇关于Google File System,Bigtable和MapReduce的论文,它们被认为是分布式系统领域最经典的文章之一。当时Google面临的问题是,有太多的数据要存储,但专用硬件对他们来说太贵了。于是Google的工程师们想要找到一种不同的方式储存来自整个互联网的数据。于是他们打算构建一个不同于Scale Up模式,而是通过Scale Out来保证数据存储的可靠性,同事尽量将存储数据和计算共置。于是Google的Google File System将数十万台机器组合在一起以提升处理能力和数据吞吐量,用市面上能买到的比较廉价的硬件就能实现,这也就意味着制造成本相对低廉。这个想法在那个时期有着革命性的意义。

  前端学习之路及前端架构的演进一些思考最近这些年前端发展十分迅猛,各种框架,插件,组件库如雨后春笋,让人应接不暇。很多刚进去前端开发的同学可能会眼花缭乱,不知从何入手。这篇文章主要讲下我自身前端学习之路...博文来自:许保殿的博客

  Alluxio的演变历程以及1.0版本的新特性和工作原理,以及一些使用案例。

  详见:特点:多个Sparkjob以内存级速度共享相同的数据(可以做到多个job共享一个RDD)...博文来自:卡奥斯道的博客

  前言在如今各种计算,存储框架层出不穷的情况下,我们在工作中对于一个需求的解决可以用很多种方案进行解决。不同框架的组合会有不同性能上的表现,但是这里会涉及到一个性能和开销的权衡问题。因为不同框架的组合需...博文来自:走在前往架构师的路上

  Alluxio源码分析是一个基于内存的分布式文件系统,和HDFS、HBase等一样,也是由主从节点构成的。而节点之间的通信,一般都是采用的RPC通讯模型。Alluxio中RPC是基于何种技术如何实现的...博文来自:辰辰爸的博客

  一、读类型1、CACHE_PROMOTE如果读取的数据在Worker上时,该数据被移动到Worker的最高层。如果该数据不在本地Worker的Alluxio存储中,那么就将一个副本添加到本地Allux...博文来自:weixin_33849942的博客

  此外,对于用不同方法处理的常见数据,如何才能保证人们可以有效的共享不同框架呢?例如,在不同的Spark任务之间共享数据非常麻烦,因为每个Spark任务只会将自己的数据缓存到本身进程当中。所以必须找到一种巧妙的方法在像Spark这样的同一个框架内进行数据共享。如果你想在Spark,Presto,Hadoop和TensorFlow之间实现高级的数据共享,难度就更大了。

  最后,他们发现可以在不同的分布式文件系统或不同数据源上使用一层数据将这种差异隐藏起来。只要他们能够理解一个统一的数据逻辑视图,就可以高枕无忧,等待数据层帮他们进行数据转移和管理。这样一来,他们就能够以很高的工作效率,非常轻松地进行模型开发。

  3)可访问性。构建可以访问一种类型的存储的应用程序非常容易,但是如果有多个不同的存储空间,如何保证开发人员依然能够方便的访问数据?

  1、如果启动报sudo相关命令错误,是因为启动用户未在sudoers里面,需要将用户添加到此文件中,添加方法搜下root位置,再后面添加即可。内容如下:rootALL=(ALL)ALLhadoopAL...博文来自:天天 debug

  Alluxio(tachyon)集群安装部署Alluxio,原名tachyon,在1.0.0版本改名为Alluxio,是一个以内存为中心的虚拟的分布式存储系统,统一了数据访问的方式,为上层计算框架和底...博文来自:xueba207的专栏

  以上就是数据架构的大致发展轨迹。我们可以从中看到一个循环:紧密耦合的架构 -\u0026gt; 去耦合的分布式存储架构 -\u0026gt; 大数据规模下具有水平可扩展性的分布式文件系统耦合模型 -\u0026gt; 云环境中的可扩展对象存储和计算资源的去耦合。这是个非常有趣的循环发展过程。

  由于Google的解决方案并没有开源。开源社区的人在读了这些论文之后,认为这些都是很好的想法,于是想要找到一些方法来实现这个计算和存储的模型。Hadoop协议栈以及开源社区就这样应运而生了。Hadoop作为工业界广为接受的大数据的生态系统,忠实的再现了Google的这几篇论文里提出的将存储和计算再次进行耦合的模型。

  在上世纪90年代起,人们意识到这是大势所趋,于是开始尝试打造多硬盘驱动系统并将不同的应用程序连接到存储系统。那个时候,功能的构建包含两个部分:一部分重点关注如何低成本高效率的存储和提供字节;另一部分是如何构建更高效的CPU和服务器,已实现快速有效的处理其他部件所提供的字节。

  2)数据抽象。如果使用混合云解决方案,如何才能将多个不同类型的数据存储系统混合到一个统一的抽象中,让应用程序可以自如的处理数据而无需在意物理上的差异?

  我想分享的最后一个例子是如何让数据科学家的生活更轻松。机器学习应用程序可以通过一个新的智能数据层来访问数据。有一家历史悠久的美国顶级电信公司,拥有许多不同的传统基础设施,繁杂的部门也衍生出了非常分散的数据源。每当他们的数据科学家们想要用稍微高级一点的方式使用某些数据时都会觉得举步维艰。他们必须进行无数次的ETL操作(Extract, Transform and Load),这将直接影响他们完成机器学习模型的效率。

  实现方式:1.可以使用java程序通过JDBC连接到oracle数据库,然后使用Alluxio的javaAPI将从数据库中读取到的数据写入到Alluxio中;2.可以使用java程序通过JDBC连接到...博文来自:阿狸的博客

  2019年3月9日Robin.ly线上技术交流活动特邀Alluxio公司创始成员、开源项目PMC成员范斌博士,与Robin.ly社区成员分享数据架构在过去几十年的演变过程,以及他多年来从事分布式系统研究的经历和体会。

  感知层:主要分为两类,自动感知设备:能够自动感知外部物理信息,包括RFID,传感器,智能家电等;人工生成信息设备:包括智能手机,个人数字助理(PDA)、计算机等。  网络层:网络层又称为传输层,包括接...博文来自:Peter_Changyb的博客

  第一个实例是弹性模型训练。我们的一个用户是Two Sigma,华尔街顶级对冲基金。时效性对他们至关重要。他们在训练机器学习模型时发现,弹性地利用云上的机器资源进行模型训练的效果非常好。因为这样一来,可以显着降低维护自有的计算机集群的成本,而且工作任务可以更好的在上百台机器中间进行分配。

  一、介绍AlluxioTachyon正式改名为alluxio,并发布v1.0.0版本,alluxio是内存高速虚拟分布式存储系统。Alluxio是一个以内存为中心的虚拟分布式存储系统,统一数据访问和桥...博文来自:twj0823的博客

  那么发展到今天是什么样的状况呢?如果找刚成立一两年的创业公司谈一下,就会发现其中大部分公司不再需要构建自己的内部基础架构,而是直接在Amazon AWS,Google Cloud,或者Microsoft Azure上构建基础架构。存储服务主要由对象存储系统提供。云服务供应商正是以这样更廉价,更具可扩展性和更灵活的方式,基于个性化的应用来提供多样的存储服务。这是一个极为重要的应用。如果想让不同的机器运行应用程序,只需要将应用程序连接到这些对象存储系统,这样一来就再次实现了可扩展对象存储系统和计算资源的去耦合。

  Alluxio源码分析是一个基于内存的分布式文件系统,和HDFS、HBase等一样,也是由主从节点构成的。而节点之间的通信,一般都是采用的RPC通讯模型。Alluxio中RPC是基于何种技术如何实现的...博文来自:weixin_34232363的博客

  一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数...博文来自:xihuanyuye的博客

  1)数据本地性。Hadoop MapReduce将计算移动到接近数据所在节点位置,具有良好的本地性。云时代存储与计算分开,节约了存储空间的同时却造成了计算效率下降。那么如何能够延续Hadoop的数据本地性?

  最近大家比较关心的围棋人机大战(googlealphago深度学习+蒙特卡洛搜索算法vs李世石)中,googledeepmind基于Nature2016文章的alphago算法在5局制的比赛中已经取得...博文来自:孙佰贵的专栏

  在通常情况下, 常规的架构可能也可以满足要求。但是到了像“双11”这样的热门购物促销日,网络流量就变得异常庞大。在这种情况下,应用程序与其数据之间的网络流量数据就不那么可靠了。于是,唯品会的工程师们为这些流水线提供了“另一层数据”,能够帮助他们获得非常稳定的数据访问量。例如,他们可以使用Alluxio并把内存(memory)作为数据存储设备,其提供的高带宽可以满足Spark的数据消费任务的需求。在这种情况下,数据处理流水线变得更加稳定,及时的推荐和销售归因可以提升网站的访问 - 购买转化率,数据科学家的工作也变得更加得心应手。

  Alluxio最初是加州大学伯克利分校AMPLab (The Algorithms, Machines and People Laboratory) 的研究项目,由李浩源博士创立。为了让全世界有更多的用户可以从这个开源项目中受益。我们得到了顶级的风险投资包括Andreessen \u0026amp; Horowitz的投资,帮助用户简单高效的开发数据驱动的应用程序,如大数据分析,机器学习和AI等。

  推出“AI开源主板”此次Firefly与OPENAILAB共同合作,向广大嵌入式AI开发者推出“AI开源主板”AIO-3399C,其硬件是基于RockChip高性能6核处理器,同时加载了OPENAIL...博文来自:bassersai的专栏

  还有一个很有意思的例子是电子商务公司唯品会的准实时数据流水线。这些关键的流水线可以提供推荐和分析销售原因等任务,能够帮助数据科学家们理解为什么有人会去他们的网站购买商品,比如是因为平台正在搞促销活动,还是因为他们刚好有优惠券,或者是在哪里看到了广告推介。因此,他们利用Spark将相关数据结合一些统计算法来推断当前的购买决定是否源于之前的某些特定行为。关键在于,人们不会一直在网上购物,多数人只会停留十几分钟到几十分钟。因此这些统计推断必须在用户离开前对行为数据进行实时分析以获得有意义的结果,并及时根据反馈进行调整。

  今天很高兴来到这里。我叫范斌,是Alluxio公司的创始成员和VP of Open Source。我之前曾经在Mountain View的Google总部工作并参与了下一代大规模分布式存储系统的开发。在加入Google之前,我在CMU攻读并获得了计算机科学博士学位,研究课题是分布式系统,网络系统以及相关的算法和性能优化。

  ALLUXIO1.7.0 部署的案例与解读一般情况下,分布式系统都会至少提供两种部署模式,一种是单机模式,通常用于测试、快速部署入门等,另一种是分布式模式,用于实际生产环境。比如Hadoop分布式系统...博文来自:段智华的博客

  Alluxio源码分析是一个基于内存的分布式文件系统,和HDFS、HBase等一样,也是由主从节点构成的。而节点之间的通信,一般都是采用的RPC通讯模型。Alluxio中RPC是基于何种技术如何实现的...博文来自:weixin_34186950的博客

  AI有三大驱动因素:算法,算力,数据近年来,由于深度学习的兴起,计算机各种顶会都渐渐被深度学习算法给攻占。计算机结构顶会也不例外,很大一部分论文都是有关AI计算的研究。在今年世界级的计算机结构顶会IS...博文来自:木盏

  上节已在Alluxio集群配置了MasterHA容错处理,启动了ZooKeeper对Master进行管理,将HDFS配置为Alluxio的底层文件系统。本节进行命令行接口的案例实战。1.3.1    ...博文来自:段智华的博客

  本学弱喜欢在本子上记笔记,但字迹又丑。望看不懂我的字的大佬不要喷我,看得懂的大佬批评指正。 本篇博客主要介绍了RNN(模型及学习算法BPTT)、SRNN、BRNN、DBRNN、ESN、LSTM(及一系...博文来自:lch的博客

  今天我想简单回顾一下数据架构在过去的几十年中的演变,比如人们在不同时期所使用的技术和所面临的问题。

  而当时一个磁盘就已经造价不菲,使得人们没有任何动力去追求更多的硬盘。而现在,它的体积已经变得很小,在任何一个台式机和笔记本电脑中都已经可以装得下多个不同的硬盘,还能连接一些外部存储器。

  近日,AccutarBio 完成由 IDG 资本和依图科技的联合投资,加上之前真格天使轮投资,总共融资 1500 万美元。这是迄今为止中国 AI 制药领域最大融资之一。AccutarBio CEO 范...博文来自:机器之心

  2018年6月3日,由中国IT技术社区CSDN和专注以太坊生态建设的领先企业灵钛科技主办,以太坊爱好者社区、柏链道捷、火星财经、金色财经、Unitimes、区块链大本营协办的「2018以太坊技术及应用...博文来自:CSDN研发技术

  下面我想通过一些实际案例来说明为什么需要添加一个新的层,在面临这一新的挑战时会遇到哪些问题以及应该如何解决。

  关于DatawhaleDatawhale是什么?Datawhale组织架构团队职责数据科学团队1.数据竞赛,2.数据科学项目内容输出团队1.输出原创优质文章2.构建开源内容和开源项目社群管理团队社群管...博文来自:Datawhale的博客

  1.ElasticSearch1.1ElasticSearch的优点:高并发。实测es单机分配10g内存单实例,写入能力1200qps,60g内存、12核CPU起3个实例预计可达到6000qps。同机...博文来自:学习AI算法,请关注微信公众号:机器学习算法全栈工程师……

  传统架构传统架构–软件架构–图一传统架构–硬件架构–图二(仅供参考)传统架构–企业组织架构–图三(仅供参考)为什么早期架构这样设计?      这个就要从历史上去说了,在计算机发展过程中,计算机慢慢的...博文来自:Su_Levi_Wei的博客

  如果想以更灵活、高效和低成本的方式搭建基础框架,比如实现数据驱动应用中计算和存储的独立扩展,还要考虑以下几个技术上的问题。

  另一个挑战是,随着许多数据应用的数据规模变得越来越庞大,很多用户反映他们要用到数以万计,甚至更多的机器。在这个规模之上,要实现管理集群以及管理数据和获得更高的处理能力,都需要很高的成本。

  Alluxio1.7.0使用统一透明命名空间,通过使用其透明命名机制以及挂载API,Alluxio支持在不同存储系统之间对数据进行高效的管理。在Alluxio重新安装的基础上,再次安装Alluxio1...博文来自:段智华的博客

  面对各种挑战,结合在伯克利AMPLab的经验,并与数据生态系统中的不同用户沟通之后,我们认为应该在计算和存储种插入一个新的“数据编排层(Data Orchestration Layer)”作为解决方案,相应的一个开源实现方案就是开源项目Alluxio。我们认为,现在工业界已经正在引入这一解决方案来应对挑战了。这种架构的创新之处在于构建了一层统一的数据抽象,让不同的潜在后端存储系统都可以被访问,而且能够将数据转移到需要的地方。

  今天跟大家分享易观大数据架构的变迁,包含三部分,第一先给大家讲易观的变化,也是易观产品技术的结果;第二是从技术角度来讲一下易观大数据技术架构的变迁;第三分享一点创新方向的心得。在过去,大家谈起易观,首...博文来自:修行2017

  现代数据架构的概念在过去的10多年里发生了巨大的变化,具体可以参见公众号“补天遗石”的《从数据仓库到数据湖——浅谈数据架构演进》一文。把时钟调回来,回想一下那些有许多限制......博文来自:我相信......

北大医疗鲁中医院 发财树之家 中国文化网 上海硕博公司 华恒生物官网 武汉未来科技城 百度
联系我们

400-500-8888

公司服务热线

澳门百家乐官方网站