成功实践数据湖的严重性因素
Chris Foot   集团网D1Net   2020-07-30

数量湖的贯彻需要很多关键因素,其中涉及从技术到治理,集团要求评估其执行策略中最重要的要素。

除了数据湖增长背后的工作驱动因素之外,价格不断回落的云服务提供大量存储和处理的力量,这正在使数据湖平台对各族框框之团队越来越有吸引力。

数量湖的实行继续吸引着IT行业之关心。科研机构Research and Markets商店日前的一份分析报告预计,数量湖市场将以26%的复合年增长率增长,到2024年将达到201京港币。

如果组织正在考虑实施数据湖,则应考虑以下几线:

什么是数量湖?

定义和更好地了解数据湖的一种简易方法是将它们与数据仓库进行比较。尽管数量仓库和数量湖都用来存储大量数目,但是它们之间存在很大差异。

集团可以通过多种艺术使用数据湖信息,并且数据源不需要预定义就足以把摄入数据湖。分析师可以通过探索、考试和评估数据湖信息,以识别其优势和用例。下半时,数量仓库为预定目的摄取和存储数据。

数量仓库专家经常实施高级别的剖析,以评估和辨识输入源。但是,实行数据湖的方针是副几乎全部生成信息的体系中索取和分析数据。

数量仓库使用预定义的架构来摄取数据。在数量湖中,剖析人员在提取过程完成后采取架构。数量湖以原始格式存储数据。故此,数量摄取是一番相当简单的经过。在数量仓库中,在提取数据时会对他进行大量处理,以确保数据符合架构及他预定义的目的。

数量湖专门研究结构化、半结构化和非结构化数据的提取。它们还提供了除批处理负载外还容易摄取流数据的公有制。尽管数量仓库可以吸收许多不同形式的多寡,但它们通常使用批量加载来提取结构化数据。

如何开始实行

数量湖实施的首要步是通过开发商网站和任何资源来了解有关数据湖架构、平台、产品和工作流程的更多信息。

与其他产品评估一样,集团要求对竞争产品进行彻底的剖析。以下是评估标准的列表,可帮助组织开展分析:

  • 艺术。尽管Apache Hadoop及其支持产品套件一直是不少组织的首选,但替代方案却越来越多。诸多将Hadoop用于其数据湖产品的生产商提供了上下一心之自定义产品和专业化产品,以优化管理和分析。现行有许多平台可用,其中包括Amazon Data Lake解决方案、迪斯尼 Azure Data Lake、谷歌Data Lake、Datafake Snowflake和Oracle Data Lake。
  • 安全和走访控制。数量湖包含有关工作的消息资源。像所有组织的多寡存储一样,要求保护数量湖以防止未经授权的走访。
  • 数量提取。平台是否可以轻松快速地领取结构化、半结构化和非结构化数据?他亦可有效地吸收数据流、微批量处理和大批处理数据负载吗?
  • 元数据管理。数据专家采取元数据来搜索、辨认和更好地了解数据湖中的数据集。
  • 数据处理、性能和可扩展性。该平台为客户提供了哪些工具和流程来与数据进行交互?他如何实现数据浏览?他在一般操作过程中实施什么后台程序?该署流程的进度有多快,它们会扩展以满足组织的总量要求吗?
  • 管理和监理。该平台是否为系统管理和监视提供了有力的用户界面(UI)?他提供哪些工作负载管理力量?
  • 数量治理。该平台是否提供确保数据一致和保险的公有制?他是否提供创建沙箱环境的力量,使客户可以在不影响数据湖内容的情况下进行数据实验?
  • 数据分析和可访问性。该平台提供什么机制来分析数据?他可以让组织轻松整合机器学习吗?他为顾客提供哪些数据分析功能?可以轻松集成第三方分析工具吗?
  • 本核算策略。证券商将如何向企业收费?
  • 数量湖实施

    在选择平台之后,从一地是构建组织基础设施、流程和经过,以加载、管理和分析数据湖中的数据。

    以下是数量湖植入策略中的关键步骤:

  • 确认有效支持平台和分析数据所需的正式知识。像许多复杂的技艺一样,数量湖具有陡峭的学习曲线。集团要求雇用经验丰富的人才并培训内部人员,并且需要采取数据湖实施来定义新的组织角色和告诉结构。
  • 为了推行经过深思熟虑的多寡湖实施战略性和计划,集团要求制定一个传统的项目计划,其中包括目标、里程碑和分配的步履项目。集团要求确定将用来评估数据湖项目的成功之正式,要求设计系统以促进自助式数据分析,还应当为数据存储和归档制定数据分类标准。
  • 实际上,集团生成的其他数据都是数量湖提取的潜在来源。迎战成为优先事项之一。一度更好的主意是评估生成数据的源泉,并从高层次确定他对集团的重大。
  • 集团应当确定当前是否正在分析信息以及正在发生之剖析级别。高度分析的多寡尽管仍然是地下的摄取来源,但人家主要可能低于系统中未被评估的多寡。
  • 制订、实行和实行数据治理策略,以确保数据安全、完全、一致、准确。
  • 为数据探索、试验和分析制定标准。数量科学家应该遵循一个标准但灵活的经过来评估数据并确定将为工作带来最大价值的用例。该署数据的潜在目标是另外商业智能平台以及新的和现有的工作应用程序。
  • 【义务编辑: 赵宁宁 TEL:(010)68476606】

     

    分享到朋友圈 分享到微博
  • 数量湖
  • 大数量
  • 数量湖平台
  • 相关推荐

    转折边缘计算? 考虑一下

    2020-08-03 14:25:25

    大数量时代,必须抓好这3大布局:才能抢占新的造富机会

    2020-08-03 09:07:09

    收银 Python 10 大常用数据结构(下篇)

    2020-08-02 23:13:29

    Copyright © 2005-2020 51CTO.COM 必发娱乐登入
    情节话题
    必发娱乐登入 移步 传感器 系统 安全 网络 必发娱乐登录 虚拟化 付出
    热门产品
    51CTO必发娱乐登录 51CTO高招 移步开发者服务联盟网+ 51CTO博客 WOT碰头会