导读 | 数字化发展离不开数据,但数据种类多、来源多、数据量大、数据价值密度相对较低,而且要求处理速度要快,这无疑都给数据的收集、治理、存储和分析带来了不小挑战。企业如何利用数据在竞争激烈的时代保持优势,成为数据驱动型企业?这就需要数据资产现代化的创新。 |
两会刚刚结束,数字化建设和发展被热议。在《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中,“加快数字化发展 建设数字中国”单独成章。纲要指出,迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。
数字化发展离不开数据,但数据种类多、来源多、数据量大、数据价值密度相对较低,而且要求处理速度要快,这无疑都给数据的收集、治理、存储和分析带来了不小挑战。企业如何利用数据在竞争激烈的时代保持优势,成为数据驱动型企业?这就需要数据资产现代化的创新。
在企业数字化转型过程中,数据无疑是最重要的。微软大中华区副总裁兼市场营销及运营总经理康容表示,如果企业的全部流程和数据没有打通的话,就无法让企业变得更具有智慧。在企业智能化的转变中,必须打通数据,让全部员工适当地、安全地使用数据,并且利用数据分析,做出可用的、更精确的、更具有效率的决定。
根据TDWI的调研显示,企业在大数据和机器学习项目中经常遇到的挑战有三个方面。
第一是解决方案的复杂性。业界有众多不同的产品,可以帮助企业解决大数据遇到的问题和挑战。然而,只有46%的受访用户对分析软件的易用性感到满意,很多客户并没有感觉使用数据分析产品得到了实际价值,而其中大部分原因集中在解决方案过于复杂。
第二是数据的质量不高。很多企业收集的数据,需要经过清洗和治理后,才能让业务有更好的方式去使用。但是,很多企业并没有足够的精力或者能力把数据的质量优化好。调查显示,只有21%的受访用户对半结构化和非结构化数据的访问感到满意,不一致的数据类型致使数据质量不高,从而影响企业利用数据产生价值的效率。
第三是规模化。只有28%的企业对于处理额外需求的扩展能力感到满意,一些受访者认为,企业的数据平台更加适合报告等标准需求,对于突发事件的处理能力还是相对薄弱。
据IDC预测,到2025年全球数据总量可能超过175ZB。但这些数据对企业来说也许并不是财富,而是“负担”。正如微软CEO 萨提亚·纳德拉所说,“今天有一半的‘财富1000强’企业不把数据看作业务资产,不是因为他们不懂得数据的重要,而是因为缺少必需的程序和能力对其加以利用。”
数据的重要性无言而喻,企业使用数据的场景也更加丰富。在业务快速迭代更新的今天,面对众多新一代数据使用场景,企业如何更加简单、快速、有效的获取数据并进行实时分析处理呢?这就需要贴近用户需求的现代化数据服务平台。
据了解,微软在数据服务方面的优势主要集中在四个层面。首先,微软提供的是一站式服务。业界很多厂商都提供和数据相关的服务,但是产品和服务的种类都是各不相同。微软通过数据库+数据湖+数据仓库+AI+BI五位一体的解决方案和产品,支持各类数据格式,同时拥抱开源技术栈,提供丰富的迁移转换工具,帮助企业快速应对数据服务难题和挑战。
第二个是混合数据。如今,很多企业都是混合环境,而不同环境上运行的工作负载产生了不同种类的数据,这些数据需要整合、治理后才能做出更加精准的分析,从而帮助企业提供决策建议。微软提出的混合数据包括新旧混合、云端混合和多云混合,帮助企业在创新的同时可以利旧,打通本地和云端,真正做到混合多云环境下的数据分析。
第三是智能。微软Azure是智能云平台,融合了微软研究院在人工智能方面的创新,并将这些技术创新整合在每一个产品和解决方案中,此外,Azure中的产品和服务会不断推陈出新,以满足企业在转型过程中不断变化的需求。
第四,安全可信。微软智能云拥有超过90项各种安全合规认证,符合世界各地广泛的合规标准。在数据安全保护方面,微软也提供了从云到端、再到边缘的全方位保护。微软认为保护客户数据的安全和隐私是微软最基本的责任,因此,微软会创造强大的安全系统来保护自己和客户的系统。
如今,企业中的数据有多个不同的来源,有来自企业内部业务应用产生的数据,也有万物互联的设备和系统收集的数据,也可能是第三方平台所积累的数据。而这些数据的结构、类型也是多种多样。
企业需要将不同结构和类型的数据收集、治理后,通过分析产生更大的价值。过去数据分析是由业务人员提出需求,数据工程师撰写语句来实现查询和分析的结果展现。但如今的数据分析,不再只是数据分析师、数据工程师的特权,甚至是业务人员也都可以通过统一的平台迅速搭建并开启集群,借助共享的数据和模型,从而进行多种不同类型的计算与分析。而这个平台就是微软和Databricks一起提供的Azure Databricks。
去年10月,微软在中国区发布Azure Databricks预览版,五个多月后的今天,微软宣布Azure Databricks正式落地中国。康容表示,Azure Databricks具有节约成本、提升速度和使用方便三大优势,因此受到了众多客户的青睐。
Azure Databricks 是一个已针对 Microsoft Azure 云服务平台进行优化的数据分析平台。 Azure Databricks 提供了两种用于开发数据密集型应用程序的环境:Azure Databricks SQL Analytics 和 Azure Databricks 工作区。Azure Databricks SQL Analytics 为想要针对数据湖运行 SQL 查询、创建多种可视化类型以从不同角度探索查询结果,以及生成和共享仪表板的分析员提供了一个易于使用的平台。
Azure Databricks 工作区提供了一个交互工作区,支持数据工程师、数据科学家和机器学习工程师之间的协作。 使用大数据管道时,原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure,或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。 此数据将驻留在 Data Lake(长久存储)、Azure Blob 存储或 Azure Data Lake Storage 中。 在分析工作流中,使用 Azure Databricks 从多个数据源读取数据,并使用 Spark 将数据转换为突破性见解。
微软大中华区云计算和人工智能事业部总经理林家伟表示,由于Azure Databricks是微软第一方开发,与Databricks第三方直接整合,企业无需担心底层的架构问题或是软件问题,都是由微软一家公司来帮助客户解决。此外,Azure Databricks支持Python、TensorFlow、Keras等开源语言,企业可以直接使用,降低学习成本。同时,Azure Databricks支持不同部门和不同数据分析师共享代码、共享数据和共享分析,让企业员工可以碰撞出更多创新火花。
此外,在数周之内,微软会在中国区提供Azure Synapse Analytics预览服务。Synapse将数据整合、存储、分析服务融于一体,可帮助企业打破数据壁垒,从各种数据中快速提取业务洞察,并将其用于机器学习,帮助企业解决数据问题,同时节省成本。
根据GigaOm 的测试 H 和测试 DS显示,与 Google BigQuery相比,Azure Synapse 表现出的性价比更高,并且与运行测试 H 基准查询的 Azure Synapse 群集相比,其成本降低了多达 94%。
原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/136334.html