西岐分享:从数据治理中,分析项目最佳实践
当今数据时代背景下更加强调、重视数据的价值,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营、构建完整用户画像,为企业打造自助模式的数据分析成果。
基于此背景趋势,从理论上来讲,在数据驱动决策中,很多企业应该在数据分析的帮助下高效决策、升级创新。但事实证明很多企业因此陷入了思维局限区,并没有真正做好企业的数据分析平台。
下面北京西岐网络会对参加过的数据治理分析项目,从调研、实施、分析到最佳实践等内容进行总结为大家提供参考和借鉴。
数据分析存在意义
在技术的推动下,大数据已经成功应用到一些行业之中,并发挥着重要的作用,创造着大量的价值,意义深重。每个公司经营中都会产生大量的业务数据,这些数据表面上毫无关联,但彼此之间存在深层次的关系,数据价值发挥与否就看是否能将这些数据进行联动。
对于数据分析,北京西岐网络介绍五个方法准则。
1、反应客观事实:数据分析通过对数据的采集、分析、展现,对事实更加客观、真实、完整的反应,避免主观臆断产生的偏差。
2、预测未来事件:通过预测分析算法,使分析结果具有预测意义,使管理者可以根据分析结果对未来即将发生的事情做出预判。
3、监督管理考核:对企业运营过程中产生的数据进行汇总、统计、分析,对整体和各部门运营状况进行了解掌控,起到监督考核的作用。
4、支撑决议计划:经过数据分析,可以根据成果辅助对公司内部各项活动的决议计划顺利开展。
数据分析演变发展
当我们回顾数据分析的发展历史,可以发现数据分析在很早的时候就已经走进IT技术行列,而不是近几年随着数据浪潮兴起的。
在过去的十年到二十年里,数据分析一直是非常热门的词汇,只是当时碍于多种原因没能引起足够的重视,直到现在数据分析已经经历了多个阶段,从数据分析1.0到数据分析4.0。
数据分析1.0
数据分析1.0也叫商业智能时期,在这个阶段数据仓库概念兴起,数据分析多以系统形式出现,代表产品或技术为BI商业智能、ETL工具、数据门户、数据仓库技术。
此阶段数据主要为企业内部数据、结构化数据,将这些数据存储整合到数据仓库中,进行描述性和诊断性分析,对企业业务数据进行全局钻取、层层穿透,分析当前业务发生的原因,进行综合、精准的展现,帮助管理者分析当前企业发展情况。在数据分析1.0阶段仅限于处理过去及正在发生的事情,不能对未来趋势进行预测。
数据分析2.0
数据分析2.0也叫大数据分析时期,在这个阶段大数据相关理念、技术兴起,数据分析多以平台形式出现,代表产品或技术为大数据分析理念、Hadoop、Spark等技术。
此阶段数据主要为外部数据、非结构化数据、互联网/物联网数据,通过Hadoop、Spark等技术对海量数据进行处理,实现实时数据分析,基于描述性与诊断性分析进行预测性分析,通过对未来趋势的预测分析,根据算法提供预测能力,抓取数据规律,预测某个具体的结果。
数据分析3.0
数据分析3.0也叫综合性分析时期,即业务+数据的综合分析,在这个阶段全面开启大数据分析构建,相关产品、咨询、服务全面兴起,代表产品或技术为数据挖掘、机器学习、分析模型等。
此阶段数据涵盖前两个阶段的数据类型,在数据分析过程中更加注重对数据更好的利用,不只是数据分析工作,更强调整体业务咨询、数据质量管理、全面服务等,每个数据分析类项目都会配备专业的数据分析团队等进行咨询规划,帮助企业能够更好的做数据决策、预测风险。
数据分析4.0
数据分析4.0也叫数据运营期,注重数据资产化、商品化的运营。这个阶段的分析类型不仅包括描述性、诊断性、预测性,还包括指导性分析。
在了解过去经营状况,并利用过去数据研究分析现状、预见未来的同时,还可以以数据驱动行动,通过模型指导最佳行为,帮助企业对当前、未来发生的事情进行有效的指导。
代表产品或技术为自动化分析概念、人工智能、深度学习等,通过智能系统(机器翻译、智能机器人等)实现自动化的数据分析。
数据分析建设步骤
数据分析发展部分简单介绍了每个阶段数据分析实现的内容,对于企业来说,在数据分析建设开展之前,需要考虑及明确几个重要的问题。
第一,数据分析建设的正确顺序;
第二,当前业务适合开展哪种数据分析;
第三每个内容的实现需要哪些工具;
围绕上述问题,北京西岐网络将根据项目中的具体实施方法进行解答。
数据分析实现过程中,技术人员首先需要了解客户的业务背景、实际需求,详细评估分析需求,之后对构成分析需要的数据进行收集、处理,这些准备完成后基于工具建立分析模型,分析计算后基于配置实现数据分析结果展现。
1 、需求调研
数据分析工作中,需求调研是重要的一环,明确数据分析的目的、需求,才能确保数据分析工作有效的向下开展,为后续数据采集、处理、分析工作提供清晰明确的方向。
此阶段需要重点与客户各部门进行充分沟通、理解业务规则、明确需求痛点、确定分析主题,并通过多种方式让客户确认项目的重点实现问题、分析范围与内容、展现成果等。
在需求调研部分主要明确几个问题,数据分析的主要业务有哪些、涉及哪些部门的数据、整体从哪些角度分析、采用何种分析逻辑思维、采用哪些分析指标、设定哪些分析主题、具体何种展现形式等,之后根据需求开始功能设计。调研过程中可以结合案例及演示为客户讲解并确认最终要的展示效果,以最直接的方式避免歧义的产生。
2 、数据采集
数据采集主要根据需要分析的主题来对应采集相关的数据,为数据分析提供依据,数据分析的来源具有很多种,包括公司内部的系统数据、手工数据、公司外部的产业上下游数据、国计民生、社交数据等,根据不同的数据来源需要采用对应的采集工具及手段,保证分析数据的可用性、全面性。
系统数据采集
对于企业内部各系统中已经存在的数据,可以直接通过数据总线在数据分析过程中与对应的系统对接,将现有分析的数据注册为数据源,根据分析模型的需要配置、拉取、计算、转换,实现分析模型的数据支撑。
线下数据采集
每个企业信息化建设程度不同,不是所有产生的业务数据均为系统提供,很多时候线下手工数据也是数据分析的数据源之一,通常采用数据填报系统作为管理数据录入的重要工具,通过填报系统快速配置数据填报表单,实现数据的填写、修改,查看。
外部数据采集
外部数据也是数据分析中重要的数据源,例如互联网数据、市场调研数据、国计民生数据等,可以通过爬虫、网络抓取、平台合作或购买数据等方式获取行业、产业等外部渠道的数据,与企业自身进行对标比较,掌握行业的大方向的动态数据。
3、 数据处理
数据处理的过程也相当于对构建数能力蓝图进行完善,是数据分析前必不可少的阶段。
数据处理主要包括数据治理/清洗、数据转化、数据合并等内容,实现将来源不同、类型不同的抽取出来的数据,进行清洗、转换、合并、存储等操作,以保证后续数仓建设、数据建模、分析配置、展现等顺利实施。
数据清洗
支撑数据分析的业务系统各自为政,由不同系统厂商、机构、业务部门分管使用,不具备完善的数据质量管理机制,在系统中难免出现异常数据。对于异常数据需要进行质量管理,以纠正问题数据,填补缺失数据,完善数据结构,保证数据的统一性、唯一性、准确性,数据清洗方面包括:主数据治理、元数据治理。
主数据治理使用MDM主数据管理工具实现数据分析中所用的主数据的申请、审批、校验、分发,数据建模、数据清洗、数据管理流程配置、系统管理等操作,通过MDM在整个企业内部制定并执行统一的、符合业务要求的、科学合理的数据标准,通过数据标准的执行使得企业内部的各个业务环境使用的主数据完整统一。主数据治理过程中同样需要用到ESB或ETL工具完成业务数据同步分发工作。
元数据治理主要是为了方便整个数据仓库保存信息的管理所做的操作,以实现各类技术术语与流程在企业内部的统一定义,首先制定元数据管理策略与元数据体系架构,之后选择元数据管理工具,通常数据分析平台中具备一定的元数据管理功能,制定对应的元数据管理治理与标准,实现对级别且通用的概念以及概念之间关系的描述,保证每个元数据元素在信息供应链中每个组件的语义上保持一致。
数据转换
在数据分析项目中,很多时候采集到的业务数据并不能直接使用于分析配置,因为不是所有数据都能够达到数据分析模型输入数据的格式要求,这时需要对这些数据进行一些处理,也叫预处理,使这些数据标准化,常见的解决方式为数据转换。
一般在数据分析项目中,数据转化的实现方式有数据标准化,即按照数据比例将数据落在制定的区间内;数据结构构造,即将数据用区间或类别等概念进行替换,重新构造结构;数据加权平均,即将数据权重计算在内的平均算法等,将业务数据按照分析的标准进行计算、转化实现数据分析的展现。
数据整合
数据整合也叫做数据合并,是指综合数据表中某几个字段的信息或不同的记录数据,组合成一个新字段、新记录数据,使数据按照不同的业务主题进行重组存储,完成对分散数据的整合工作,形成企业内部的唯一数据。数据整合工作主要有两种方式,一种为字段合并,另一种为记录合并。
字段合并是将某几个字段合并为一个新字段,简单来讲是将同一个数据框中的不同行或列分别进行合并,形成新的行或列。记录合并是为将具有共同数据字段,不同数据表的记录信息,合并到一个新数据表中,简单来讲是将两个结构相同的数据框合并成为一个数据框。
4 、数据汇聚
数据分析过程中一个重要的步骤就是将企业的业务数据汇聚,是一个数据重整的过程,即构建大数据平台的存储与计算中心完成数据的汇聚,与企业搭建内部的数据仓库或数据中心结合,根据数据的不同数据特征,从多样的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,通过数据分析算法,进行数据统计分析、实时流处理,机器学习和图计算等。
数据存储
数据存储部分通过建立数据仓库,在数据分析与决策支持等方面为用户或机器学习提供服务,将采集及处理后生成的数据集持久化到计算机中,然而这里的数据仓库技术并不是传统BI商业智能所用到的简单的关系型数据库,而是可以支持大数据量、高实时性的数据分析场景。
项目中对于数据存储部分会采用高性能、高吞吐率、大容量的基础设备来提供及时性或近及时性的数据供于分析,对于简单的结构化数据,一般采用关系数据库,对于半结构化和非结构化的数据,则会根据实际场景使用Hadoop、列存储数据库Cassandra、文档数据库MongoDB、图数据库Neo4j、K/V存储Redis等。
数据建模
数据建模即数据分析建模,通过建立数据分析模型,并对之进行配置、分组管理等操作找到潜藏在数据下面的客观规律,挖掘数据中的真正价值,得到想要的分析结果。
技术上通常需要对立方体和数据集进行配置,立方体配置支持三维、多维立方体,同时立方体与数据集之间可以相互转换;数据集配置可以根据选择定义自动生成对应的数据集模型,如:SQL原生数据集、接口定义数据集,Schema&Cube转换生成数据集等。
计算分析
数据计算即对数据进行处理分析,包括对相关数据集的数据进行排序、归集,执行机器学习算法、实时流处理、分析预测等。在项目中需要根据用户具体的业务需求选择适合的算法,常见的算法包括回归、分类、聚类、关联规则挖掘、时间序列、描述性统计、神经网络等,用于实现对企业内外部数据的深度挖掘、特征提取、行为分析、轨迹预测等。
这些算法一般会预置在项目中使用的分析平台中,以精准营销为例,划分消费者群体使用聚类算法;购买额预测使用时间序列算法;满意度调查使用回归、聚类算法;实时定位追踪使用流处理技术;自动化异常分析或检测预警使用机器学习算法等。
5 、配置展现
配置展现部分主要为相关主题模型的配置以及主题分析效果的展现,即选定分析工具之后,对展现哪些数据、以什么样式的图表形式展现进行实现,选择分析模型以及相应的数据,与组件结合形成组件实例,实现数据分析。
分析配置
分析配置主要对数据分析整体布局的样式进行配置,包括导航配置、菜单配置、页面配置等,通过导航菜单配置对应的导航,每个导航能够通过选择主题、配置整体的布局样式,满足领导层级与各部门层级的不同的分析需求;通过页面配置对主题进行管理,包括分析页面整体样式、页面大小、展现方式、背景颜色等,同时可以支持移动端自适应显示,配置后将计算汇总的结果用图形化或表格形式展现。
分析展现
通过多维分析技术实现多维度、多角度、全方位的实时在线分析,包括数据的切片、切块、聚合、钻取、行列转置、钻取联动、层层穿透等多种分析样式,帮助管理者全局性掌握公司运营现状。
在数据的配置及交互方面针对用户操作方式,模拟用户分析习惯,提供针对性的交互服务。数据展现部分提供多样化、丰富化的展现方式,包括但不限于饼图、柱状图、折线图、气泡图、面积图、省份地图、词云、瀑布图、漏斗图等酷炫图表。
数据分析最佳实践
数据分析项目与主数据治理项目都是行业性特点的项目,在具备对应的业务知识外,还需要从企业性质、实施方法、需求引导等多方面进行研究以保证项目顺利落地,避免出现需求不清、逻辑混乱、进度滞后等问题,加强数据分析效果的同时保证项目的顺利落地。
1 、客户分析,抓住侧重
不同性质的企业对项目的整体要求、效果、配合程度是有差别的,承接项目前需要对客户性质进行了解,从而事先评估项目过程中会遇到的问题与阻力,制定更好的解决预案。
这里将企业分为国企与民营,对于民营企业来说更加注重投入后的效果及回报,会对同类标杆案例进行做为参考与借鉴,在调研实施过程中配合力度较高;对于国企来说更加注重项目的整体价值及意义,重注将项目打造成标杆案例,企业中各级员工职责分工明确,调研及沟通相关事宜需要统一预约时间,但对于业务的梳理相对来说较为清晰、明确,很少存职责混乱情况,实施方需要根据特性及侧重进行项目的整体规划、引导。
2 、注重基础,按需构建
每个企业都想通过大数据分析支撑决策、预测风险、精准营销,从而换取更多的利益,但大数据分析的建设并不是适合所有企业,而是要根据企业的发展阶段、信息化建设程度综合考虑,对于分析的主题也不是越多越好,而是重在实用与有效。
通常对于数据分析的方案有BI系统构建、数据门户构建、分析平台构建、大数据平台构建,每种方案对于企业的要求都是不一样的,信息化建设程度越高(系统完善、基础平台、数据治理等)越适合大数据分析,反之可以从数据门户开始,逐步建设。这就要求实施团队在项目调研过程中准确判断客户当下适合以哪种形式构建数据分析,并进行针对性引导,讲明缘由及利弊。
3 、明确目的,定位需求
在项目需求调研过程中,一定要做好充足准备、目的明确、知道想要获得哪些信息、应该如何获得这些信息等,制定调研计划开展调研工作。
可以以5W2H法则为宗旨,即:What(用户要什么?)Why(为什么要?)Where(从哪儿得到?)When(什么时候做?)Who(对谁做?)How much(给多少?)How(怎么做?)。
通过这些法则与客户交互、明确需求,在得到需求后第一时间整理,并站在多方立场去考虑客户的提出的需求原因,以专业角度基于当前业务情况、信息化建设程度、管理水平等情况分析项目可实现的范围,之后再进行整体架构的规划,避免偏离项目本质需求,过程中要注重与客户确认,及时封闭需求。
4、 功能优先,兼顾美观
任何人都喜欢追求美的事物,提到数据分析的展现,每个企业最终用户都想要炫酷的展示效果,越美观越好,这就造成在项目现场比起分析的主题、指标,配置的功能,客户更多的要求实施人员对展示效果多次调整修改,最后才去关注分析指标及平台功能等一系列问题。
针对这种现象实施方不可完全跟随客户的思路及要求进行,而是需要以实施计划为主,全力推进项目进程,切忌在一个问题上无条件及范围的反复修改,要让客户知道比起展示效果更重要的是数据分析的指标及功能的使用、工具的易用性、扩展性,先将整体功能实现之后,再去调整界面UI等相关事宜,过程中可以做出几版原型供用户选择,缩小调整范围。
5 、加强测试,角色代入
数据治理分析项目不仅是加强系统功能、加载速度、是否满足需求等方面测试,还要加强对人员配置、权限方面的测试,特别是集团型企业,不同人员角色所能看到的分析数据、界面是不同的,在测试过程中需要着重测试不同角色所看到的分析界面是否对应,是否出现越权现象。
上述测试属于常规测试范围,在测试工作中另一个重要的内容是换位思考、角色代入,测试人员从客户角度出发,测验平台的配置过程是否快速上手、方便,可能会遇到哪些问题,问题来源于操作还是平台。对于分析展现部分,假设如果自身处在客户对应角色的位置上,希望看到有哪些分析指标、展现形式如何,以此不断优化项目成果。
6 、分段上线,强调使用
对于数据治理分析项目的功能上线,不建议采用项目验收临近日期,项目成果整体上线的方式。最佳的方式是采用分段上线法,对客户重点关注的业务指标进行功能实现,在指标配置3-4个后即可推进上线,让客户可以真实感觉到项目带来的效果与价值,便于对项目后续工作的推进与配合。
另一方面分段功能上线也是为了让客户先将系统在正式的办公场合下应用起来,使用的人越多项目的价值越能体现,也是表明实施方实力的有力论证。项目经理需要严格把控上线时间,不可过于急迫也不可过于后推,通常在项目实施2个月左右推进为宜,既体现敏捷实施的效率,又保证可以交付真实的成果。
在北京西岐网络看来,技术快速发展的时代,大数据、云计算、人工智能都是当前企业在信息化建设高级阶段所要了解并融入的技术手段,数据分析是各行业企业决策分析、风险管控、精准营销的必备工作。
所以,做好调研分析、明确数据来源、数据质量管控、工作辅助支撑、个性建模分析一步都不能少。除此之外,还需要不断的在项目中摸索、总结正确的实施方法论,达到快速实施的效果。
返回
下一篇