悦读文网

当前位置: 首页 > 经典语句 > 正文

大数据处理应遵循的原则学界新闻www.hlmsw.cn,阳雀花

时间:2021-04-05来源:天冀文学网

  作者:张�l

  信息革命将人类带入一个革命性的“大数据时代”,人们通过电脑网络,利用数据分析、数据集成、数据设计、数据模型、数据决策和数据虚拟化等手段,针对具体的认知对象,对反映其数量、性质、结构、功能、价值、前景等方面的数据,进行全面的收集、整理、分析、综观和萃取,然后作为决策和实践的根据。由此,使人类的认识变得更精确系统、更全面广泛、更快速有效。然而面对各种数据源收集来的海量数据,究竟如何对其进行归类、计算、建模和解释,却需要高超的智慧。因数据本身始终沉默,需要依赖能动的认识主体的赋予。为此,本文想就大数据处理应遵循的几条原则给予阐释。

  简约原则

  这是牛顿创设的一条“极简主义”的节约规则。在牛顿看来,神奇的自然界在创设过程中选择的简单太原著名的癫痫病医院性和对繁琐的讨厌,使得人类也形成如下观念:“在用很少的东西就能够解决问题的情况下,决不劳力费神和兴师动众”;要始终体现大自然所遵循的简约性、精准性、合理性与有效性。欲达此目的,就需要在云计算或大数据处理中,遵循简约原则,选择有用数据,淘汰无用数据;识别有代表性的本质数据,去除细枝末节或无意义的非本质数据。要能够确识数据之间的巨大差距或差异;要能够鉴别和挑出那些“以一当十”的数据和信息。这种简约原则在大数据的收集、挖掘、算法和实施中的最有效途径,就是对“数据规约”的运用。所谓数据规约就是简化现有的数据集,使得一种小规模的数据就能够产生同样的分析效果。常用的数据规约策略有数据立方体聚集、维规约、数据压缩、数值压缩、离散化和概念分层等,而常用的数据规约方法则主要包含粗糙集、遗传算法、主成分分析、逐步回归分析、公共因素模型分早期癫痫病有什么症状出现析等。运用这些规约方法,就可以获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘效率,使之在实际工作中,可以根据需要选用具体的分析数据和合适的处理方法,以达到操作上的简单、简洁、简约和高效。具体地说,当一位认知主体面对收集到的大量数据和一些非结构化的数据对象,如文档、图片、饰品等物件时,不仅需要掌握大数据管理、大数据集成的技术和方法,遵循“简约原则”和“数据集成原则”,学会数据的归档、分析、建模和元数据管理,还需要在大量数据激增的过程中,学会规约、选择、评估和发现某些潜在的本质性变化,包括对新课题、新项目的兴趣和开发。

  综观原则

  所谓综观,就是对认知对象进行综合性的观察、分析和探索;就是从总体上对认识对象、认识过程和认识结果进行抽象、概括或直觉,并通过具体的信治疗癫痫吃什么药息数据超越那涵盖于总体性中的局部或个别。这种综观既针对构成事物之个体的全部,也针对构成事物的诸要素组成的统一体,以及总体上显现的本质和规律。综观较整体观察更加辩证。它坚持从大处着眼,从总体上去“观其状,求其法,探其道”,以求得解决问题的策略和战略。它坚持整体的具体统一性,凸显认知对象的具体实在性。至于现实中,人们究竟如何对具体的认知对象进行综观,这里需要借助与综观紧密相关的大数据集合的理论与实践。因为大数据集成,既包括对存贮在结构化数据结构中的数据进行移动和集成,也包括对一大部分非结构化数据中的数据进行移动、调节和集成。比如面对复杂的信息和数据,人们就可以将“云架构、实时数据集成、数据虚拟化、数据集成建模”等先进技术用到具体问题的解决中,使用一种根据大数据制作的“可预测模型描述语言”(PMML),为其提供一种快速简便哪治癫痫病治得好的程序和模型。此时,通过使用标准的XML(可扩展标记语言)解析器对PMML进行解析,应用程序就能够决定模型输入和输出的数据类型,及模型的详细格式,并会按照标准的数据挖掘术语来解释模型的结果。通过对大数据的综观、模型化和虚拟化,可以做到花最小气力,获最大效益。特别是数据虚拟化,不仅可以为数据使用者提供极具真实性、完整性和精准性的“实时集成的数据视图”,还可以将来自不同数源的数据信息整合为一,并转化成使用者所需要的图式和模型。因为有些对象,绝不是仅仅用数字就可以解释和认知的,比如人类复杂多变的面部表情,就很难用单纯的数据给予精确表达,只有通过数据集成、智能技术和虚拟技术将大数据虚拟化,使反映认知或实践对象的海量信息和数据,变成一种实时图像或视频供主体观察研究,他们才可能从中获得相关的认识、结论和决策。

------分隔线----------------------------