HDS工程师手记——用“数据”遇见可知的未来

2015-09-14

引言


美国物理学会院士巴拉巴西的《爆发》,在最新的时间、最新的领域,讨论了一个最古老的问题:到底应该用决定论的观点,还是用非决定论的观点,看待人类行为?作为复杂网络研究的权威,巴拉巴西在大数据的新背景下,认为数据、科学以及技术的合力,会使得人类变得比预期中容易预测得多。就象泰勒格迪做到的那样。在日趋精密的数字技术条件下,有了从四处搜集来的信息,我们不会再把人类的行为视为互不相关、随意偶然的独立事件。《爆发》作者的观点:人类行为93%是可以预测的。例如,通过对大量数据的分析追踪和预测每个公民的行踪。比如电梯摄像头拍到你1120分离开了公寓大楼,那么10分钟后在你家附近地铁站的监视画面中就很有可能搜寻到你。这并不只是科幻故事,而更可能是大数据时代人类真实的生存现状。在大数据时代,通过对各种数据的充分了解,预测个体的行为可以变得非常容易。


遇见可知的未来


如果最变化无常的人类行为93%是可以预测的,那么,未来其它的事情是不是也可以预测呢,是不是预测的准确率也能达到93%呢。假设未来能预测93%,我们是不是可以认为我们的未来是可知的,我们能遇见可知的未来?


在不远的未来,未来世界的预测准确率将超过93%,天气能预测准确率能达到93%, 地震能预测准确率超过93%,疾病预测准确率超过93%,甚至股市准确率超过93%。我们的未来就是可知的未来。


有数据才能遇见未来


对于大数据我们期待商业智能,就像我们想吃美味可口的食物,我们需要厨房(分析平台),需要厨师(行业知识和分析算法),但最重要的是我们要有食材(数据),食材才是最根本、最重要的东西。我们要知道数据在哪里,并且知道如何从浩如烟海的数据中挑选出对我们有用的数据。例如食材很多,要能精确的挑选出哪些食材是做宫保鸡丁的最佳食材。


传统的数据仓库技术,如BA存在了几十年,但是它主要是处理结构化数据,主要提供商业分析,而现在发展为BIBusiness Intelligence的英文缩写,中文解释为商务智能。BI最终展现给用户的信息就是报表或图视,数据集合就象玩具魔方一样,可以任意快速的旋转组合报表或视图。从内容上BI除了包含结构化数据,还包含非结构化数据,如互联网,社交媒体和物联网(IOT)数据。这是大数据的特点。


IOT – 是Internet Of Things的缩写,字面翻译是物体组成的因特网,准确的翻译应该为物联网。物联网(Internet Of Things)又称传感网,物联网Internet Of Things)指的是将各种信息传感设备,如射频识别装置、红外感应器、全球定位系统、激光扫描器等种种装置与互联网结合起来而形成的一个巨大网络。其目的是让所有的物品都与网络连接在一起,方便识别和管理。物联网的兴起将带来数据爆炸增长,也将对我们大数据分析和未来社会的预测产生影响。


数据处理的关键- ETL


使用数据最关键是数据梳理 – ETL。从浩如烟海的数据中,提取对我们有价值的数据和信息。ETL,(Extract Transform Load),它实现数据的抽取,转换及装载工作。ETL在技术上主要涉及增量、转换、调度和监控等几个方面的处理:


抽取:将数据从各种原始的业务系统中读取出来。


转换:按照预先设计好的规则将抽取的数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。


装载:将转换完的数据按计划增量或全部导入到目标数据库中。


现在的大数据分析中,ETL是基础也是关键,HDS公司最近收购的Pentaho就能够实现


Pentaho可以将传统的客户信息,交易信息等结构化数据,ETLPDI)到标准的DW库中,也可以将IOT数据,地理位置信息(Location, 互联网和社交媒体信息ETLPDI)到规定的目标中,如MongoDBHadoop中,并且能够集成传统数据和新的社交数据,为大数据分析提供全新视角。


拥有大量的数据,我们可以遇见可知的未来,数据ETL加工、转换、调度和处理是大数据分析的基础,HDSPentaho能够实现各种数据的ETL加工、转换、调度和处理,为企业客户大数据分析助一臂之力。