第 632 期文章

字级:
小字级
中字级
大字级

数据、大数据与人工智能—运用数据提升企业竞争力

“大数据”是近几年产学界的热门议题之一,但许多人虽然听过“大数据”这个名词,却对于其内涵不甚理解,有的人认为大数据就是“量很大”的数据,更有人以为凡是搜集数据加以分析就是大数据。

 

大数据让你能分析利用来自许多渠道、丰富多元的即时串流信息。大数据对企业贡献良多,其中很重要的一点便是“创新”。

 

大数据在营运各阶段协助公司创新经营的方式,不论是市场调查、产品开发,还是产品上市,都能让企业保持竞争优势。通过本文一起来了解大数据的魅力。

以数据为基础来解决问题

 

要了解大数据前,我们要先了解“数据”,同时了解“数据”、“信息”(Information)、“知识”(Knowledge)、“智能”(Wisdom)彼此的关联性。

 

“数据”是无组织的事实和统计,通常以数字、文字或其他形式存在,例如:某个班上统计同学数学考试的准备时间,分别得到8小时、10小时、12小时等数字,这些准备数学考试的时数就是数据。

 

将数据进一步处理,使其在组织、分析、解释后变得有意义,就成了“信息”,例如上述班上同学数学考试的准备时间的例子,我们可以针对考试及格与不及格的人的准备时间进一步做统计,得到“数学考试及格的人平均准备时数是12小时,不及格的人平均准备时数只有6小时”这样的信息。

 

而“知识”则是对信息再进一步的理解与应用,例如:从上述数学考试及格与不及格的同学平均准备时数的信息中,老师可以得到“增加准备时数确实可以提高成绩”的知识。

 

而“智能”则是指在特定情境下明智地应用知识,做出明确的、基于经验和判断的决策。老师如果知道准备时数可以提高同学成绩,那么老师要如何进行课程和活动的安排,在不增加同学压力和负担的状况下提高他们准备的时数呢?在实际的情境下妥善应用知识,就是智能。通过以上的描述,我们知道,以数据为基础,从数据出发,可以解决很多问题。

 

经常和数据一起同时被提到的是“演算法”(Algorithm),演算法指的是一系列用于解决特定问题或执行特定任务的指令或步骤,例如:线性回归、决策树、深度学习等。把数据加上演算法加上计算(训练与预测)就形成了“模型”(Model),模型可以用来描述或预测新的事物,例如:线性回归模型、决策树模型、深度学习模型等。

 

大数据是数据驱动时代下的产物

 

数据非常有用,数据通过演算法的训练形成的模型尤其有用。可是被用来训练模型的数据是基于样本,而样本有质与量的问题,所以就会产生误差。而经过科学家长期的研究发现,在数据品质可以确保的前提下,数据量越大,某一个变量对于预测的结果造成的影响越小,白话文就是数据越多,结果越准,这在数学上称为“切比雪夫不等式”。在实际上,少量的数据搭配复杂的模型,对于结果预测的准确度,往往不如大量的数据搭配简单的几个模型,后者也是现代数据驱动方法的基础,数据驱动是目前IT领域解决问题主流的方法,也是大数据兴起的原因。

 

大数据不仅仅指的是数据的规模大,它也意味着数据有“多维度”和“完备性”,某些情况下,它也有“即时性”的意涵。所谓“多维度”,指的是一笔数据有多个维度的数据,例如:某个购物网站的一笔购买记录,除了购买者与购买的商品之外,可能还同时记录使用者购买的路径、上站的装置、做成决定所花的时间等数据,由于数据是多维度的,可以分析的角度相对地就比较多,也更有机会产生特别的洞察。

所谓“完备性”,就是让样本数尽可能接近母体,著名的例子是谷歌当年开发翻译系统时,并没有采用传统在两个语言间撰写众多的规则进行转译的方法,而是在两个语言间提供尽可能完备的翻译让系统学习,而经过实测后者确实取得了更好的效果。“即时性”不是大数据的必备条件,但在某些应用上很重要,例如:导航系统,如果没有办法即时取得路况的数据的话,那导航的功能根本无法运作。

 

大数据是在什么条件下形成的呢?主要的原因是网际网络的兴起与移动网络时代的到来,让我们有更多的渠道和设备收集数据,并且在储存与运算成本大幅降低的情况下,我们可以有效地利用这些数据。

 

简单地说,世界充满不确定性,大数据的本质就是要用信息消除不确定性。前面说过,大数据是数据驱动时代下的产物,在数据品质确保的前提下,数据越多,预测结果越准确。

 

 

 

人工智能的来临,是机器还是人类胜利?

 

人工智能早期的方法是模拟人类的行为,但因为缺乏突破,进入了长期的低谷期,直到数据驱动的方法与大数据的出现,让智能问题变成了数据问题。最典型的例子就是阿尔法狗在围棋上战胜人类世界冠军的例子,如果单单只是模拟人类下棋的思路,阿尔法狗是无法战胜人类的。但阿尔法狗在模仿人类棋步的基础之上,又使用强化学习与自己大量对奕,最终通过结合几种不同的演算法与大量的数据战胜了世界冠军。

 

很多人说阿尔法狗战胜世界冠军是机器的胜利,但这其实是人类的胜利,因为在大数据、演算法、计算能力三者大幅进化的带动下,人工智能领域有了突破,进入了全新的时代。所以当我们在探索大数据这个领域时,必须了解到,大数据的意义不在于它能帮助我们把模型描述得更精准,也不在于帮我们把一些规律认识得更深刻,它最大的意义是让机器可以做到一些人类能做到的事,也就是驱动人工智能的突破。

 

我要留言

欢迎您留下联络资讯,我们将由专人与您联系

输入验证码
TOP
在线客服
客服时间
周一~周五 08:30~18:00
400-920-6568
800-820-0168
關閉