大数据时代,如何成为数据科学人才?

2016-03-09

我今天的主题是给学生、给年轻人讲的,因为我觉得这些是最根本的。即使你管理阶层再好,你找不到人也什么也没有,而对于每个人来说最重要的就是把自己的价值提高,而不是地位,这是两回事。数据科学家的年薪是多少,这都不是我们的目标,也不是成功的标志,这是一种价值的标志。怎么样才能有价值?我们要有能力,谁都想要你,不是因为你是他的亲戚或者学生,他想要你这才是价值,我们要的是价值,而不是所谓的成功。


什么是数据科学?


数据科学有很多很多定义,最基本的定义就是computer science,还有数学、统计、目标、知识,这是最基本的,再说多了就过分了。一般对于年轻人来说,现在不可能到那么细的程度,我们应该变成一个通才,哪个公司都愿意要我们。清华大学之所以现在变成这个样子,就是因为在1952年院系调整的时候,每一个专业就是一个生产线,弄的很细很细,没有一个更宽广的视野。大数据,所谓大就是这个样子。数学关键是逻辑而不是具体的方法,不是你怎么求多项式的根,而是它的基本逻辑,它的数学语言,这一点要懂。数学逻辑是各种学科当中最严格的逻辑,无论你学逻辑的,学物理的,学什么的,文科学逻辑的肯定是不如学物理的,学物理的逻辑肯定不如学数学的,所以你要跟学数学的辩论的话就很困难。文理分科造成没有逻辑的文章,没有逻辑的法官。


数据科学家是做什么的?


对那些高科技公司来说,数据科学家可以挖掘新的信息,帮助公司开源节流。每个公司都是要这样的,所以它需要的是人才,这是关键。我们说数据科学,当然科学也有艺术,这两个都有关系。科学意味着没有权威,不要迷信那些权威,中国人喜欢崇拜权威。任何科学研究的目的是基于数据,颠覆旧的理论,这样才能往前进,所以你必须要有科学精神。


诺贝尔物理奖没有一个是承认过去怎么样的,而是推翻过去的事情,这是科学,是颠覆性的。


什么样的人能成为数据科学家?


如果你擅长数学,有很清晰的逻辑思维能力,有技能组合,就可能当上数据科学家。投票显示,数据分析和数据挖掘是最大的求职法宝。数据科学火爆的原因是,尽管高科技公司都有自己的数据科学团队,但是那些非科技公司和很大的公司也需要做这些东西,他们需要能做这些东西的人。现在关键是人,关键是你们怎么样让自己成为被需要的人。


另外,你是不是做数据科学家的材料?相比专长于任何特定编程语言,泛型变成技巧更重要。最重要的素质就是能快速学习东西。在这个时代技术发展的突飞猛进,语言很快会过时,新的语言会迅速普及,所以学习东西快的人比单独领域的专家更有前途,你有这个潜力你能干什么事。我要看你这个人的潜力,而不是你知道什么。知识再多你也超不过一个硬盘吧?但是硬盘没有创造力。如果你每天花大量的时间编程,分析控制面板上的数据,获得相关知识和信息,如果你对这样的工作感兴趣你就适合干这行。现在我没事就处理编程数据,我看了这个以后觉得自己有点像。如果仅仅是想拿高工资,那可能觉得这样的日子就很苦了。实际上不光是这个工作,干任何工作,即使是坐牢你也要把它当成乐趣。我有一个朋友,他就被上级陷害之类的坐牢了,现在坐牢很容易。他后来就跟我说,他觉得这件事情很享受,就是你怎么看这个问题了。你要是发愁过一天也是一天,高高兴兴的过一天也是一天,所以你要考虑怎么活才合适。


真正适合干这一行的人,会在业余时间里编程序、分析数据,他的目的就是自娱自乐,而不是为了要拿着什么学位,拿到什么样的头衔,最终他自己把自己的价值就提高了。如果你爱的不是数据本身,而是它给你带来的高薪,那你很难跟上来的人来竞争了。要学会干一行爱一行,每个人都应该学会热爱数据,即使是为了自己的事业前途也应该这样想,为了自己的心理也应该这样想。


还需要什么呢?我刚说了,学习能力比知识更重要,欢迎挑战、乐于攀登。如果没有挑战了,没有古怪的数据,我觉得很无聊,有点挑战的我就很高兴,我相信很多人都这样,这样活着才有意义,像猪一样的活着没有意义。你像富二代开着宝马到处飙车,他是找不到活着的意义啊,穿名牌什么的,是让别人觉得你有点价值,实际上别人一看你更没有价值了。马克思的座右铭怀疑一切,在怀疑中成长,我们国家从来不倡导这个,为什么咱们不宣传这个?不要给自己贴标签,就是我学什么方向的,别的不搞,岁数大了,学不会了,很多人都有这样的借口,这实际上是借口,我现在每天都在网上学东西,所以我现在教的东西总是新的,我的书一版再版,我现在大概写了有30本书了,为什么再版,因为我发现原来的有错或者不全面,我一定要把事情说的更透彻一点,说的更好一点。


如何成为数据科学家?


计算机最根本的就是领域知识,你必须了解领域知识,你才能够知道该怎么做


如果你仅仅是一个干巴巴的统计学家,你不了解统计,你可以做很多荒谬的事,不了解实际问题。有一个例子,在医学杂志发表的一个很有名的文章,说如果父母在婴儿房间内睡觉总是开着灯,婴儿就会有高度近视。后来再发现,凡是父母高度近视的,往往有给小孩开灯的习惯。到底什么造成小孩高度近视,现在你们知道的,但是当时的人不知道,所以要有很深刻的领域知识,只有明白目标领域知识的人才能明白它的意义,知道往哪个方向努力,去判断分析结果的可能性。如果没有领域知识主导的人分析肯定有误导,无论什么地位。在中国院士到哪儿都去发表理论,就像金正恩到哪儿都发表指示一样。所以用数据来说话,其他的一切都是废话。我每年看到很多很多的文章,包括一些大赛,这个赛那个赛,好多都是莫名其妙的假定,就连31个省市自治区的数据都假设是正态分布,这31个省市自治区的就不是样本,更不用说是正态分布。


作为科学就这么多内容,对年轻人来说就是要明白这些基本的东西,太花哨的东西就没意义了,那就是扩展了也不是没意义,不要钻进去出不来了。


你离得越远看得越清楚,站得越高了解的全局越好


不要太具体了,不要迷信这些炒作的新名词、新概念,用自己的大脑,用常识判断,想想合不合理。过去某个人的经验是他的经验,不是你的经验,他在特定环境、特定时间有作用,但不是现在。如果你要跟风就意味着永远是跟随,也绝对不会有出息。 炒作没人管,只要有观众给你鼓掌,观众回去一脑袋浆糊,但是每个人自己不能糊涂。第一原料就是数据,什么是数据?照片都可以变成数据。


要有批判性思维


要有基于数据的批判性思维,而不是基于主观经验、权威或者是局部的知识,也不是迎合取宠式的思维。在中国取宠思维很厉害,你说GDP增加多少就是多少,这不是说的,要有人做。工具就是刚才说的能力加计算机系统加泛型。


个人还要有快速的自学能力和对数据分析的爱好


我从来没学过计算机,也没学过计算机编程。英文都没学过,全都是自学的,所以我对自学很相信。现在我教的东西都是最近这几年的东西,我现在实际上比一个全职教师教的课还多,但是我教的东西好多都是前一天网上才出现的,我觉得有价值,第二天就放到课堂上了。只有不断的自学,不断的学习才能当老师。如果你不断的跟学生演示80年前的推导过程,显示你的记忆力好,那不是好老师。


关于快乐


什么人最快乐?被人需要,这是很重要的,就是你得有价值。因为你的专长、能力、善良、尊重、爱心、品质、性格、智力、分享。今天早上他们也讲了,就是在公司里跟人家能相处,至少你得是可爱的。还要关心他人,能让别人快乐的人是快乐的。如果买点东西在宿舍里藏在被窝里吃,那高兴吗?如果跟别人分享的话会更高兴。尊敬别人的人是快乐的,一定要尊敬别人。如果大家都尊敬别人的话,社会上任何犯罪都没有了,因为犯罪都是偷、抢、杀,侮辱别人这都是不尊敬别人的。诚实坦荡的人是快乐的,这就是不能撒谎,永远不能撒谎。还要心胸开阔,不去计较一些小事情。最关键的就是爱人如己,你爱人不是因为他能爱你回来,也不是因为他可爱,而是对任何事情都尊重,这是最根本的一点。如果这点你要做到了,如果人人都能做到,那世界就太理想了。不管怎么样,我希望大家能够快乐。