最近看了「模仿游戏」(The Imitation Game)这部电影,这是叙述英国剑桥大学教授艾伦·图灵(Alan Turing) 当年成功破解德军的恩尼格玛密码机(Enigma)并影响二次世界大战最终成败的真实故事。
图灵被称为「现代电脑之父」、「人工智能之父」,这位天才从被排挤、被误解、再到被无数后人致敬,他精彩、短暂、传奇却又充满矛盾的一生,当然值得我们细细品味。不过我今天想探讨的是其中一个有趣的话题 : 当年德军使用的军用Enigma密码机,据说可以排列出158,962,555,217,826,360,000 (1.5万亿亿种)密码组合,几乎可说是当时世界上最难破解的谜题。但最难并不代表不能,图灵打败Enigma密码机的方法,就是发明了一台能从这些近乎天文数字的组合中不断测试与解译的机器,从一堆杂乱无章的数据中找出蛛丝马迹,进行分析预测与解码。用比较现代的词汇来说,这机器就是电脑的前身,而它分析的内容就是----大数据。
基于MOOC的大数据
大数据 (Big Data) 一词由麦肯锡公司提出以来 (也有一说是IBM公司),直到2012 年《纽约时报》刊出了「The Age of Big Data」一文 (同段时间也刊出「The Year of MOOCs」一文),才算是正式宣告了大数据时代和 MOOC 时代的来临。
大数据至今已经发展出各种专业的分析技术、模型、和各种工具,可惜我不是数学家,也不是统计专家,谈不了这么复杂的问题。我比较有兴趣的是,当所有人谈到MOOC时,几乎无人不谈大数据 (Big Data) 的重要性,但直到目前为止,似乎都是 “想起来很当然,做起来很茫然”,真正基于MOOC提出的大数据研究,依然屈指可数。直到目前为止,MIT提出一份有关 6分钟视频以及讲解语速快一些会直接影响MOOC学习行为的研究报告,已经让我们受益匪浅了,若能有更多这类研究,一定可以更有效提升MOOC的成效。
不过,当我尝试在各种学术期刊论文资料库中搜索有关 MOOC 大数据的论文时,不论中文或英文,资料都非常有限。因此只好笨鸟先飞,野人献曝,抛砖引玉,先从最基本的概念谈起,看看是否能让大家将MOOC大数据应该呈现什么样貌看得清楚一些。
MOOC大数据的五大构面和四种关系
一般谈到大数据,大都会提到4V的特征,分别是 :
Volume (数量) : 大量的数据。基本上就是必须能够采集到足够大量的样本。
Velocity (速度) : 时效性。也就是可以及时地、快速地累积与采集到各种数据。
Variety (种类) : 数据类型。各种不同类型的数据都必须完整的采集。
Veracity (真实) : 简单的说,就是必须筛选并采集到真实且靠谱的数据才有意义。
从MOOC的角度来看,这些 4V特点当然都是适用的,不过,和一般商业活动产生的数据不同之处是,在MOOC上主要就是学习活动与学习行为,因此所有数据都会围绕在以学生为中心的基础上展开。在 MOOC 平台上会有许多的静态数据,例如学生的基本资料、成绩、作业、考题…等,也会有很多的动态数据,例如讨论、学习活动、学习行为等。其中又可分为结构化的数据,例如数字、文字,以及非结构化的数据,例如文档、讨论、视频、声音、图片等等。还好现在 xAPI技术已经渐趋成熟,要采集到这些数据基本上已经不是什么大问题了。
当然,值得探讨的因素还有很多,不过我个人认为,基于MOOC的大数据分析,必须解译的内容不外乎 : 学生、老师、课程及教材、学习过程、学习结果这五大构面。
学生 : 基本的人口统计变数,例如性别、年龄、工作状态、年收入、居住区域等。
老师 : 除了人口统计变数外、学科、专长、年资、教学技巧、表达能力等。
课程及教材 : 学科类别、课程规划、章节安排、教材、作业、考试题目、媒体素材、学习资源等
学习过程 : 所有学习活动的行为纪录,例如分组、互动、讨论、时间、次数等。
学习结果 : 学习后的表现,包括完课率、考试成绩、作业品质、学习心得等。
而在这五个构面之间,可以再深度探讨的是下列几种不同属性之间的关系 :
同质性 (Homogeneity) : 也可称为相似性。例如,大部分完成MOOC课程的学员都有哪些共同点?
异质性 (Heterogeneity) : 或可称为差异性。例如,经济发达的大城市与偏远地区的孩子,在MOOC学习活动的表现上是否有其差异性?
相关性 (Correlation) : 不同因素之间的关联。例如,MOOC视频教材的展现形式与完课率之间存是否存在任何相关性?
相依性 (Dependency) : 两两变数或因素之间的依存关系。例如,是不是一定要老师参与讨论,学生的学习活动才会比较活跃?
若从上述五个构面及四种关系,我们更可以排列组合出无数个不同的变数 (Variables) 及影响因素 (Factors),进而演化成无数个值得研究的MOOC大数据题目。有些很基本,有些很有趣,大家可以尽情发挥,例如 :
中国大陆和欧美国家的MOOC学员,在不同的学科之间,学习活动与学习行为上有什么异同点?
高校学生与企业的在职工作者,在MOOC学习行为与学习偏好上有什么异同点?什么是影响不同族群学生完课率的关键因素?
学生或老师的星座、血型和MOOC上的活动参与度有没有什么样的关系?
老师或同学的颜值,照片的美观与否,和学习活动的参与度或完课率有没有关系?
除了时间长短之外,视频内容的呈现形式,例如录屏画面、情境剧、语音清晰度、背景音乐、画面解析度等形式,对学习行为有什么影响?
课程章节的长短、补充学习资源的多寡、教材类型的种类等等,对不同学习偏好的学生来说,对学习成绩的表现有没有什么不同的关联?
考题的难易、作业题目的安排、是否分组,如何组织安排学习活动才能刺激最佳的学习成果?
当前中国MOOC的发展如火如荼,可说是全世界最迅猛的市场,教育互联网的商业模式奇招尽出,漫天飞舞,但人云亦云者太多,真正能透过MOOC大数据拨云见雾,提出真知灼见的先知,实在太少。
虽然我翻遍了许许多多国内外的学术文献,但我并不打算把这几篇文章写成学术性的论文,因为目前探讨MOOC市场投融资的资料太多,但深入具体讨论MOOC大数据的研究实在太少,我希望能以更浅显的文字启发更多朋友投入到这个未知的领域来,让中国MOOC的发展除了眼前这种浅碟式的凑热闹风潮之外,能激发更多专家和有识之士,透过大数据,让中国MOOC的发展更具深度与前瞻性。
当然,MOOC大数据值得研究的课题还有很多,如果这篇短文能引发更多学术研究的引用和深度探索,那或许也可算是在中国MOOC发展历程中有一点小小贡献了。与诸君共勉之。