>教育>>正文

清华教授陈国青:大数据带来的冲击、挑战和机遇

原标题:清华教授陈国青:大数据带来的冲击、挑战和机遇

什么是大数据?

什么是大数据思维?

算法经济时代什么时候到来?

大数据杀熟合适吗?

大数据时代是否应该拥有被遗忘权?

大数据将如何撞击未来?

6月10日晚7点,著名管理学家、清华大学经济管理学院EMC讲席教授陈国青在人文清华讲坛发表主题演讲《大数据:颠覆的力量》,为大家深度解读大数据时代和大数据思维,以及大数据带来的冲击、挑战和机遇。

英国脱欧、美国大选有数据公司的影子

陈国青教授指出,目前从国际形势看,英国脱欧、美国大选对其本国的社会撕裂、国际格局变化带来诸多影响。而在这两大事件中,背后都有一家数据公司的影子,这就是剑桥分析公司。这家公司用数据做选民分析,提供助选服务,它根据收集到的大量数据,包括千万级的Facebook数据,采用国际心理学界著名的Ocean心理模型来刻划选民的心理特征,它能刻划一个人喜欢什么、担忧什么、对什么感兴趣、宗教的取向以及价值的态度等,公司CEO曾表示: “我们可以预测每一个美国成年人的心理特征。”

其他助选公司的服务通常都是基于人口统计学的研究,而剑桥分析则可以从心理视角刻画一个人的心理数字脚印。

数字经济占我国 GDP 已达 34.8%

陈国青教授表示“我们现在处在一个数据的海洋当中”,他列举了交通、电商、社交媒体及移动终端的几组数据:目前中国春运迁徙达30亿人次,2018年双十一的消费规模高达2135亿元,微信每天的发布量总计达450亿条,手机网民达8.17亿。大数据已经能将数据背后的个人、企业和社会的图像展示出来。

“最新发布的数据显示,目前数字经济占我国GDP的比重是34.8%,也就是说,我们的主要经济活动中已经有1/3以上是数字活动了。这是很高的比例。

大数据时代的两个阶段

大数据时代,主要的时代背景是什么?我们现实世界有多大程度上可以被数据表示?“用一个形象的话来讲,我们的社会像素正在急剧提升。这个像素是哪来的?实际就是从到处可见的感测设备而来,这些设备包括探头、智能手机、可穿戴设备、车载设备,林林总总。这些使社会的数字化程度越来越高,数据的粒度也越来越细。也就是说,数字化生活的两个要素之一:像素、数据的粒度已经具备。当像素足够高的时候要干什么?形象地说是成像,就像手机、相机,像素越高成像的质量可能越好,因此,成像是我们数字化生活中另外的要素,像素和成像对应起来,就把数据和算法联系起来了,形成了大数据的时代背景。”

陈国青教授介绍,从商务形态的角度看,大数据时代可以分为两个阶段。第一个阶段是数据商务阶段。这个阶段不断地把现实生活中的要素,人财物都进一步数据化,同时根据这些数据化的人财物进行算法的应用。

第二个阶段是算法商务阶段。当我们像素足够高的时候,我们的重点就变成了成像了,即重点变成算法应用。

数据商务阶段就像做菜一样,数据化的过程就是不断准备材料的过程,不停地增加和丰富材料,然后根据已有的材料提供不同的菜品。但是算法商务阶段是材料已经足够丰富了,“这个时候要比的就是手艺了,你是不是能够做得更好、更多。这就是我们所说的算法进阶及应用创新,如‘智能+’,我们可以用更加高尖的智能技术,包括人工智能的很多技术在现有的大规模数据下进行应用。”

大数据的数据特征

陈国青教授指出大数据的数据特征可以从 4 个维度来理解,即 4V:volume(容量)、variety(种类)、velocity(速度)、value(价值)。

第一,大数据意味着超规模(Volume)。大数据的规模从一般意义上讲具有大规模、海量的含义,但是没有绝对的量纲标准,而是和领域及其问题相关。超规模是指超出了原有领域和问题规模边界的大规模。比如企业大数据,与之前不同的一个地方在于,此时的数据规模常常超越了企业本身传统的内部数据边界,而是延伸到了企业外部,成为一种社会化的企业数据。

第二,大数据意味着多样性(Variety)。富媒体(Rich Media)大大扩展了人们的数字化生活体验,全球数据和数字流量中 80%-90%都是文本、视频、语音、图像,而不是过去以二维的、规范化的、非常简单数据形式为主的结构化数据。

第三,我们处在数据的海洋之中,但与我们企业或个人相关的数据相对说来是很少的,所以是低价值密度的(Value)。即,数据量的分母太大,对企业或个人决策有价值的数据占总量的比例就很小。所以这里有一个重要的含义,即如何从低价值密度的数据海洋中挖掘出有用信息,成为企业数据分析的关键。

第四,大数据的实时性强(Velocity)。数据就像开着的水龙头一样,源源不断地出来。比如上传图片、下载图片,都需要得到及时响应,而不是等很久才能完成。数据是连续的,实时的,流涌的。这种流数据是时时刻刻(Real-Time)的,构成了大数据之“大”和无时不在。

大数据的问题特征

关于什么问题是大数据问题,还要看它的问题特征。

陈国青教授认为,大数据的问题特征主要从三个方面来衡量——粒度缩放、跨界关联和全局视图。

粒度缩放指的是问题的要素是否被数据化了。数据粒度就像一个个小像素,这些像素使得问题的要素不仅能够被描述,而且能够被精确测量,也能够像地图那样放大缩小。如果问题里有人,就需要考虑人能不能通过数据进行测量,如何进行测量。

大数据问题还引入了新的视角,即需要进行跨界关联,将传统视角和边界之外的相关要素纳入到管理决策中。“比如管理学中,传统企业管理最常见的就是怎么把业务流程做好,优化流程,提高质量,同时改进人力资源环节、财务环节,制定企业战略,基本是站在企业内部看不同的部门,站在里面稍微往左看一看是供应商,稍微往右看一看是客户。企业花了很多努力,突然有一天一个人在网上拍了一板砖,说这个企业产品有问题、服务不好,还没有容得辩解,成百上千万跟贴,瞬间就把企业的产品、形象、品牌定格成了某一个形象、某一个状态,然后企业可能还很委屈,因为觉得这些人既不是我的客户,也不是我的员工,他们好像就是原本跟企业没有联系的社会大众,但是他们的口碑却对产品、质量、品牌、形象产生影响。因此,当管理决策的视角不仅是考虑内部,而且要考虑外部和企业相关的因素时,这个问题就开始变成大数据问题了。你要跨界,跨出你的传统边界。”

全局视图则是指问题定义与求解的全局性,强调对相关情境的整体画像及其动态演化的把控和诠释。这需要基于数据分析和平台集成的全景式“成像能力”。

以共享单车为例,通过车载传感器、定位系统以及智能手机终端等设备获得调度和管理需要的“人-车-路”粒度信息;同时打通导航、支付、通讯、商铺以及餐饮等诸多业务功能,实现跨界联动;进而,企业和平台可以从全局出发,形成整体画像,并优化布局和运作,并作出相应的管理决策。这样的话就体现了大数据问题的粒度缩放、跨界关联和全局视图特点。

针对现在社会上存在的“大数据只讲关联不讲因果”的说法,陈国青教授特别指出这种说法存在误导,特别是涉及到人财物的重大决策时,不讲因果是不够的,应该既要讲关联,也要讲因果。

大数据冲击各行各业

比如经济金融领域,传统的股价预测模型考虑收益、风险及企业状况,但是对于影响股价的 “期望”的测量是个难点,因为期望既涉及外部因素环境,又涉及心理预期。现在一个新视角是考虑公众关注,比如通过搜索体现大众对于股价及其走向的关心。“这是一个跟过去特别不同的角度,因为这不是特别专业的角度,它是从专业外人士的行为来估计的角度。看到这种关注和搜索与股价的走势有相当强的关联度。” 将这种新视角融入到专业模型中,可能提升预测效果和模型解释力。

大数据也开始在改变会计学。传统的会计学强调三张报表:资产负债表、现金流量表和利润表,反映企业的运营、偿债和盈利能力。

但对于长周期、高负债、高不确定性的 IT 企业、新行业企业、创业企业等,它们的客户忠诚度、口碑、品牌等无形资产的价值可能挺高,因此传统的三张报表就显得捉襟见肘,所以会计业界和学界提出“第四张报表”来反映相关的数据资产。

大数据也在为体育界带来变革。比如篮球训练中会收集运动员肌肉、血液、心脏、关节、姿势、力量等全景式的数据,以帮助训练更有的放矢,更加精细。冬季冰雪项目的姿态类运动考虑应用大数据技术分析关节、角度、力量等对于高度和旋转等的影响。

在艺术领域,数据已成为艺术家的创作素材,因而出现了新的艺术表现形式。比如飞机航班的数据轨迹就可以构成一幅新颖的画。

哲学中的认识论和方法论也受到大数据的冲击。“哲学认识论要追求探索因果关系,传统范式是模型驱动,也就是说通过刻划变量之间的联系,比如自变量和因变量,通过构建这两个之间的函数关系,比如线性、非线性等等,我们可以知道一个自变量一个单位的变化会导致因变量有几个单位的变化,这里试图反映变量之间的逻辑的因果上的机理。但是,模型驱动范式在大数据时代碰到一些问题时存在局限性。比如,当数据变量的组合数特别多时,当很多变量是潜变量和隐变量时,当很多的变量虽然重要,但是不可测不可获时,还有当数据的样本规模特别大时,这些问题用传统的模型驱动的做法就会比较困难。因此,就出现了一个新的范式转变,催生了大数据驱动范式。这个范式想表达的是,对于管理决策,我们希望能够实现既有关联又有因果的诉求,这个新范式简单地说由外部嵌入、技术增强和使能创新三方面构成。”

历史学上大数据也改变了传统的“自上而下的”史学观,即历史的记录是国家、政治、法律、战争、英雄等。而在大数据时代,历史的记录可以自下而上。比如国家图书馆互联网信息战略保存项目,与新浪微博合作,保存新浪微博公开博文,所有“草根”都成为了历史的记录者,通过自上而下与自下而上的融合,为后代研究当代历史提供了更细粒度的单位和更加广阔的全局视野

陈国青教授特别提到,当个人数据被大量搜集和记录,被遗忘的权利也变得重要起来。所谓被遗忘权是指数据主体有权要求数据控制者永久删除有关数据主体的个人数据,有权被互联网遗忘,除非数据的保留有合法的理由。这体现了大数据对法学界的影响。

此外农业上的精准扶贫、医学上得病和未得病之间的关联、文学上通过大数据技术来进行研究分析等,也都体现了大数据对这些领域的深刻影响。

人工智能的难点是黑盒子问题

对于大家密切关注的人工智能技术,陈国青教授也进行了剖析。人工智能是大数据时代的一类技术,目前的成果是数十年以来研究成果的工程化和产品化。

当前人工智能面临的一个重要挑战是“黑盒子”问题,这也激发了学界和业界对于“可解释人工智能”的攻关。

同时人工智能的出现,催生了人类的“亚种”——机器人,进而也催生了新的学科:机器行为学。传统上我们的心理学、社会学等主要研究人,以及人和人构成的网络,但随着机器人将越来越多地出现在人们的生活中,会越来越多地挑战人们的智力,因此需要研究机器如何塑造人的行为、人类如何塑造机器的行为以及人机协作的行为。

运用大数据要重视商业伦理

陈国青教授特别强调目前隐私泄露、大数据杀熟、App 权限滥用等现象,也促使人们从隐私权、商业伦理、道德、法律等层面思考如何合理地使用大数据。比如剑桥分析公司虽然声称在美国所有的数据都能买得到,但这家公司也因为数据泄露和商业伦理丑闻,最终倒闭关门。

陈国青教授表示当信息技术与管理决策结合之后,就涉及到人的价值观判定,涉及到场景和具体问题,在对数据的利用上也就变得不那么中性了。大数据和其他科技一样,可能成为一把双刃剑,用得好可以服务人类,用得不好很有可能会有副作用。

感测和响应大数据时代

过去近 20 年间,我国网民数量从 62 万增长至 8.29 亿,互联网普及率从 0.03%增长至 59.6%,网站数量从 1500 个增长至 523 万个,上网时间现在达到了人均每天4 小时。

因此陈国青教授特别呼吁大家要感测和响应大数据时代,“我们时代的变化太快,我们应该敏锐地主动地感测和了解这个变化,同时不管是企业还是个人要作出自己的准备和自己的响应,因为大数据作为一个时代会伴随我们相当长的时间”。

“人文清华”讲坛是清华大学发起的大型思想传播活动,推动建设更创新、更国际、更人文的清华新百年。讲坛定期邀请优秀人文学者,在标志性建筑新清华学堂发表公众演讲,阐述其经典学说、独特思考和重大发现。

讲坛于 2016 年 1 月 10 日在新清华学堂正式开启以来,已举办 21 场演讲,此前文学家格非、国学家陈来、社会学家李强、伦理学家万俊人、历史学家彭林、思想史家汪晖、国际关系专家阎学通、国家高端智库国情专家胡鞍钢、心理学家彭凯平、经济学家李稻葵、法学家崔建远、教育家谢维和、中国工业设计之父柳冠中、著名影视评论家尹鸿、公共管理专家薛澜、科学史家吴国盛、文字学家黄德宽、经济学家白重恩、艺术家常沙娜等知名清华人文学者,和74 届雨果奖“最佳短中篇”小说获奖作家清华校友郝景芳都曾来到讲坛分享灼见,与听众交流。返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
陈国青 emc 林林总 富媒体 velo
阅读 ()
投诉
免费获取
今日搜狐热点
今日推荐