金融、交通、医疗、互联网、物联网、人工智能,大数据几乎已经覆盖全行业。2017年国家大数据战略的发布,让大数据已经从遥远走进群众的生活中来。未来是大数据的时代、是人工智能的时代、大数据将直接影响社会发展、国家治理、甚至是人类文明。
就是大数据越来越接近群众的时候,质疑开始发声了!从微信聊天信息“偷窥”到支付宝年终账单,越来越多的人开始担心自己的隐私被泄露,甚至有人开始担心大数据时代的到来是不是将不再有隐私可言。每一个新生事物的出现、爆发都会伴随着质疑。今天让我们带着疑问一起走进大数据,了解大数据。
网易云音乐听歌历程、支付宝年度账单、高德地图出行轨迹……2017年底,多个互联网企业平台使用大数据分析,推出对用户日常使用的“总结报告”钱花在哪儿了、2018年的运气怎么样、都听了什么歌、去了什么地方……大数据似乎比用户更了解自己。从而让越来越多的用户感新奇的同时又有一些担忧。
工信部发布的《大数据产业发展规划(2016—2020)》指出,目前大数据仍存在应用领域不广泛、应用程度不深、认识不到位等问题。为解决更多需求痛点,大数据亟待打通行业发展水平参差不齐、应用领域不平衡、业务融合不深入等堵点。
赛迪顾问股份有限公司大数据产业研究中心的统计数据显示,互联网、金融和电信三大领域的大数据应用在各行业总规模中所占比重超过70%;健康医疗领域和交通领域近年不断“上架”新应用,但行业规模占比相对较小;而其他众多民生领域,大数据应用仍处于浅层次信息化层面,行业发展水平参差不齐。
上海普陀区全面推广“社区治理云平台”系统,基层大数据让社区服务“掌上”可得;全国首个旅游大数据公共服务平台“杭州旅游数据在线”上线,游客通过手机便可了解景点实时拥堵度、酒店好评率等信息……总体上,东部地区的大数据应用“刷新”更快。赛迪顾问统计显示,北京、江苏、浙江、山东、上海五大省市的大数据产业发展领跑全国,而云南、吉林、河北、内蒙古、广西等省区则相对滞后,大数据应用区域发展不平衡的问题不容忽视。
大数据的价值在于应用。“玩转大数据”的关键,在于大数据技术与业务实现深度融合。“目前,大数据在多个行业尚未与业务实现深度融合,应用场景创新不足,大数据技术人员需要提升行业业务知识和经验。”数据技术与应用服务商百分点首席数据科学家杜晓梦表示,国内很多行业仍仅在局部业务上使用大数据技术,仅掌握数据挖掘和分析技术,如不能将技术与业务全面、深度地融合,则无法完全发掘出数据应用的真正价值。
《大数据产业发展规划(2016—2020)》提出,到2020年,大数据相关产品和服务业务收入突破1万亿元,年均复合增长率保持30%左右,大数据在创新创业、政府管理和民生服务等方面广泛深入应用。未来如何在搜集、储存大数据的基础上更好地整合、分析和应用,将成为优化“数据大脑”的重点课题。
大数据的生命力,在于发现问题、感知风险、建立连接、解决问题以及预测未来。目前国内的大数据应用侧重于数据收集,在基础统计分析、风险感知和预测方面还有较大提升空间。同时,也不能在尚未明晰具体业务应用场景的情况下盲目追求大数据,而要以应用场景为牵引,只汇集不分析或者片面追求大而全,都不利于大数据发挥其对生产力提升的促进作用。此外,在大数据广泛运用于创新创业、政府管理和民生服务等方面的同时,也应认识到:大数据对社会的冲击有多大,社会对于大数据发展的回应、规范和约束就应有多大。 ——清华大学新闻与传播学院教授沈阳
2018年初,对大数据时代个人隐私安全的担忧再度升级:微信官方表示,不会将用户任何聊天内容用于大数据分析;支付宝因用户查看年度账单时“被同意”收集个人信息,被国家网信办约谈;百度则回应江苏消协称,旗下手机应用没有能力、也从来不会申请监听用户电话。
数据作为大数据产业中的核心资源,已成为各家企业、平台的争夺对象。为采集数据,众多网站平台、联网设备、应用软件“各出奇招”。有网友质疑,连手电筒应用都要求读取手机通讯录、使用麦克风和摄像头,实在不合理。
“究其原因,是因为数据变得值钱了”。九次方大数据创始人、贵阳大数据交易所执行总裁王叁寿说,大数据是海量数据的聚合,没有数据,大数据如同无源之水。合法企业通过用户数据提供精准、便捷的个性化服务,从而实现商业变现,让大数据产业有利可图。
除了政府开放的数据和企业自身收集的数据,数据交易也是数据的重要来源,但也在某种程度上催生了黑色产业链。据业内人士介绍,正规数据交易市场的交易额约为100亿元,而数据黑市的交易额度则庞大得多,盈利状况也很好。
王叁寿介绍,正规交易的数据需要经过采集、清洗、脱敏、脱密、融合等流程,保障了数据的合法性、真实性和安全性,成本也相应提高。但黑市交易的大部分数据多由内鬼或黑客窃取得来,几乎是无本万利。比如,正规渠道的人脸识别数据价格为每条0.1元,而黑市上只需花1分钱就能获取同样的数据。
去年3月,某知名电商内部员工被捕,因其涉嫌盗取涉及交通、物流、医疗、社交、银行等个人信息50亿条并在网络黑市贩卖;去年11月,深圳警方在华强北某投资咨询公司查获上千份公民征信报告,循线追查出售卖者为某商业银行深圳分行信贷部职员。2016年发布的一项调查研究结果显示,近七成企业曾在过去一年内遭遇公司内部人员窃取或试图窃取数据。
大数据技术不断创新演进,传统网络安全技术也面临严峻挑战。《中国大数据发展调查报告(2017年)》显示,企业在选购大数据软件产品时,产品安全性和稳定性成为最重要的考虑因素。业内人士指出,大数据背景下的攻击者通过人工智能、机器学习等新技术对攻击工具进行升级,提高网络攻击的精确度和隐蔽性。安全保护技术手段亟待强化更新,构建更可靠、更有效的大数据安全保障技术体系。
网站和手机应用越界收集用户数据,根本原因是为了追逐商业利益。企业收集用户数据时,要尊重用户的知情权、退出权和自由选择权。要明确大数据和个人信息之间的关系:个人信息属于隐私权范畴,而大数据一部分来源于个人信息,但本质是知识产权。
现阶段,数据黑市问题严重,反映出《网络安全法》落实尚未到位,在制度上、人员上、技术防控上还有很大差距。立法不代表问题完全解决,还要加大力度、严格执行,技术上也要配合跟进,一步一个脚印,切实提高网络安全水平。
——中国政法大学传播法研究中心副主任朱巍(记者 吴姗 钱一彬 董丝雨 王玉琳 许晴 宋静思)
我国信息数据资源80%以上掌握在各级政府部门手中。近年来,在《关于推进公共信息资源开放的若干意见》《政务信息系统整合共享实施方案》等文件的推动下,政府数据加快共享开放的步伐,惠民成绩单亮点不断。然而,由于我国大数据发展还处在起步阶段,不少基础性、关键性数据仍被政府部门束之高阁,共享开放程度低,成为现代化治理进程中的“路障”。
有效的数据收集是实现共享与开放的基础。据贵州省大数据发展管理局相关负责人介绍,部分政府部门在数据收集的过程中,由于缺乏统一的标准,收集到的数据虽然量大,但质量不高,可利用价值低。
由于目前数据共享开放的法律、政策环境尚不成熟,一些地方政府职能部门评估信息是否要开放等问题时,往往有所推脱。如果数据毫无关联地沉淀在各部门的信息系统中,缺乏共享开放的意识,甚至把数据资源视为“私产”,就会造成条块分割、重复建设,形成壁垒森严的“信息孤岛”。据此前媒体报道,长江上游地区一些省份的交通管理部门、运输公司不愿与其他省市共享物流信息,造成联运衔接的信息壁垒,甚至出现了同样1吨货,百公里公路运费比经济发达地区高60元的现象。
供给与需求脱节也让数据共享和开放效果打上折扣。截至去年底,广东省全省87个省直部门有6988类数据资源、62332项信息项,居全国各省(区、市)首位。但各部门提出共享需求仅3649类,省级编目共享仅477类,数据难以真正发挥利民惠民、支撑政府决策的作用。
此外,尽管部分数据已接入共享开放平台,但由于不能被机器读取,成为无法释放应有活力的“休眠数据”。《2017中国地方政府数据开放平台报告》显示,截至去年4月,全国19个地方政府数据开放平台的8398个开放数据中仍有约25%的机器可读性较差。
去年12月6日召开的国务院常务会议提出,提供公共数据是政府公共服务的重要内容,要求对分散、独立的政务信息系统加快清理整合,统一接入国家数据共享交换平台,并依法依规向社会开放。如何继续加快数据共享开放的进程,让群众真正享受到数据共享开放带来的红利,是未来大数据工作的重点和难点。
当前我国政府数据治理发展不充分、不平衡有多方面原因。
首先是认识问题,没有认识到数据治理对提高执政透明度和促进经济发展都有积极意义,反而认为没有直接的政绩产出;其次是责任问题,安全风险和问题追责等都影响政府部门开放数据的积极性;第三是利益问题,一些人认为共享开放数据,将导致原有权力或既得利益受影响;第四是能力问题,有没有物力财力可以投入,这是经济能力;有没有专人专岗协调,这是行政能力;有没有成熟技术可以快速应用,这是技术能力。
——北京大学政府管理学院副教授黄璜