zhujp Publish time 2020-3-11 04:31:28

科普---大数据

大数据 (IT行业术语)

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
定义
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
全称:
1 Bit(比特) =Binary Digit
8 Bits = 1 Byte(字节)
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte
特征
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量。
复杂性(Complexity):数据量巨大,来源多渠道。
价值(value):合理运用大数据,以低成本创造高价值。
结构
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
应用
洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
统计学家内特·西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
麻省理工学院利用手机定位数据和交通数据建立城市规划。
梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
意义
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。 阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
大数据的价值体现在以下几个方面:
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
(2)做小而美模式的中小微企业可以利用大数据做服务转型;
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
(1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
(2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。
(3)分析所有SKU,以利润最大化为目标来定价和清理库存。
(4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
(5)从大量客户中快速识别出金牌客户。
(6)使用点击流分析和数据挖掘来规避欺诈行为。
趋势
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
趋势六:数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
趋势七:数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
趋势八:数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强
IT分析工具
大数据概念应用到IT操作工具产生的数据中,大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了“所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作”的绝对记录。
大数据分析的产生旨在于IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为,大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。
大数据分析的想法,尤其在IT操作方面,大数据对于我们发明并没有什么作用,但是我们一直在其中。Gartner已经关注这个话题很多年了,基本上他们已经强调,如果IT正在引进新鲜灵感,他们将会扔掉大数据老式方法开发一个新的IT操作分析平台。
促进发展
经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。
《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
《纲要》部署三方面主要任务。一要加快政府数据开放共享,推动资源整合,提升治理能力。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。
2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。
围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。
“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。
此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。
国家发展改革委有关专家表示,大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。
2016年3月17日,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;具体包括:加快政府数据开放共享、促进大数据产业健康发展。

zhujp Publish time 2020-3-11 04:36:09

白酒行业的食品安全区块链大数据时代

“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。

1、大数据技术大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。酒企靠千奇百怪的渠道开发与占有来实现销售,可有几家企业真正对渠道销售进行过细致、真实的销售分析?即使我知道谁在卖,但还是不知道谁在买。酒企应该对于企业不同产品、不同渠道的分析,建立起一个充分庞大而详实的渠道销售数据体系,为企业销售畅通、新品开发、消费者数据收集等奠定坚实基础,这就是大数据时代的销售。谈到白酒行业的食品安全,大家往往想起的是塑化剂事件、甜蜜素事件、勾兑门事件等等,这些负面信息的传递,导致白酒行业被广大消费者误解。而大数据技术,在今天的白酒食品安全工作中,已经起到了不可替代的作用,甚至于可以做到舆情分析,对于负面信息进行提前预警。
2、区块链技术区块链,是比特币的底层技术架构,它在本质上是一种去中心化的分布式账本。区块链技术作为一种持续增长的、按序整理成区块的链式数据结构,通过网络中多个节点共同参与数据的计算和记录,并且互相验证其信息的有效性。从这一点来说,区块链技术也是一种特定的数据持久化技术。由于去中心化在安全、便捷方面的特性,很多业内人士看好其发展,认为它是对现有互联网技术的升级与补充。大数据的技术生态百花齐放,没有哪个软件能解决所有的问题,能解决问题也是在一个范围内,即使是Spark、Flink等。在强调透明性、安全性的场景下,区块链有其用武之地。在大数据的系统上使用区块链技术,可以使得数据不能被随意添加、修改和删除,通过把大数据与区块链相结合,能让区块链中的数据更有价值,也能让大数据的预测分析落实为行动,它们都将是数字经济时代的基石。(1)区块链使大数据极大降低信用成本
  我们未来的信用资源从何而来?其实中国正迅速发展的互联网金融行业已经告诉了我们,信用资源会很大程度上来自大数据。
  通过大数据挖掘建立每个人的信用资源是很容易的事,但是现实并没有如此乐观。关键问题就在于现在的大数据并没有基于区块链存在,这些大的互联网公司几乎都是各自垄断,导致了数据路孤岛现场。
  在经济全球化、数据全球化的时代,如果大数据仅仅掌握在互联网公司的话,全球的市场信用体系建立是并不能去中心化的,如果使用区块链技术让数据文件加密,直接在区块链上做交易,那么我们的交易数据将来可以完全存储在区块链上,成为我们个人的信用紫云,所有的大数据将成为每个人产权清晰的信用资源,这也是未来全球信用体系构建的基础。
  (2)区块链是构建大数据时代的信任基石
  区块链因其“去信任化、不可篡改”的特性,可以极大的降低信用成本,实现大数据的安全存储。将数据放在区块链上,可以解放出更多数据,使数据可以真正“流通”起来。基于区块链技术的数据库应用平台,不仅可以保障数据的真实、安全、可信,如果数据遭到破坏,也可以通过区块链技术的数据库应用平台灾备中间件进行迅速恢复。3、区块链大数据对白酒质量食品安全体系支撑随着大数据时代到来,每瓶白酒的原材料来源地,哪个班组酿制,哪个单位烧的酒瓶,哪台卡车运走,哪家经销商销售,销售到哪些客户等等,这些海量数据都可追溯、可监控。大数据在白酒食品安全上的应用,首先就体现在对于白酒质量食品安全溯源体系的支撑。白酒质量食品安全追溯体系要记录包括产品、生产、设备、设施和人员等全部信息内容。产品信息应当记录白酒产品的相关信息,包括产品名称、执行标准及标准内容、配料、生产工艺、标签标识等。生产信息记录覆盖白酒生产的过程,重点是原辅材料进货查验、生产过程控制、白酒出厂检验等3个关键环节,生产过程控制信息应当记录原辅材料贮存、投料、生产过程控制、产品包装入库及贮存等,生产过程质量安全控制信息包括原辅材料入库、贮存、出库、生产使用、制曲、发酵、蒸馏、勾调、灌装等。这些过程的实现都需要大数据技术的海量数据收集、分析、应用。4、区块链大数据时代人人都是白酒食品安全监督员大数据时代,既是全球、全人类的大数据时代,同时也是每个人都拥有的个人化、个性化的大数据时代。Web2.0概念中,把“个人化”作为互联网核心升级的特征。“大数据”代表着新的变革,本质上是个人化的继续延伸和深入发展。个人的大数据汇聚起来,形成“个人的大数据”。因此,我们可以说大数据是个人化数据,是社会化数据,是个人化与社会化高度结合的数据。白酒食品安全大数据同样也是如此,需要整个社会的全员关注,主动反馈各类数据和信息,才能形成信息逆流,让民意成为执法监管的辅助利器,而不仅仅是表现在牢骚和疯狂转发自己都不确定的信息。因此,个人化与社会化的结合程度更加紧密,是其相对于Web2.0数据构成的重大进化:食品链的微观数据支撑宏观,宏观数据又影响微观数据;数据运动与人和社会活动紧密联结;数据不再按网络的物理结构分布和组织,而是按个人关系和社会关系结构重组。白酒食品安全得到全民和结构化的关注,人人都能够有渠道得到可信信息,并负责任的上传可信信息,大数据对食品安全信息不对称问题才能得以实现。简而言之,也就是说,每个消费者在购买任何一种白酒时,都可以通过手机终端进行“身份验证”和“信誉验证”,当然,在发现有白酒食品质量问题时,消费者还可以用手机进行便捷投诉,而这些投诉的数据又被“大数据食品安全网络舆情指数监测平台”监测和分析,从而形成一个良好的闭环数据循环。伴随区块链大数据时代带来的发展契机,通过历史与当前数据的融合、潜在线索与模式的挖掘、多种数据关联性分析、态势与效应的判定与调控,提高白酒食品安全态势感知、隐患识别、白酒质量食品溯源关联等综合分析能力,加强国家对白酒的食品安全风险管理能力,提升专业、权威的科普服务能力,推动白酒行业健康、科学发展,提升白酒行业竞争力,促进白酒的食品安全监管模式转变升级是我们工作面临的挑战和机遇。

zhujp Publish time 2020-3-11 04:44:03

大数据与墙的故事

一直以来,大数据与商业就密不可分。有了数据就能预测公众喜好,自然谁都想来分一杯羹。但如今巨大的数据流量在全世界传播,如何管理这些数据就成了问题,是把管理权限上交给国家,还是私人企业?
大数据就是金钱!一百六十年前,第一条横跨大西洋的电报沿着摇摇欲坠的海底电缆从英国来到了美国。 它一共由21个单词组成 - 最终花了17个小时才到达美利坚。第一条跨洋电缆今天,同样的讯息,同样的距离只需要60毫秒。密集的光纤网络遍布世界,在全球范围内传播着大量的信息。据麦肯锡全球研究院(McKinsey Global Institute)估计,每一秒钟就有543TB的数据流过国界,其总数据量相当于约1300万份莎士比亚全集。 全球信息交换的速度和数量不是唯一飙升的东西,它具有的经济意义也与日俱增。数据可以说是全球资本主义的生命线。相比于某宝和某东的物流运输,数据的快速流动更有助于提升GDP。换句话说,跨国界的信息交流比运输粮食和生活用品有更高的经济价值。毕竟,数据就是金钱。 这是一场剧变——大多数人还需要时间去消化这一点。但另一方面,“世界第一大公司”——美国就把这个概念理解的很透彻。这就是为什么科技和金融的行业巨鳄们正在努力争取国际上的认可,政府最好不要插手这些价值千金的数据流量。近期可能更新的NAFAT协议就是栗子:来自美国,墨西哥和加拿大的大大们已经决定重新审视网络数据的管理了。美国的一票公司也正在积极游说政府放宽网络限制,让更多数据轻松“穿越”国界。NAFTA即北美自由贸易协定,由美加墨三方于1994年1月1日起生效和实施。商业巨头对国家数据管控的讨伐才刚刚开始。如果成功的话,世界上最重要的资源将会掌握在私人公司的手里。对于商人,这无疑是利好消息,但我们吃瓜群众手上的决定权会一点点丢失,沦为大佬们研究和利用的对象。数据的黑暗面近几年,越来越多的人已经认识到这些数据有黑暗的一面。信息革命也绝不是彻底的自由。数据组成的网络并不能带来民主; 相反,我们应该关心的是谁拥有它以及如何运用它。随着我们越来越多的生活被数据化,控制这些数据的公司变得富裕和强大起来,他们对我们了如指掌,从我们最常用的厕纸到我们最喜欢的18禁视频。他们没有止步于了解我们:随后利用这些信息,结合计算机的算法来推测我们将来的决定 - 例如我们对什么样的新闻买帐(如果你看新闻),或者我们骑摩拜单车常去哪里。在摩拜单车GPS定位和物联网精细化管理下,每一个摩拜用户的骑行次数、轨迹、时长、高频骑行时间等,都变成了大数据沉淀在摩拜单车智能出行共享平台,然后通过云计算等汇总、筛选、分析出更具价值的信息,了解哪些区域的人们最需要摩拜单车,哪些区域则相反;哪个时段人们的出行痛点更多;人们有哪些潜在的产品需求等等大家往往强调这些是私人数据,只为掩盖这样一个事实:数据不仅仅是个人数据,它们是有商业价值,工业价值的。现在的企业无比依赖这些数据,要想盈利,最好的办法就是把这些数据的管理权抓在手上。可以说,全球数据的流通实际上就是资本的全球流通。数据的流动对全球的财富和劳动力具有重大影响。 数据流通使发达国家的雇主能够将更多的工作外包给发展中国家的工人。他们帮助企业协调复杂的供应链,用廉价劳动力来填满制造业的就业岗位。数据的流通也使得一些大公司主宰市场,垄断世界各地的数字基础设施。嗯,说的就是你 谁来管理大数据?企业?国家?出于这些原因,各国政府希望制定有关信息如何跨越国界的规则,例如我大天朝。但“行业龙头”美国就不同意啦,他们认为这样的法律相当于“数字保护主义”,不符合人类发展,甚至促使倒退到分割、互不往来的旧世界,创新、高效和繁荣不在。许多企业也有类似的主张,要求制定数据流量全面自由化的国际协议。互联网协会是代表谷歌,Facebook和其他科技巨头的主要游说团体,他们希望各国政府可以放松数据管制,实现“现代化”的北美贸易协定(NAFTA)。Google就重返中国市场做了许多许多努力。如今Google地图在大陆已经可以使用,相信Google重返中国也不是不可能 根据互联网协会的规定:(1)在信息获得的国家,政府不得要求存储或处理敏感的个人信息等特定数据。换句话说,在中国获取的敏感数据必须存储在第三方国家。(2)政府不应该将Facebook和Google等平台视为发布商,平台也不需要对其网站上显示的内容负责。(3) 政府不应该要求公司披露其算法的秘密,比如:微博热搜。(4)政府也不应该对数字贸易征收任何关税。给各国政府提出这么多要求,的确勇气可嘉。科技公司对于信息的掌握的权力越来越大,与此同时,这些公司也想要大大限制普通群众管理数据的能力,而让这些数据为自己所用。
墙还是不墙?当然,政府对于数据的治理并不总是符合公众利益。它通常有着不同的目的:保护执政。 例如,我们限制数据流量,以帮助政府控制公民可用的信息,同时更密切地关注人民。中国的网络法规不仅仅是控制,它们也扮演着重要的经济角色。通过围绕中国互联网建设围栏,政府培育了一个本土科技产业,就像限制进口制成品可以培育一个本土制造业一样。很难想象,要是一开始没有这样的保护措施,中国的本土科技产业会有多惨。如果Google没有被墙,百度的发展就不会那么一帆风顺。同样地,优酷,阿里,腾讯这样的公司也会举步维艰,难以壮大。那些被墙掉的外网很多人主张数据自由化的主要理由是:高度的数据自由化将丰富整个世界。但是中国的例子似乎证明了这是错误的,“墙”的存在造就了更多有意思的公司。几十年来,美国一直在教育发展中国家自由贸易和自由市场的重要性。然而,正如经济学家Ha-Joon Chang所说的,几乎所有的发达国家都走了完全相反的道路,他们用关税,补贴和其他保护主义政策来维护自己的产业,这才走向富强。事实上,近一个世纪以来,美国是世界上最崇尚保护主义的国家。这并不是说每个人都可以效仿中国模式。管控数据流量是政府的合法权力,保护本土经济也只是众多的原因之一。现在看来,自由贸易还没有引领世界走向完美,那我们也应该对数据流量的完全自由化持谨慎的态度。



zhujp Publish time 2020-3-11 04:53:52

大数据行业生死劫:上万接口关停,大量公司裁员,90%公司将倒闭
发布:2017-09-29 22:54:38    更新:2017-09-29 22:54:38



对于此次洗牌大潮,大多从业者表示,并非坏事。 劣币被驱逐,良币才能沐浴阳光,茁壮生长。 去芜存菁,正本清源,大数据行业的野蛮时代终于结束。


文 | 戈森 零和6月1日,《网络安全法》落地实施已过去三个月,大数据行业结束野蛮时代,进入洗牌期。此前有15家数据公司被调查,此后,名单扩大到30家;多家公司的业务负责人被约谈,他们甚至相互打招呼的方式,都变成了“今天,你被抓了吗”;大量数据接口关停,数据产品停售,导致部分公司开始裁员,一家被调查的公司,甚至将大数据业务完全下架,退出市场。一些公司黯然退场,一些却高调入局——一些有独家数据源的公司,在最近宣布成立。数据行业,正处于二八分流,冰火两重天。01“你被抓了吗?”2017年5月末,数据行业的清理行动开始。据多位知情人透露,“数据堂”多人被警方调查,导致部分数据业务线停摆。此后,数据堂发表声明称,因公司某一客户存在被公安机关调查的情形,公安机关为进一步了解具体情况,向公司个别业务人员及财务人员进行情况了解,不存在“公司高管被抓”的情形;公司业务运作正常。目前,数据堂的官网可正常打开,但“数据定制—数据堂”的网站页面,却无法打开。今年8月,数据堂发布股票停牌公告,称因存在“预计应披露的重大信息在披露前已难以保密或已经泄露,或公共媒体出现与公司有关传司,可能或已经对股票转让价格产生较大影响的”事项,2017年8月14日起暂停转让,预计股票恢复转让日期不晚于2017年11月13日。“公司走了很多人,还有一些人准备拿完年终奖就走”,数据堂离职员工杨青称,“目前,精准营销线和大数据线基本暂停,现在仅靠人工智能一条业务线支撑”。但杨青同时指出:“公司的海外客户,暂时没有受到影响。”这只是大数据行业进入冰封时代的一个缩影。一本财经曾独家报道,15家数据公司被调查,名单中不乏估值几十亿的大公司。据知情人透露,此后,调查范围则进一步扩大,“名单已有30家”。行业一度风声鹤唳,传闻满天飞。头部的大数据公司,都曾传出过CEO或高层被调查的“小道消息”。网传聚信立的高管也被带去问话,业务呈收缩状态。聚信立CEO罗皓不得不站出来辟谣,紧急接受媒体采访:“我敢否认,说明我们没有被约谈。”“实际上,确实很多公司的业务负责人被约谈”,行业资深从业者罗锦江称,为了取证,通常电脑等存储设备也会被拿走。一位大数据行业的CEO听到传闻,另外一家公司的创始人被调查,他急忙在微信上询问:“你没事吧?”对方回复没事,说是谣言。结果第二天,CEO又听到消息,接着再问:“今天你被抓了吗?”“今天你被抓了吗”,这句话一度成为大数据行业高层从业者的问候语。02接口切断几乎行业所有的人都明白,这次数据整顿,是为了6月1日新推出的《网络安全法》预热。“这次是动真格了,毫无容情”,罗锦江称,5月底,很多公司主动将一些敏感业务线停掉。“数据供应商突然间通知我们,业务暂停,但会支付违约金”,某信贷公司的商务负责人陈希称,最先被停掉的接口,就是“三要素”查询。“所谓三要素,就是手机、姓名、身份证”,罗锦江称,以前的价格,“购买一条仅7毛、8毛”。多位行业从业者称,三要素停了之后,大部分公司只提供两要素(身份证和姓名)的“验证”。“把两个信息提供给数据方,对方只会反馈一个是与否的答案”,陈希称,如果符合,反馈“是”,如果不符合,反馈“否”。陈希紧急修改了风控规则,让业务线可以勉强推进,但紧接着,更多的接口被切断。以前一次查询2元的学历数据接口停掉,随后,车辆、住房、公积金等数据接口都全面切断。“我们只能再次修改风控,让用户自己填写用户名和密码,授权我们去相应的页面爬取数据”,陈希称,如此操作大大提高了风控的成本和用户体验,“但合规了”。紧接着,各项“特色”的数据产品也悄然撤下,或开始变得不稳定。而某平台的风控总监郭飞透露发现:“今年年初,百融金服的产品收支等级,查询突然变得不太稳定,缺失率很高”。所谓的收支等级,就是一个人信用卡和储蓄卡的入账和出账记录,并按照等级给出分数,数字远大,金额越大。△ 收支等级产品说明郭飞称,这项数据,是信贷中很有价值的数据,查询一次的价格是2-3元。但至于如此隐秘的金融数据,百融金服是如何拿到的,在业内一直是一个谜团。华道征信的业务员称:“自6月份后,不良信息的查询、资产类,目前我们是暂停服务”。媒体报道,为了规避政策风险,在《网络安全法》实施前,同盾停掉了“失联人修复”服务;中国移动下属全资子公司中移在线,也停掉了“移动三要素”的查询。一边是主动停止合作,一边是客户直接跑单。贷后邦的商务负责人称:“部分客户已与我们达成合作意向,规定一出来他们很害怕,所有关于数据的业务都暂时不接,我手上有一两例违约客户。”大量接口断了后,行业开始了裁员潮。头部的大数据公司,都曾传出过裁员消息。“主要裁掉的,是销售和一些敏感业务线的人”,罗锦江称,大量的乙方公司业务人员被裁掉后,就进入了甲方公司。03艰难求生2012年,马云在网商大会上震耳发聩地喊出:我们将进入大数据时代。那一年,阿里巴巴集团设立了“首席数据官”一职,并推出大型数据分享平台“聚石塔”——这是中国大数据行业开始爆发的信号弹。而大数据行业黄金年代的来临,是在2013年互联网金融崛起之后。大数据和在线信贷相结合,激发了强烈的化学反应。在黄金浪潮中,崛起了上万家的大数据供应商,他们采集数据,进行清洗加工,针对不同的应用场景,再输出不同的产品。“早期,部分大数据公司的商业模式,极为简单,很多都是黑市采买数据后,简单打包,直接销售给客户”,罗锦江将其称为大数据的野蛮时代。“在这里,就是大数据的天堂”,从美国回国创业的某CRO称,刚回国的时候,发现国内数据流通尺度之大,完全超乎想象。在美国,很多并不敏感的数据,都无法用在信贷领域,比如,性别、人种颜色、年龄段,都不可随意参考,不然,就可能涉及“歧视女性、黑人或老人”。滥用的用户数据,让大家就如裸泳一般,毫无隐私可言。持续数年的数据之乱,终于在“徐玉玉”案之后,将行业推到了众矢之的的深渊。这似乎成了诸多行业宿命,总是在鼎盛狂欢中,在利益催化之下,出现浮华泡沫。随后,巨大行业负面爆发,监管如期而至,洗牌来临。校园贷和大数据行业,都是同样的轨迹。行业正在挣扎中自救。曾经很多大力宣传自己是专注大数据的公司,如今,对外的传播口径完全变动。“行业污名化,不想和大数据扯上关系,外面现在都称自己是人工智能公司”,一位从业者称。南京一家大数据公司也在被调查的30家名单中,目前,公司已将大数据业务全部关停,正在谋求转型。“连我们业务员都需要加班加点看项目”,一家数据公司的商务称,公司甚至让他们去找项目,寻找出路。大部分的数据提供商,正在寻找第一条自救之路:数据的脱敏、加密。最常见的方式,就是查询结果的输出上,采取打分制,比如,如果完全匹配,就是100分,如果只有一半匹配,就是50分。而查询不良则是用信息比对,输入名字身份证,输出命中与否。还有一些公司,尝试用技术,保护用户隐私。如拨打催收电话,直接进行加密,只能看到一个加密号码拨出。行业想到第二条自救之路:联合建模。双方开发一套系统,直接放在客户公司的内部,双方共享数据,系统最终输出一个分数或结果。“联合建模,确实解决了合规问题,能够使双方共享数据”,小赢科技首席风控官成少勇指出,从长远角度来说,这肯定是未来趋势,但目前,推进的过程依然困难重重。今年8月,郭飞的公司和一家数据公司合作,对方提出了联合建模,但公司内部引发了争论。“对于我们来说,增加了很大的工作量,我们不可能针对每家数据源都要去做建模,且联合建模的费用是十万”,郭飞称。“实际上,现在大部分的联合建模,数据公司只是沦为一个技术提供商,这个模式太重,”大数据公司CEO林欣称,如果一家数据公司有20个客户,就得有20个建模师。对于双方来说,这个模式重,成本高,为了合规都要付出代价。04行业洗牌《网络安全法》出台后,要获取、使用用户的数据,都需要用户授权。而第三方的数据公司,很难再用这种方式获取数据。林欣认为,这样的公司,无非只有两个命运:要么在原有的老数据基础上,挖掘建模,但这样的产品,很快就会过时;要么就变成技术提供商和咨询商,比如联合建模。但这个命运,也不能让人愉悦。如果变成技术提供商,很难和大的公司合作。因为,大的公司数据和风控,都视为核心部门,很少外包;其次,大的公司对数据提供商也百般挑剔。因此,数据公司几乎只能给小的公司提供技术服务。“大的公司,从6月之后,都要求数据提供商签一个承诺书,确保使用的数据,都是经过用户授权的”,罗锦江称,基本没几家公司敢签字。行业的最终命运如何?“行业90%的公司将被淘汰”,多位行业从业者都下了如此的判断。有意思的是,一边是死亡,一边又是生长。就在9月25日,联通大数据公司成立。“未来,有一类大数据公司能活得不错,就是拥有稀缺数据源的公司”,林欣称。而成少勇也是同样的观点,只有独家、且不断更新的数据公司,才有竞争力,“二八格局已非常明显”。
对于此次洗牌大潮,大多从业者表示,并非坏事。劣币被驱逐,良币才能沐浴阳光,茁壮生长。去芜存菁,正本清源,大数据行业的野蛮时代终于结束。(应受访者要求,文中部分人名为化名)

zhujp Publish time 2020-3-11 04:57:19

从《神探夏洛克》看中西方逻辑对比
古人云:东方有圣人,西方有圣人,此心同,此理同。本文以《神探夏洛克》为视角,剖析中西方逻辑对比以及大数据给我们带来的反思。


古人云:东方有圣人,西方有圣人,此心同,此理同。本文以《神探夏洛克》为视角,剖析中西方逻辑对比以及大数据给我们带来的反思。《神探夏洛克》系列是我喜欢的一部迷你电视剧,精湛的演技,紧密的剧情,都是他出彩的地方,不得不佩服编剧的思维。在其短短的几个小时中,有着许多令人深思的问题。《神探夏洛克》改编自柯南道尔创作的侦探小说《福尔摩斯探案集》,该剧把故事背景从19世纪搬到了21世纪,讲诉的是在繁华热闹,物欲横流的伦敦大都市,大侦探Sherlock Holmes和他的朋友Doctor John Watson破解的一系列危险刺激的谜题案件,这部剧无疑将智慧的力量放大到了极致。中西方逻辑&神探夏洛克现代社会,人们都本着一切“向钱看,向厚赚”的扭曲精神追求,麻木的安稳于快餐式的生活节奏,对知识的摄取远远不及对权力财富追求的狂热,能真正安心做学问又有几人?细想我国历史,春秋战国、三国争雄,以及近代新中国成立前夕的几十年,对于智慧求索,对智慧的运用,才是人类精神文明史上最耀眼的存在。春秋战国,诸子百家,合纵连横,智者层出不穷,凭借着学识和口才,用自己的方式,去追求天下的大一统。三国争雄,亦是如此,良禽择木而栖,贤臣择主而侍。诸葛孔明,躬耕于南阳隆中,却对世局了然于胸,出山之后更是运筹帷幄之中,决胜千里之外。新中国成立前的中国,战祸连年,亦是靠先烈们的智慧换来如今的安定和平。难道智慧只存与乱世,盛世之中智慧就如鸡肋?当然不是,看到剧中Sherlock Holmes和Doctor John Watson,我时常自省,在金钱至上的社会中,迷失了自我,甚至失去了思考的意识,只空想,向往更好的生活,向往更多的财富,虽说没有什么不对,但没有了思考的智慧,只是盲目的跟风,就像农民种植大蒜一样,带来的不是财富,而是债务。市场,尤其是中国的市场,“复制粘贴”成为了常态,更多的竞争不是产品的竞争,而是价格的竞争,其所带来的恶劣影响已不是老板个人挣钱赔钱的问题,其影响的可能是成百上千人的养家糊口的问题,乃至地方经济。智慧是相通的,办案需要智慧,经商需要智慧,生活更需要智慧。大数据的智慧&神探夏洛克在剧中,Sherlock的手机给他提供了很多的信息,天气、犯罪记录、土壤成分等等各项数据,这些资料在现代信息大数据中都可以找到。但Sherlock还是有很多次与流浪者的互动,这就说明了一些问题。随着科技的进步,我们逐渐迈入了大数据时代,网络带给人们极大的便利,经过精密统计的大数据,让人们对自己所生活的环境有了更好的了解,商人对未来公司的走向有了更合理的规划。但大数据也是有其明显的缺陷——“大”。数学的发展,出现了一个新的概念,模糊数学。数学这么严谨的领域都可以不可控,更何况市场。蝴蝶效应就充分说明了这一点。新世纪初,市场的空前繁荣,不可预见的因为一场“非典”而沉寂几年,还有禽流感,多少养殖场老板血本无归。盲目的信奉大数据,有时是会“阴沟里翻船”的。印象深刻的还有第三季的第三集,因为一个人,一个甚至比Sherlock更聪明的人,一个可以威胁整个英国的人——Mr. Magnussen。故事的结尾我一度认为Sherlock是在装作无知,但我错了,这个结尾真的是出人意料——Sherlock选择了最暴力的方式去解决敌人。初想时觉得这是这部剧的败笔,编剧怎么可以这样毁了这部剧!可回头想想,这才是最有效最简单的方式,这才是这部剧的一个亮点,只是被前面的剧情限制了思维。那么,为什么同样是聪明人,结局如此不同?沈万三和和珅不也都是聪明人,沈万三,富可敌国,为朱元璋做了很多事,但他辛辛苦苦挣来的家业在他手里没呆多久,就进了朱元璋的口袋。和珅,权倾朝野,腰缠万贯,一人之下,万人之上,乾隆驾崩后,锒铛入狱,凄惨无比。在叹息他们的结局同时,扪心自问,假如我们拥有惊人的财富、过人的智慧,我们会不会因为自大而失去保护它们的能力?如果没有,那么惊人的财富和过人的智慧只会我们的催命符。人是要有自知之明的,匹夫无罪,怀璧其罪。保持清醒的头脑,莫要为他人做了嫁衣。这才是“大智慧”。
Pages: [1]
View full version: 科普---大数据