按语:上周受邀参加了湖北省公安厅举办的公安大数据论坛,之前并没有把上台演讲当回多大的事,因为这些年讲的也不算少了,说来说去也就那么回事了,所以,就准备拿过去一篇公开发表的论文稍微改改,上台糊着讲讲也就算了。但是,在临讲的前一天,获知有很多基层具体干事的兄弟来听(第二天都要参加一个全省的数据管理员培训班),觉得讲些大路货给他们听有点过意不去,因此就谢绝了晚上的一些应酬安排,一个人呆在房间好好的把公安行业大数据这些年的过往想了想,本来按照套路应该是先写个讲稿再画个PPT的,但是因为时间关系,也算是想有一个新的尝试吧,就直接做了史上最短的六页PPT(一页封面,一页目录,一页封底,真正的内容只有三页),第二天讲了二十多分钟吧,反应似乎还不错,近些日子已经有几个兄弟说能不能把讲稿共享出来,其实真没有现成的讲稿,只能靠回忆略微整理下。当日演讲内容大致如下:
……非常荣幸有机会参加这个论坛,并上台和大家分享我的一些做法和想法。前面已经有几位专家都讲了大数据的技术,还有一些解决方案,但我今天不想和大家谈技术,因为公安大数据应用,肯定是一些成熟技术在这一行业的应用,如果需要进行底层技术的革新,就公安行业目前现状肯定是玩不了这个,刚刚小艾跟我聊天说了一句很经典的话:每一次公安行业的革新都是起源于技术,寄希望单靠技术就能够把工作翻个身,但是,最后的结果往往也是死于技术,或者说被所谓的技术给玩死了。因此,所以我们对此一定要很清醒,很冷静。所以我为今天的演讲定了一个题:大数据的“冷思考”?为何要说冷思考,因为大数据这段时间已经热到了极点,但是,炒概念的要远远多于落地能发挥实际作用的,因此,我们是不是要冷静一点,看看大数据到底能给我们带来什么?今天主要跟大家交流三个方面的内容:
一是对近些年本人参与的所谓的“大数据”的实践进行一个简要回顾;
二是谈谈我眼里的大数据现状;
三是针对公安行业交流一些发展方向的思考。
首先,回顾一下自己这些年所谓的“大数据”历程。
为什么叫“所谓”,因为我自己心里很清楚,从2011年开始从12亿的车辆卡口数据中排查“套牌车”,到目前在想用算法来计算某类犯罪的发展趋势,所接触的,所使用的数据准确点讲应该是“动态的海量结构化数据”。至少跟我心目中“大数据”还有很大的差距。为什么要做这样一个回顾,说白了,怕大家认为我是个光说不练的江湖骗子(此处有掌声)。
第一个案例,套牌车排查。就是在12亿的卡口数据中找出了三百四十五个车牌,这些车牌符合一个特征,五分钟之内在相距十公里以上的卡口被电子警察都拍到了。这是我第一次用HADOOP来进行数据预处理和分析,是在2011年初。
第二个案例,住宿登记。是在2012年的夏天,我忽然想看一看,坏人们登记住旅馆有没有规律,因此我找来了在押人员数据,汇聚了大约5个多亿的旅馆数据,同样用了“HADOOP+ORCLE”的套路,发现有盗窃前科的坏人都喜欢在半夜2点和凌晨六七点去开房,而且是19岁到23岁为主,还更倾向于床位数在50个以下的中低档旅馆,等等。
第三个案例,是特殊人员的监控。同样是通过车辆轨迹,判断人员的相应状态,因为这个话题比较敏感,就不详细跟大家阐述了。
第四个案例,我把它成为“流窜车”排查,简单讲就是基于存储在异地的海量数据,进行分布式的交叉比对,目标是找出发案前后1小时在A市活动的车辆,同时在4小时前后该车又在B、C等市活动,如果这些车辆的涉车人员为此类案件前科,那流窜犯罪的概率就相当大了。
以上就是前期做的一些工作,其实回顾起来也没有什么感到很特别值得骄傲的,如果说这些年我们参与大数据这项工作还有那么一点点骄傲的话,那就是在这个过程中,包括一些争论中,我们逐步形成的一些行业大数据应用的思路、理念,甚至一些看起来都有点不着边际的想法。
其次,谈谈我眼中的现状
本人比较喜欢古诗,最近经常和我儿子一起背唐诗,我就用四句古诗来形容一下我们所面临的现状:
第一句,天街小雨润如酥,草色遥看近却无。这是我用来形容目前的大数据的整个大环境的,“天街”是什么?是京城!京城的小雨非常滋润对不对,非常美丽,国家出台的大数据发展纲要,各个部委办局都很积极,昨天在飞机上还在拜读环保部的大数据方案,但是,这些只能远观不能亵玩,落到地面,落到基层,却只能是“近却无”,为什么?缺少具体的实施方案,缺少具体的落地案例,应用层没有享受到大数据能带来什么好处,只是听到一片关于大数据的呼声。最近微信圈了都在转一篇文章,发展大数据不要一味追求数据规模大,要“应用为先”,这是李国杰院士写的,大家想一想,只要是搞IT,搞软件的都知道,我们要以应用需求为导向,这是个搞软件最基本常识,但是这个常识现在需要一个院士来呼吁,可想我们的面临的现状有多么尴尬。
第二句。白发三千丈,缘愁似个长。这是我用来形容公安行业的,三千丈很长很长,诗人用了夸张的手法,公安行业的数据也在用这个手法,经常看到一个地市的汇报材料就在说,我们有两百多亿条数据,甚至可以精确到个位,且不论到底有没有这么多数据,你先能不能告诉我这个Oracle 11g的OCP,你是用什么方法把数据的条数最后累加到百亿量级的,还是过一段时间加一点来估算估算的(此处有笑声)。所以,公安行业的数据现状并不是非常的乐观,所以我会看到一些有见识的领导在发愁,号称是坐在数据金矿上,但是心底还是缘愁似个长。
第三句。我本将心向明月,奈何明月照沟渠。这是一句很有意思的诗,念到这首诗我就会想起《天下无贼》的那个桥段。这句是用来形容目前公安行业的数据管理现状的,我们经常讲,信息化是三分建设,七分应用,十分管理,十二分的数据质量。这句话就是跟后两者有关系,上级管理部门的出发点肯定都是好的,建系统,推应用,推不动怎么办?最有用的一招就是出台考核办法,不考核大家不干,但是一考核大家就开始乱干,目前公安机关的可信的数据有多少,我经常会举起一只手,非常夸张的说,不超过一只手,110报警是真的,这是老百姓打过来的,在押人员是真的,这个作假自己是也要被关进去的,还有多少数据时真实的,我们的巡逻盘查数据真实吗?暂住人口数据能反应真的暂口情况吗?还有案件数据能说明社会面发案情况吗?不能!所以说,明月最后大部分都照到沟渠里去了。
第四句,竹外桃花三两枝,春江水暖鸭先知。前面三句把面临的形势说的都很悲观,第四句要涨涨士气,在大数据应用的方向,我们很多地方已经开始了积极探索的步伐,像部里的云搜索,还有那个国家啥平台,包括一些省厅,市局,都已经在开始试水大数据应用,在所有的这些探索中,我最关心的就是打击违法犯罪这一方向,群众看公安,关键看破案,公安信息化,公安大数据,首要是要解决破案问题,连坏人都不去搞,都搞不定,天天喊互联网+有什么用,天天喊为民服务有什么用,那是本末倒置。所以,从前面我试水的几个案例看,也是在朝着打击违法犯罪的方向去发展,这一切都在表明,公安行业的大数据春天已经来临。但是这个春天不是我们坐等能等来的,需要一批人去思考,去探索,就像刘禹锡那句诗,千淘万漉虽辛苦,吹尽狂沙始到金……
最后,关于下一步发展方向的思考
第一,以应用为导向。我们行业的大数据应用不是搞底层研发,是要解决实际问题,大数据在公安行业现实的应用场景到底有哪些,这是我们要好好思考的问题。我结合前期实践认为,至少目前三个方向是可行的,一是规律总结,二是人物刻画,三是趋势预判。这个分类可能不是很合理,可能是有交叉的地方,但是,这三个方面是具备实践条件的(具体案例略)
第二,关于数据以及来源问题。这个问题非常关键,大数据没有可信的数据支撑,就会精确误导,靠考核,靠层级压迫,靠搞大规模会战去搞数据,显然是不能满足大数据应用的需要的,目前我们具备大数据的特征的数据有:
1、“人车物”轨迹,时间、空间与实体形成动态轨迹,是一项很好的大数据源头;
2、行为日志,这个与系统日志,数据库日志有相同之处,但又不完全相同,举个例子,我最近做了个基于手机的考试系统,十道题,是可以自己在家做的,因此所有人交上来都是满分,但是,我记录了两道题之间的时间,结果我发现第三题有80%的人都等待了一分钟以上,而其余的题点的都很快,虽然所有的人第三题结果都是对的,但是我告诉负责培训的同志,第三题是薄弱环节,很多人需要强化这方面的知识培训。这就是行为日志的作用。
3、音视频,这个就不用多说了。
4、传感器,没有传感器的大规模应用,就不要谈啥大数据,这是我很久以前就说的观点。
5、社会民众参与。这一点很多人都没有觉醒过来,公安行业玩大数据,不能光靠自己的力量,要学会打人民群众的汪洋大海战争,找到社会公众、包括其他单位部门的利益驱动点,发动大家来参与,围绕数据做文章,特别是学会跨领域使用数据。(几个案例略),关于大数据应用的数据来源问题,我还是用一句诗来形容吧,大数据背景下的数据,都是那种“随风潜入夜,润物细无声”
第三,关于智库的共建与共享。找公众过程中,大家都会产生一些创意,我们要把这些创意集中以来建库管理,要进行归类、分析、优化、整合,最终形成大数据应用的一个知识库(智库),这个知识库是开放式的,是可以去共享,大家可以去评价,去推荐的。(案例略)
第四、关于工具手段支撑。最关键的几个,简单算法在公安行业的落地,所谓的大数据应用一定是无数的数据加简单的算法,这是一个目前已经证实的可行套路,大数据应用在业务逻辑层面不要去想的太复杂。基于大数据的建模工具,这个就不多说了,我也一直在搞这个事情,其中重点包括数据资源组织与预处理、分布式计算、流式计算等内容。还有就是模型的标准化,这个也不是一句话两句话能讲清楚的,大致意思就是大数据的模型一定要做到可复制,可扩展,可移植,这样才有应用的生命力。
最后,强调一下整体的数据管理架构。由于时间关系,也不展开说了,我眼中的大数据应用的整体架构,应该是一个“混搭”型模式,从最底层的,数量最多的非结构化数据,到中间层的半结构化数据,再到顶层的结构化数据,分别有不同的工具、不同的方式来处理。但一条主线就是努力使更多的非结构化数据往结构化数据的方向走,这也是人类社会依托计算机这一工具来认识世界、理解世界的一条必由之途。
最后,用我和业界一位大哥级人物的对话结束今天的分享。这位大哥说:当哪一天公安行业不谈到大数据的“大”字时,这个行业就真正理解了大数据。我说:现在我是个商人,当商人不谈钱的时候,他就开始赚大钱了。谢谢大家。