为什么不用比特做警犬?
不是“为什么不用,而是根本没法用” 首先把问题放到刑事侦查层面来思考 这个问题的本质其实是:在现有的技术条件下,能否从比特的流动中精准地获取到能够作为线索的信息。 如果这个问题的答案是否定的话,那么再谈什么“必要性”“可行性”都没啥意义了。
当然,如果这个问题的答案肯定(例如,通过AI或者机器学习的方法对网络进行大数据的分析),那这个问题也就变成两个小问题了: 一是什么情况下会需要(或者说,可以基于什么案件情况或侦查对象情况而使它成为必要); 二该如何着手去使用(或者说,如何建立一套方法学来让这种探索成为可能) 这显然是一个值得深入研究的问题,我也非常好奇,因此也会继续深入探讨。
但如果这个问题的答案是肯定的话,那接下来讨论的必要性和可行性就都是无根之水了。 然后我们再把问题放大到安防领域(毕竟这里提到了“警犬”),这实际上是想问: 在非刑事案件的监控预警和防范之中,能否利用电子证据和计算机网络知识,构建一个类似“警犬”的机器体系来完成预警和追踪任务。 我认为是可以的,而且已经在做了。
我所在的团队正在研究基于机器学习的网络威胁预测模型,其基础是构建一个包含特征提取、算法优化、模型评估的完整框架,从中我们可以得到如下启发: (1)特征选择(特征工程)的重要性 要运用机器学习的能力,首先要有可供学习的东西——即特征,如果没有合适的特征输入,任何算法都无能为力。在选择待挖掘的数据时,要同时考虑这些数据对于机器学习应用的价值,即是否含有足够多且适合于机器学习的方法学特征。
(2)训练建模的必要性 无论采用什么样的方法,数据的挖掘一定要建立在数据的量化分析之上,只有经过建模的训练,得到可用于预测的理论公式,我们才能说获得了客观的数据结果。否则,所有的分析都只能是主观判断。
(3)多种方法学的融合 在实际的任务中,往往会综合使用多种方法学,单一的方法学往往无法完全地解决所有问题。如果在探索性的分析过程中发现某种方法学的缺陷或者不足之处,需要及时调整以完善分析。