零度智控CEO说,目前基于相关技术的无人机虽然已经有了一些跟踪、打击犯罪、恐怖分子的能力,但还不足以识别人脸、精确打击。他解释说,在夜晚环境中,加配人脸识别的无人机想要拍摄到人体必须在50米以内,如要要看清人脸必须在15米以内,这种应用不太适合旋翼机,更适合中高空固定翼侦察机。但他同时判断,这肯定是未来无人机发展的趋势之一。
某AI解决方案架构师与杨建军的观点一致,他以英伟达芯片为例详解了此技术的不可用性。
他称,目前市场上的军用/民用无人机使用的芯片性能应该与Tegra尚存差距。英伟达的Jetson TX2芯片可以支持1920*1080的camera sensor,而用于自动驾驶的DRIVE PX2性能就更加强大,它可以支持12路GMSL 1920*1080的相机。
但是目前基于神经网络用视觉做物体检测的话,如果不对视频尺寸裁剪就在芯片上跑实时推理根本没有可能。也就是说输入1920*1080分辨率不通过crop抠图或者downsampling下采样处理的话,在嵌入式芯片上根本做不到实时的30fps的帧率,所以很多项目在用500*350甚至更小的尺寸去做,尤其在小型无人机上的嵌入式芯片处理性能更低、尺寸更小。
他表示,如果利用无人机单纯识别人脸的话,有个直观的对比。自动驾驶车辆车载前置相机识别红绿灯,如果汽车前置相机离红灯10米开外的话,红绿灯在相机中所占的像素就非常少,尤其下采样后,也就是几十个pixel(甚至更少),如果超过20米、30米或者更远,在像素点更少的情况下,很难通过像素点去识别灯光;
同理,在实际生活中,红绿灯与人的头部大小差不多,在此距离下,无人机在几十米开外很难识别人类面部具体的细节特征;另外无人机的拍摄高度远高于一般监控镜头的设置高度,要拍摄清晰的人脸影像殊不容易;再者无人机机载嵌入式芯片因为考虑的因素众多,会首选低功耗,因此用的多的也是Xilinx ZQNQ的芯片、ZYNQ的性能,所以即使跑AlexNet的256*256这种量级都跑不到实时。
以上所述还在在正常场景下,如果到了晚上或者在其他模糊环境下,用传统CV算法会变得非常棘手,几乎不太可能识别出人脸特征。针对无人机机载芯片很有限,在输入小尺寸的视频情况下,别说是机器,就算是人类的肉眼也很难去识别一个低清画面。
“但以上这种情况可以用技术适当改进,”他同时说道。
1、利用芯片或者相机模组自带的ISP可以做一些图像处理。比如白平衡、自动曝光处理;
2、可以针对夜晚场景做训练,训练网络场景要尽可能多的遍历。
总而言之,单纯的人脸检测难度很大,如果结合一些人体特征的检测可能更好实现一点。不考虑实时处理的话,可以用拍到的高清图片作为网络输入,但是似乎也没什么意义,对于高清图片(1920*1080),芯片大概是1fps这种量级,如果人体在跑步过程中,追踪起来会更麻烦。因此,基于人脸识别的无人机用于识别、跟踪目标非常困难。
而就以上说法,大华股份给出了不同意见。大华股份解决方案工程师张生强告诉雷锋网,目前无人机上已经可以实现人脸识别,客户需求较高的是用于追捕目标和扫描聚集活动的现场(通过控制飞机和云台,对现场聚集人员做扫描式识别)。
整个识别流程如下:假设用于追捕逃犯,首先将逃犯的人脸照片录入人脸库的黑名单,同时派出无人机对逃犯可能藏匿的区域进行空中巡逻,当发现下方出现人员的时候,通过控制机载云台相机对人员进行变倍放大,同时相机做自动跟踪。当提取到人脸信息后,就会自动上传该信息,与指挥中心的人脸库进行比对,当特征值与黑名单的特征值相符时,就会进行报警提示。
张生强透露,目前大华无人机正在测试人脸识别,距离目标100米以内通过相机变倍之后,识别率达到95%左右(日间);另外考虑到无人机作业环境,有可能地面环境没有光线,亮度极低,甚至几乎无光。针对此,一方面,大华考虑使用超低照度的相机,在环境光线比较弱的时候还可以拍摄到比较好的画面;另一方面,考虑在飞机上加载照明装置进行补光。
对于距离远造成的像素点降低的问题。张生强表示,大华无人机的识别比对通过后端服务器设备运行,机载云台具备30倍光学变倍,在光学变倍的范围内,不会存在上述pixel降低的情况。同时,张生强坦承,大华无人机在加配人脸识别时也遇到了一些问题,主要是人脸获取的有效性。他解释说,一般人脸识别相机都是安装在车站、机场等通道或者是入口处,拍摄的角度都是固定的,对于人脸的采集成功率比较高,但是无人机拍摄的画面和角度都是不固定的,最开始的视角不一定能刚好拍到正面人像,需要不断机动飞行。
除了实际应用角度,在算法理论层面,华南理工大学软件学院黄翰教授亦从学术的角度分析了该技术应用在无人机上识别、跟踪罪犯的可行性。
黄翰教授说,目前基于人脸识别等一系列技术应用在无人机上用于反恐、打击犯罪的技术已相对成熟,前提是无人机可以拍摄到清晰的人脸照片,适当的倾斜和角度偏差目前都不是太大的技术问题。
他认为,在电影中无人机轻松识别主角看似简单,其实技术含量不低。这其中主要涉及了视频图像防抖动技术、视频跟踪技术、视频图像人脸检测技术、视频图像人脸识别技术(可以是前端的小型分类器识别,也可以是传回后台进行深度神经网络模型识别)、人体动态识别技术、无人智能集群技术、图像无线通讯传输技术。
视频图像防抖动技术解决无人机飞行中的机械振动造成画面抖动的问题;视频跟踪技术解决侦查对象的跟踪问题;人脸检测解决视频图像中的人脸定位和框选问题;视频图像人脸识别技术解决的就是识别人脸是否是嫌疑人或者跟踪目标;无线通讯技术解决无人机与后台的实时通讯交流问题。
在黄翰教授看来,目前虽然相关技术相对已经成熟,但应用在无人机上还有一些难点,主要是包括功耗高、移动拍摄还有画面抖动造成的噪音等等。他透露,在固定镜头拍摄和无噪声条件下,人脸识别的准确率目前很多主流的工具都可以达到了接近95%以上的准确率。在移动拍摄和噪声环境下要解决的就是如何获得清晰准确画面的技术难题。在这种条件下的准确率就要具体问题具体分析。
另外黄翰教授还向雷锋网解释了基于人脸识别等技术在民用及军用领域的不同之处。他表示,抛去硬件及功能不论,就该技术的实际应用,民用和军用其实差别不大,主要是在精确度和复杂场景下的要求会有所不同、再者就是人脸库的要求也有所不同。
综合以上几位专家所述,基于人脸识别等技术应用在无人机上识别、跟踪打击犯罪、恐怖分子在算法层面已经问题不大,但由于使用场景复杂(夜晚、距离远、耗能高、抖动强等),目前还没有被广泛使用。但从另一个角度看,影视作品大都都是现实场景和方向的缩影,随着无人机在《战狼2》中的大量曝光,人们大概已经窥探到其未来应用在打击罪犯、恐怖分子的影子。