【AI创新者】小蚁首架张骏峰：让图像AI人尽可用转载

首页 > 代码库 > 【AI创新者】小蚁首架张骏峰：让图像AI人尽可用转载

【AI创新者】小蚁首架张骏峰：让图像AI人尽可用转载

2024-09-09 07:03:46 230人阅读

张骏峰，小蚁科技首席架构师，负责小蚁AI图像相关算法架构。主要包括：小蚁智能摄像机的智能报警服务、小蚁智能行车记录仪的辅助驾驶ADAS服务、小蚁运动相机App的图像风格迁移技术以及小蚁微单App的图像视频编辑技术。其团队包括移动开发、前端、后台、算法，成员分布在北京及以色列。张骏峰于2015年加入小蚁，此前，张就职于微软长达14年，参与过Windows, .Net Framework, MSN, Office, Lync, Skype等产品的研发工作。

技术分享

小蚁科技成立于2013年，是一家年轻的互联网硬件企业。小蚁专注探索智能、可穿戴、移动化的新型视频类智能电子产品的开发，产品包括小蚁智能摄像机系列、小蚁行车记录仪系列、小蚁运动相机系列、小蚁微单相机等智能硬件产品，以及和谷歌合作的YI Jump 360°3D VR拍摄设备。同时，小蚁还有一系列的移动应用和服务，帮助用户更好地使用小蚁设备。

技术分享

CSDN：骏峰您好，小蚁的产品主打视觉。那么首先请您向大家介绍一下，在小蚁智能摄像机上，与AI相关的技术有哪些？

张骏峰：我们在小蚁智能摄像机上提供了多种智能服务。

智能报警

大部分的智能摄像机都提供移动侦测服务。当摄像机检测到画面有大幅变动的时候，服务器会向用户推送一条报警消息。

小蚁智能摄像机提供了同样的服务，同时，在报警的时候，向服务器上传了一张图片，和一段6秒钟的视频。这样即使有人把摄像机拿走了，用户还是可以看到发生了什么事。

传统的移动侦测方案，灵敏度是一个很难解决的问题。如果灵敏度太高，用户会收到过多的无效报警，可能会错过重要信息。如果灵敏度太低，会有重要事件发现而用户收不到报警的情况。我们提供了一个拉杆，用户可以在高，中，低灵敏度选择。

我们还提供了一种人形检测的升级方案。当用户把这个升级方案的开关打开后，如果检测到画面有大幅改动，摄像机会继续对画面进行进一步检测，只有在摄像机认为画面中有人，才会通知服务器给用户推送报警信息。这样可以大大减少误报的情况。

小蚁智能摄像机还提供了宝宝哭声检测。如果摄像机检测到持续的宝宝哭声，也会向用户推送报警。

手势识别

小蚁智能摄像机还提供了手势识别功能。当用户在摄像机面前做出“摊开手掌-然后握拳”的组合动作时，摄像机会自动录制10秒视频，推送给手机App用户。我家小孩特别喜欢这个功能，有事没事他就会试一下这个功能，然后给我表演一段僵尸舞。

选择“摊开手掌-然后握拳”这样一个组合，是为了减少误触发。

我们还在研究其他AI技术，比如人脸检测，人脸识别，物体识别，如何经济实惠地让这些新技术给用户带来价值。

技术分享

CSDN：除智能摄像机之外，小蚁也发售行车记录仪。那么在小蚁行车记录仪上，与AI相关的技术有哪些？

张骏峰：我们在小蚁行车记录仪上为用户提供ADAS智能安全提醒系统，有效提供安全提醒并实时纠正驾驶行为。主要是两个功能：车道偏移预警，前车距离监测

车道偏移预警

当车辆在高速上行驶时，如果行车记录仪检测到车辆偏移道路时，会提醒用户车辆已经偏移道路。

前车距离监测

行车时，如果行车记录仪检测到离前车距离越来越近，超过一定阈值时，会提醒用户注意保持车辆距离。

CSDN：在上述两种产品的模型训练过程中，训练集与测试集从何而来，采用何种网络及框架，在系统调优方面有何技巧？

张骏峰：开源的数据集和开源代码提供了基础的训练集和测试集。

但是这样的数据集训练出来的模型，放在小蚁的产品上，出来的效果不是很满意。

我们是有一批内测摄像头，免费送给用户。用户看到有意思的情况，分享给我们。内测用户很多是小蚁员工。我们根据用户提供的数据，调整模型，更新算法。

在实际产品上，我们采用的是一种“端+云”的混合方式。端上先做一部分筛选，云上再做进一步的处理。

限于硬件的计算能力，端上目前是用传统方法处理。

云上，我们现在使用的是YOLO模型，基于我们自己的情况，做了一些优化。

技术分享

CSDN：您认为图像分割、物体识别、目标跟踪这一系列技术的难点在哪里？

张骏峰：我们遇到的困难主要有两点：1.数据，2.优化

数据

虽然现在有很多开源数据集，但是，这些数据集是被用于学术界创新和研究的benchmark数据集。这些数据和真实场景下的用户数据差别很大，场景也不足够丰富。用开源数据训练出来的模型，识别率往往不够理想。因此，真实场景下的海量标注数据集是非常关键的。

小蚁产品的用户量很大，用户使用小蚁产品的场景各种各样，环境也各不相同。有些用户的使用场景也让我们大开脑洞。限于我们的人力物力，我们优先处理主要用户场景。

优化

如前所述，小蚁采用的是一种“端+云”的混合方式。不管是端还是云，优化始终是我们最大的挑战。

在端上，由于硬件限制，无法运行深度神经网络，我们目前使用的是传统方法。即使这样，如何更快的处理视频，也是很大的挑战。

在云上，我们用GPU服务器运行深度神经网络，费用很高。小蚁的用户量很大，用GPU服务器处理，成本压力很大。

我们迫切需要技术的发展，能够把不影响准确率太多的前提下，把处理成本降下来。

CSDN：除了小蚁目前正在做的，您对图像跟踪、识别这一系列技术的落地方向还有何构想？

张骏峰： AI技术现在已经很强大了。AlphaGo颠覆了人们对AI的理解。人脸识别的准确率不断被刷新。但是，AI用到真正的场景上，还是非常困难的。首先是数据问题。上面已经讨论过了。然后是模型的训练调参。这也是一个非常漫长痛苦的过程。然后是模型的验证。周而复始。由于这些问题，AI技术现在做好一个场景，需要花费很大的精力。

期待有一天，AI技术可以做到像使用AWS API这样简单。

技术分享

CSDN：自从生成网络火爆，图像风格迁移的APP便层出不穷，但似乎都还仅停留在娱乐层面，没有向更深更实用的方向发展，那么小蚁做AI艺术这个应用的初衷是什么，下一步将踩在哪里？

张骏峰：小蚁除了硬件产品，还有很多相配套的移动应用配合硬件产品。其中，小蚁运动相机/小蚁微单App提供了完整的硬件控制，图像视频编辑，社区分享的流程。我们一直在思考如何让用户玩得更好。

2015年底我们已经知道风格迁移的论文，并且做了尝试。那时候我们没有GPU机器，用cpu来实现处理算法，处理速度非常慢。尝试过一次后我们就放弃了。

Prisma的火爆，让我们意识到在风格迁移是可以有很好的移动用户体验的。我们开始使用购买GPU机器，用GPU来实现风格迁移算法。幸运的是，那时候已经有好几篇论文，把风格转换的速度提高了很多。我们在前人的基础上，实现了我们自己的风格迁移算法，应用到小蚁的移动应用上。

小蚁AI艺术上线的时候，正好赶上微信小程序即将上线的消息。我们立刻组织人员实现了小蚁AI艺术微信小程序版。由于时间紧迫，我们在最后一个星期六才提交审核。幸运的是，我们的小程序一次审核通过，得以在小程序放开的第一天，让用户使用。大部分使用过小蚁AI艺术微信小程序的用户，反馈都是非常正面的。在几乎没有推广的情况下，上线第一天获得了超过20万的使用次数。

我们最早上线的小程序只能处理图片。春节之后，我们更新了一版，最新的小蚁AI艺术微信小程序可以处理小视频。相信用户用小蚁AI艺术处理过小视频后，会有更深刻的感受。

现在的小蚁AI艺术，从用户体验上看，还有很多局限性。首先，每一种风格，合适于某一类图片。现在的体验，用户必须手动把所有风格都试一遍，才知道哪种风格合适。某一种风格，或者合适于人像，或者合适于风景。对于同时有人有景的图片，有时候需要做一个抉择。

我们能提供的风格模板也比较有限，用户使用过一阵后，新鲜感减少。最好的用户体验，是让用户任意指定一张照片，和一种风格，我们能把这张照片按照用户指定风格处理。我们现在的技术还无法做到这一点。

CSDN：您觉得图像风格迁移技术的难点在哪里，如何落地，瓶颈是什么？

张骏峰：首先是网络设计。各种论文上的方法，需要我们自己实现出来。但是按照论文方法实现出来后，我们发现效果不是很好，照片处理后有一种很脏的感觉。如何去脏，把照片弄干净，花了我们很多时间。我们对最终的效果还是很满意的。

然后就是风格的选取。选择一个对大多数照片都合适的风格，是一件很繁琐的事情。我们一开始就定了一个方向：中国风。事实证明，传统中国风，颜色比较简单，大部分的照片，迁移之后效果不太好。我们从两个方面解决这个问题。一方面，我们把中国近代的著名画家都找了一遍，试了无数张，最后从中挑了8种风格做为第一次的模板。同时，我们针对这8种风格，每一种风格都做了不同的网络优化。

整个过程中，我们发现，选择一种好风格，非常花时间。我们也希望能有一种工具，让我们很容易判断这种风格是否好。但目前为止，我们还没有找到这样的工具。

技术分享

CSDN：小蚁AI艺术训练所用数据来自哪里，采用何种网络及框架，在具体实施过程中有何技巧？

张骏峰：对我们来说，比较幸运的是，我们已经有一个小蚁社区，用户在社区上分享了很多照片。这些照片是我们的测试数据集。风格的选取上，由于我们主打中国风，我们主要的目标在中国近现代著名画家的作品上。

网络方面，主要是借鉴了李飞飞的网络，根据我们自己的风格，做了不同的调整。框架我们用的是Torch。

我们花了很多时间处理去脏的问题。这个也是一个开发灵机一动想到的办法，然后就好了。很神奇。

CSDN：小蚁AI艺术主打“中国风”，请问为何选择这种风格？

张骏峰：因为我们不想和其他人一样。很多App选择了西方风格。我们在中国，就应该选择中国风。这种选择让我们多了很多开发时间，但我们认为是值得的，也是我们为之骄傲的。

CSDN：在产品的研发过程中，团队遇到过哪些问题？是如何解决的？

张骏峰：服务端，小程序初上线的时候，很多人用，给服务器很大压力。我们使用的是阿里云的服务。在阿里云的HPC和阿里云OSS之间，对于高并发有一些问题。我们几次反复，和阿里云支持团队多次交流，最后解决。

小程序方面，很多H5有的功能不能使用，也让开发饶了一些弯路。比如，给图片加水印，就试了好多条路，最后是在服务器上实现的。

开发AI艺术小视频的时候，也遇到了很多问题。视频的方向是一个大问题。视频的处理时间比图片长很多，这使得我们不得不改架构。

大部分问题都解决了。但是在小程序上如何保存处理后的视频，我们始终没有找到一个好方法。现在只能让用户在我们提供的H5页面上处理保存视频。

CSDN：小蚁的产品及技术如何与竞品公司差异化？

张骏峰：听用户反馈，抓住每一个细节，紧跟世界前沿，学习先进经验，不断进步，努力做到更好。这是我们的原则。

CSDN：在管理方面，您有何独到的带队方式？

张骏峰：给团队高度，让团队用自己的办法达到期望的高度，然后告诉我他们自己可以达到的高度（必须比我要求的高度更高）。向世界最好看齐。

【AI创新者】小蚁首架张骏峰：让图像AI人尽可用转载

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 【AI创新者】小蚁首架张骏峰：让图像AI人尽可用转载

【AI创新者】小蚁首架张骏峰：让图像AI人尽可用转载

看完仍有疑问？有类似问题直接问程序猿