高质量的数据是AI算法发展的动力。没有标记数据的持续流动,可能会出现瓶颈,算法会逐渐变差,增加系统的风险。
这就是为什么标记数据对Zoox、Cruise和Waymo等公司如此重要的原因,这些公司用它来训练机器学习模型,以开发和部署自动驾驶汽车。正是这种需求导致了Scale AI的诞生,这是一家利用软件和人员来处理和标记图像、激光雷达和地图数据以构建机器学习算法的公司。从事自动驾驶技术研究的公司构成了Scale的大部分客户群,尽管Airbnb、Pinterest和OpenAI也使用其平台。
随着视频和音频公司暂停在公共道路上的测试(一种收集数十亿张图像的手段),目前的情况已经减缓甚至停止了数据流。Scale想免费重新打开水龙头。
本周,该公司与激光雷达制造商何塞合作,推出了一个名为PandaSet的开源数据集,可用于训练自动驾驶的机器学习模型。该数据集是免费的,并已获得学术和商业使用许可,包括由何塞具有类似图像分辨率的前向PandarGT激光雷达及其机械旋转激光雷达Pandar64收集的数据。据该公司称,这些数据是在官员发布该地区整栋房子的订单之前,在旧金山市中心和硅谷开车时收集的。
Scale首席执行官兼联合创始人亚历山大王在最近的一次采访中表示:“人工智能和机器学习是不可思议的技术,具有不可思议的影响力,但同时它们也带来了巨大的痛苦。”“机器学习绝对是一个垃圾收集和垃圾回收的框架——你真的需要高质量的数据来支持这些算法。这就是我们成立Scale的原因,也是我们今天使用这个数据集从开源的角度帮助推动行业发展的原因。”
王说,这种激光雷达数据集的目标是免费访问密集而丰富的数据集。这是在充满汽车、自行车、红绿灯和行人的复杂城市环境中使用两种激光雷达实现的。
王说:“世界上的Zoox和Cruises经常谈论他们的系统是如何在这些密集的城市环境中进行测试的。”“我们想真正让整个社区了解它。”
该公司表示,该数据集包括48000多幅相机图像和16000次激光雷达扫描,超过100个8秒场景。它还包括每个场景的28个注释类和大多数场景的37个语义分割标签。传统的长方体标签,如放置在自行车或汽车周围的小盒子,无法完全识别所有激光雷达数据。因此,Scale使用点云分割工具来精确注释复杂对象(如雨)。
开源AV数据并不是全新的。去年,Aptiv和Scale发布了来自自动驾驶汽车传感器套件的大规模数据集nuScenes。许多视听公司如Argo AI、Cruise和Waymo也向研究人员发布了数据。Argo AI发布了策展数据和高清地图,而Cruise则分享了一款名为Webviz的数据可视化工具,可以将机器人上所有传感器采集的原始数据转化为可视化图像。
努力的规模有些不同;例如,王说,使用这个数据集的许可证没有限制。
王说:“现在需求很大,对高质量标签数据的需求持续存在。”“这是构建自动驾驶系统时需要克服的最大障碍之一。我们希望这些数据的获取民主化,尤其是在许多自动驾驶公司无法收集数据的情况下。”
这并不意味着Scale会突然放弃所有数据。毕竟是营利性企业。然而,它已经在考虑在今年晚些时候收集和开放更新的数据。
标签: