印度零工正在成为一种新型训练数据的来源
一家名为 Human Archive 的初创公司正在用一种看似奇怪的方式解决人工智能的数据瓶颈问题:付钱让印度的零工工作者戴上配备摄像头的帽子和传感器设备,在日常生活中收集真实的物理行为数据。这不是什么高科技众包,而是一个劳动密集型的数据标注工厂。
这家初创公司由加州大学伯克利分校和斯坦福大学的研究人员创立,其商业模式的核心是将人类在现实世界中的动作转化为机器人可以学习的数据。创始人发现,现有的机器人训练数据严重不足——大多数人工智能系统的训练数据来自互联网文本和图像,但机器人需要的不仅是这些,它们需要理解物体如何被拿起、如何被放下、如何在不平整的地面上行走。这些数据无法通过简单的爬虫获取。
印度的零工经济规模庞大,而且人力成本相对较低。Human Archive 雇佣了大量临时工作者,让他们日常工作时佩戴传感器设备。这些设备会记录工作者如何开门、如何收拾桌子、如何在不同环境中移动身体。每一段这样的视频和数据都会被标注、清洗,然后卖给人工智能和机器人实验室。
这种做法的争议显而易见。隐私是一个大问题——即使是在公共场合,长时间佩戴摄像头也会引发关于监控的担忧。更深层的问题在于,这种数据收集方式是否真的能产生高质量的训练数据。机器人在实验室环境中学习的是完美标注的数据,但真实世界的混乱程度远超这些数据所能描述的范围。
从更宏观的视角看,Human Archive 的做法实际上反映了 AI 行业的一个深层矛盾:真正的智能不仅仅需要互联网上的数据,更需要与物理世界的交互。无论是自动驾驶、机器人手术,还是智能家居,AI 系统最终都要在现实世界中执行任务,而这些任务需要的数据无法从现有的互联网数据中获取。这种对物理世界数据的需求正在催生一个新的产业——有人称之为"数据标注 2.0",它不再是对图片进行框选标注,而是让人类在真实环境中进行各种操作。这对印度这样的劳动力大国来说是一个新的机会,但对数据隐私和劳动者权益的监管也提出了新的挑战。
更深层的问题在于:当数据本身成为商品,那些生产数据的人——零工工作者——能否获得合理的回报?Human Archive 目前付给印度工人的时薪大约只有几美元,与他们出售数据的价格形成巨大落差。这种模式能否持续,还是会像历史上的众多零工经济一样,最终引发劳动权益争议,还有待观察。