标题和作者
本文标题为“Tech companies desperately want to film you doing chores”,作者是Robert Hart。Robert Hart是The Verge的伦敦记者,专注于AI领域的报道,同时也是Senior Tarbell Fellow。在加入The Verge之前,他曾为Forbes撰写过关于健康、科学和技术的文章。本文的主题探讨了科技初创公司如何通过向个人提供免费服务来换取家务过程的视频数据,以解决机器人训练中物理数据获取的难题。
摘要
本文主要介绍了Shift和Pronto等初创公司如何通过提供免费服务(如清洁)来换取用户在家务过程中的视频数据,以解决物理AI训练数据获取的瓶颈。在人工智能发展的早期,像聊天机器人和图像生成器这类工具已经可以通过互联网大规模抓取数据,但机器人需要面对复杂的物理世界,涉及空间、力、摩擦力等难以通过抓取获取的信息。为了获取高质量数据,公司采用了各种创新手段,包括直接向消费者付费、利用家政平台、使用佩戴摄像头的零工,以及建立专门的数据农场。这些方法使得公司能够收集到机器人理解人类本能动作所需的关键信息,从而加速产品的开发与上市。
术语解释:物理AI指的是需要理解并操作物理世界的AI系统,与主要处理文本或图像的AI不同,它必须处理摩擦力、力、形状等物理属性。数据农场则是指一种专门用于重复执行特定任务以生成AI训练数据的环境或场景,不同于自然环境中发生的复杂行为,数据农场中的任务通常是标准化和重复的,以便更精确地捕捉动作细节。
主要主题和概念
主题一:物理AI训练数据的稀缺性与获取挑战
- What:机器人难以掌握像叠衣服、拿苹果或倒水这样对人类来说容易的任务,因为这些任务涉及复杂的物理感知,如空间理解、力、摩擦力和物体形状的判断。
- Why:现有的互联网抓取技术虽然能高效获取文本和图像数据,但无法获取物理世界的实时数据和交互细节。高质量物理数据的稀缺成为了物理AI发展的巨大瓶颈,因为物理世界的数据难以抓取且难以在安静的环境下获取。
- How:公司通过直接与个人交互的方式获取数据,例如Shift提供免费清洁服务,Pronto利用家政平台记录客户家中的场景,Human Archive派遣零工佩戴特制帽子记录第一视角的活动,以及建立专门的数据农场让工人重复执行特定任务以生成标准化数据。
术语解释:“第一视角数据”或“自传式数据”是指从操作者自身的眼睛高度和角度拍摄的记录,这种数据对于机器人学习如何像人一样导航和操作物体至关重要。
主题二:数据收集的商业化模式演变
- What:随着物理AI需求的增长,公司开始探索将人类行为数据转化为商品的新商业模式,即通过提供某种价值(如免费服务)来交换用户的日常行为数据。
- Why:与过去通过忠诚卡、广告或保险监控收集数据不同,现在公司愿意为获取具体的、高质量的物理动作数据支付费用,因为这种数据对于训练下一代机器人至关重要。
- How:这种模式包括直接向消费者付费(如Shift的付费APP)、与现有服务行业合作(如与家政平台Pronto合作)、以及利用零工经济(如Human Archive的摄像机帽)。同时,一些公司甚至跳过自然场景,建立受控的数据农场来生成数据。
术语解释:“数据农场”是指一种人工构建的环境,其中的活动被严格控制并重复进行,旨在收集用于训练机器人的干净、可预测的数据集,以模拟机器人可能需要执行的任务。
重要引文
- 论点:物理AI的发展面临数据获取的巨大挑战,因为互联网抓取无法提供机器人所需的物理世界数据。
- 论据:文本指出,文本、图像和视频可以轻松地从互联网抓取,但物理世界更难抓取,而且更难安静地抓取而不付费。机器人必须处理空间、运动、力、摩擦力、奇怪的形状和材料、尴尬的照明,以及人类本能地掌握的一切。
- 论证:由于互联网抓取的局限性,高质量数据的获取成为物理AI公司的瓶颈。Shift和Pronto等公司正在创造性地利用这一机会,通过直接向个人支付费用或与现有服务提供商合作,从普通人的日常生活中提取必要的训练素材。
术语解释:“互联网抓取”是指从网站和在线数据库中自动收集大量数据的过程。在AI训练的背景下,这通常涉及收集公开的文本、图像和视频。然而,这种方法无法捕捉物理世界固有的复杂性和互动性,因此机器人训练需要更主动、更直接的方法。
总结
本文最吸引人的部分在于科技巨头和初创公司为了训练下一代机器人,竟然开始向普通家庭提供免费服务以换取家务视频。这种将“人类行为数据”商品化的做法,不仅包括Shift的免费清洁和Pronto利用客户家庭进行训练,还包括更极端的“数据农场”模式,即工人被雇佣重复执行简单任务以生成AI素材。尽管目前机器人技术尚未完全成熟,许多公司仍急于推出产品,并通过收集用户家庭数据来改进技术。此外,这种模式也引发了关于隐私和伦理的讨论,因为数据采集过程往往在用户不知情或未完全理解的情况下发生。