一边是特斯拉驾驶事故频出,一边是 SpaceX 走向深空、“脑机互动”Neuralink 让猴子也打起了游戏……马斯克似乎永远也不会停下来。
这一次,特斯拉 AI Day 当天,马斯克又放出了一个大彩蛋——人形机器人。名为 Tesla Bot 的机器人身高 1.73米,硬拉 68 公斤,配速 8 公里/小时,外形与人非常接近。马斯克表示,Tesla Bot 将拥有媲美人类的手和工作能力,并计划在 2022 年量产。
Tesla Bot 机器人或许很吸引大众的眼球,但其实更值得关组的,是 Tesla Bot 未来的大脑,AI Day 上着重介绍的特斯拉“完全自动驾驶功能(FSD)”背后的大脑——Dojo。
Dojo 是一个由网络结构连接的分布式计算架构,将算力分布在复杂的网络构造中,实现了极高的算力、高带宽、低延迟。作为一个纯粹的学习机器,Dojo 有超过 50 万个训练节点,每个磁片可执行 9 千万亿次计算,每秒有 36 兆字节的非磁片带宽。
对特斯拉的自动驾驶来说,Dojo 起着重要作用,因为其任务是训练神经网络,反过来这会让车辆表现得更谨慎。
而作为 Dojo 架构的重要组成部分,自研超级计算机内置的 Dojo D1 芯片是 AI Day 上最大的亮点。7 纳米制造工艺,具有 1024 千兆的处理能力。不仅可以单兵作战,还有集团军作战能力,它们可以无缝融合,变成超大规模计算阵列。
自研 D1 芯片有了,最强 AI 训练超算 Dojo 准备就绪,它们的主要服务对象始终如一——自动驾驶的纯视觉方案。
特斯拉的纯视觉自动驾驶方案,基本构建原则是把自动驾驶系统看作一个生物,有眼睛、有神经、有大脑。马斯克表示,特斯拉正在打造一个处理原始信息的神经元网络,“我们可以将汽车比作一种动物,它能够感知环境,并可以智能地进行自主活动。所有零部件都将由特斯拉自主研发,包括车身所用的机械部件和神经元系统的电子部件。”
事实上,特斯拉的纯视觉自动驾驶解决方案在业内一直存在较大争议。美国国家公路交通安全管理局(NHTSA)关于 Autopilot(特斯拉自动辅助驾驶功能)的调查显示,自 2018 年以来,特斯拉已造成了 11 起相关车祸,即 Autopilot 或 Traffic Aware Cruise Control(交通感知巡航控制功能)在急救人员使用闪光灯、照明弹、发光箭头板或锥形警告危险的场景中撞到了停放的车辆。
事故频出,争议四起,归根结底,特斯拉的大脑 Dojo 还不够聪明。
众所周知,汽车在真正的路上会遇到各种各样的问题,需要判断成千上万的场景下,驾驶员如何决策,并不是一个按照道路标志线规定的简单判断题,而是非常复杂的系统问题。全球每天有约 3700 人死于车祸,驾驶过程中路况太复杂,而人类其实并不擅长处理驾驶过程中的突发难题。
自动驾驶系统需要在不同的情况下感知外界环境和其他交通参与者,如遵守和不遵守交通规则的行人。仅仅有机器学习和相应的计算机技术还不够,还需要大量正确且实现了多样性最大化的数据集,来对自动驾驶 AI 进行训练,以此应对复杂多变的路面情况。
目前,想要一个数百万英里行驶数据的标记数据集,成本花费高达数十亿美元。为了训练 Dojo,特斯拉也对接过第三方的数据标记承包商,不过由于成本和数据质量问题,转向自建团队。现在,特斯拉已经建立了 1000 人规模的数据标记团队,目前在使用 2D 画面进行标记,未来将转向 4D 标记。
不过事实上,特斯拉可以获得的标记数据量远远不止这 1000 人的团队,因为还有成千上万的特斯拉车主,在用他们的日常驾驶行为和生命,在为特斯拉的 AI 贡献着数据。
科技向善,要改变人类的生活,何必要冒着生命的风险。现在明明有精度更高、质量更好、成本更低的数据标注解决方案可供选择。
当传统的数据标记众包模式无法精细把控标注数据集的质量,区块链技术就派上了用场。多劳多得,精准验收定位到人,通证经济解决了效率和数据集质量的问题;分布式存储解决了未标注数据集的汇集和标注后数据集的存储问题。永久存储,不可篡改,“区块链+众包”模式,成为了许多为成本和效率所困的企业的最优选择。
在这个领域的佼佼者,就是全球首个 AI 数据的分布式存储协议——铭识协议 EpiK Protocol。
自动驾驶、语音识别、面部微表情识别……不同细分领域数据集,对 AI 数据标注者的个人素质与专业知识的需求不尽相同。为了解决这个问题,铭识协议 EpiK Protocol 规划了一个“AI 数据标注系统”。
在这个系统中,有三个重要的角色。领域专家必须是由来自各行业的有一定工作年限和专业资质的资深人士担任,他们负责设计所在领域的 AI 数据格式,根据 AI 训练的需求制定统一的标准,规范标注数据的提交,同时还肩负了数据质量验收、上传的重担;数据标注师则来自世界范围内的各行各业,他们将以自身的专业知识和经验来进行数据标注,同时根据领域专家对已提交数据的评级,按照评级获取酬劳;知识矿工则需要将领域专家上传的数据打包至分布式存储,以供 AI 训练企业/机构下载,当然只是矿工也有治理权力,可以参与到领域专家选拔投票中,以维护整个“AI 数据标注系统”的良性发展。
而且,为了增加标注师工作的趣味性,铭识协议 EpiK Protocol 将这部分工作在终端以游戏通关的形式呈现(App:知识大陆),降低了参与门槛,让人人都可以成为 AI 的老师,同时也提升了标注师们的体验。
经过测试,以“知识大陆”形式收集 AI 标注数据的效率为传统标注收集方式的 10 倍左右。
与“AI 数据标注系统”相对应的,是铭识协议 EpiK Protocol 规划的“AI 数据存储系统”。
为了充分调动其每台闲置中的存储设备,在“AI 数据存储系统”中存储数据是免费的,且不限时间,默认无限存储份数,无需指定特定节点,平均每个扇区大小仅需 8M,“AI 数据存储系统”的更节省空间,对存储设备的要求门槛更低,参与更容易。
不过,为了保证标注数据的存储质量,只有上传经过领域专家验证过的数据,才会计入算力。再一次通过规则来规避“脏数据”混入高质量的数据中。
目前,铭识协议 EpiK Protocol 的商业模式和理念已经得到了世界级人工智能专家——人工通用智能之父 Ben Goertzel 的认可,并且我们成功地说服他加入,成为了铭识协议的首席顾问。
8 月,国际情感计算人工智能先驱上海亿镜智能科技有限公司宣布与铭识协议 EpiK Protocol 达成战略合作。双方共同探索出了一套 emocloud 云架构系统。
(emocloud 云架构概览)
通过这套架构系统,可以有效实现情感计算所必须数据流的收集、筛选、分析及分布式存储全流程。为情感计算领域的解决方案和产品应用提供优质的数据和存储支持。铭识协议 EpiK Protocol 与上海亿镜智能科技有限公司可以共同推进情感计算在公安、反恐、教育、医疗、等领域的成功应用。亿镜智能科技创始人俞楠教授目前正在申请成为“EPIK 知识大陆体系”的情感计算领域专家。
区块链技术在越来越多的行业和领域,迸发出了耀眼的活力。铭识协议 EpiK Protocol 无疑也为这种技术创造了更多的使用场景和应用前景。
—
AI Day 当天,面对机器人 Tesla Bot,马斯克强调:“我们要确保它是安全的”。
但无论是机器人还是自动驾驶,“安全”都不是随口说说而已,其背后的时间、人力、物力和数据体量和计算体量,都不可以用简单的加和算法来衡量。或许不久的将来,特斯拉就会发现,号称“最强 AI 训练超算”的 Dojo 缺失的那一块 AI 拼图,要由区块链技术来补全。