1 月 10 日,由 EpiK 铭识协议主办的“2021 开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席 / 著名知识图谱专家 /OpenKG 主要发起人王昊奋、东北大学自然语言处理实验室副主任 / 小牛思拓创始人王会珍在内的重量级嘉宾参与。
在此次大会上,EpiK 中国区负责人 Eric Yao 做了《分布式知识图谱构建》的主题演讲,其中他重点提及了区块链去中心化的协作模式搭建共建共享共益的开放知识库的构想与实践。详细内容如下:
为什么要搭建开源知识平台?
EpiK 项目是基于区块链的可信的分布式数据和知识的共享平台,通过去中心化数据存储和协作的方式来实现数据的共建和共享。为什么 Epik 会嵌入到人工智能和区块链的结合的角度,来切入到创业中来?这与当下的时代背景密不可分。
第四次工业革命已经来临了,全面智能化是这个阶段的核心目标之一,各种智能体也在逐渐的走入日常生活,比如说 siri、小爱同学等等人工智能的语音助手,还有各种有 AI 学习能力的家用电器,比如说冰箱洗衣机彩电等等。
人类的知识传承已经有数万年了,最早是甲骨文刻在石头上,最后演变成竹帛纸张,到数字化存在硬盘上,这些知识都以文本图片和音视频非结构化的数据结构来存储,人类理解这些知识是很容易的,比如,我们可以很轻松的从电影中或者是从歌曲中判断这个人物的关系和情节。但是对这些信息,机器理解是很难的,很难通过一祯一祯的屏幕来把人类的关系梳理出来,如何让机器理解我们的人类的知识?
谷歌 2012 年提出知识图谱,它通过结构化的人类体系,从而让机器掌握人类的知识,开拓 AI 的认知。这里有一个知识图谱,也是我们很熟悉的一部电影,叫做《复仇者联盟》,它是用一个一个的图谱组成的网络结构,描述了电影中透露的各种各样的信息,有了这些图谱,AI 就可以读懂知识图谱回答很多的问题,比如如何获得宝石位置,从谁那里取得宝石等等。
人工智能是一个大的方向,但是这个事儿和区块链有什么关系,这个就需要引入到一个很严肃的话题,是人类怎么样才能信任人工智能或者机器智能,这里就涉及机器人是否会欺骗人类,引导人类作出错误的决策。
AI 或者知识图谱是很多的公司在做得事情,脸书,苹果、亚马逊、阿里巴巴等等,他们每个大公司都耗时费力的构建自己的知识图谱,但是这些知识图谱不是互联互通的,每个公司有自己的知识库,这就涉及到一个问题,中心化的知识库会面临被篡改知识图谱的隐患,由于知识图谱是一个可以一个一个三元组成的拓扑式网络结构,一个结点的变化,很容易导致计算机或者人工智能理解这个节点相关其他节点的关系都会发生变化,从而造成善恶或者立场的变化,这是非常危险的。
同时构建超大规模的知识图谱,还面临着无法组织大量的人工参与到构建知识库的过程中,缺少这样的组织结构,专业化是很难做到的,也会成为机器智能化巨大的障碍。
基于这两点可以看到,构建超大规模知识图谱,区块链技术是目前唯一找到解决这个问题的出路,因此,知识图谱就要开源开放可见度,这是它的必备属性,而不是不可对它产生的结果做解释。
构建开源知识平台有哪些挑战?
知识图谱底层的存储要开放开源和监督,但是人们怎么样可以协作共建知识库,同时可以访问知识库?
这里面有很多挑战,人类的知识是非常多的,领域也非常多,如何搭建共享平台我要是考虑几点。
第一点,如何开放知识共享,通过构建一些合理的工具和机制,让人人都有渠道贡献知识,因为每一个人都是智能体,让有需求的人可以有方法和访问这些知识。
第二条,如何防范知识篡改,或者知识被更改的时候可以溯源的,这就需要用到区块链的东西,它能保证知识的确权和不可更改,同时也可以通过合适的机制保障它可以持续的公开和更新。
接下来是我们如何能保持知识的质量,由于区块链其实是价值的载体,它的存储成本很高,它的优势其实不在于存储成本,而是在于数据的共建和共享,如何保证知识质量是很重要的一个话题。
在知识的产生层面,知识要可以被监督,在知识质量出现问题的时候,它需要被追责,才会形成一个良性循环,让链上的数据变得质量越来越高,越来越有价值。
最后一点,如何激励知识贡献,每个人都会通过我们的系统提供知识或者为我们系统做贡献,但是其实每个人都不一定是自发性的爱好,所以需要合理的激励机制,如何权衡各方面的收益的动态平衡,同时使得激励的分发成本相对比较低,让系统良性的可循环的运作起来,也是非常重要的。
为什么会选择在 2020 年做这个事情?我们观察到了一些合适的机会,很多的时机已经成熟了:2020 年的时候基于区块链的去中心化存储技术刚刚成熟,比如很有名的项目 Filecoin,可以借助 0 知识证明,以极低的管理成本组织超大规模的防篡改可共享的开放存储资源;2020 年数据标注这个行业也迎来了一个大的爆发,预计 2025 年会达到 100 亿左右的人民币规模,同时会促进大量的年轻的就业人口涌入,为这个行业提供丰富的知识贡献和知识质检人才;2020 年,DeFi 这个概念迎来了空前的发展,可以更好的帮助解决线上的激励动态分配的问题,同时让数字货币的激励手段变得更加灵活;社会对数字货币的接受程度越来越高,越来越接受激励的合理性的概念。
EpiK 构建超大规模知识图谱的解决方案
基于上面的考虑,诞生了 EPIK PROTOCOL,EPIK 指的是 EpigraphyKnowledge,翻译过来就是铭刻在石头上的知识,代表着进入区块链上的知识,就像铭刻在石头上一样,不可以被随意的篡改,目的是依托区块链技术,构建人类永恒知识库,从而开拓 AI 的学识。针对前面提出的问题,提出三大解决方案。
第一点,要借助去中心化的存储技术,来解决数据的不可篡改问题,就是这样的数据是不可以被随意篡改的,这些知识不会因为私人的利益而随意篡改的,从而实现知识在全国各地永恒存储得以广泛传播。
第二点,借助去中心化自治组织解决劳动力问题,实现各国各界各族人民去中心化协作中公平获益。
第三点,借助通证经济解决自驱力问题,实现生态中各个成员为追求自身利益最大化,从而无形中推动知识图谱数据壮大的过程。
Epik 技术架构,分为三大模块,知识提取、知识存储、知识应用,由低到高的三个层级,里面包含了很多的技术细节。
Epik 生态参与者包含五个角色:持币用户、数据矿工、领域专家、赏金猎人、数据网关。把这些角色按照数据从生产到存储到使用这三个过程,数据产生的团体包含三种角色,一个是核心用户,一个是领域专家和赏金猎人,核心用户是可以通过投票来票选出领域专家,确保领域专家的权威性和专业性,领域专家是一个非常核心的的人物,负责组织生产各个类目的人类知识库数据,由于整个工作是非常劳动密集型的工作,所以涉及到大量的繁杂的数据纠错和清洗的工作,数据专家是无法完成的,他需要把这些任务拆分出来,发布到平台上,由赏金猎人认领,他的目的就是为了完成领域专家发布的任务,同时获得对应的奖励。
经过领域专家发布任务,把数据梳理和清洗出来以后,通过领域专家上传给数据矿工上,就是底层的存储机制上,这里面有数以万计的数据矿工来共同维持着整个平台数据的不可篡改和确权。
数据从产生到存储下来,可能涉及到应用的环节,上面会有很多应用的生态,如何方便的访问这些数据,就引入了第五个角色,就是数据网关,它的作用就是为整个底层的数据存储提供数据访问和数据索引的服务,为上层的应用层赋能,让上层的应用层更好的使用整个平台存储的数据。
上面说到的两个图偏概念化,下面举一个具体的例子,如何实现商业闭环,这就是一个具像化的图。
首先可以看到上面已经标注了一些角色了,领域专家,数据网关等等,领域专家是行业专家和领域达人,目的是梳理数据格式,组织数据生产和验收数据质量,其处理的数据都是自己所在该领域的公开的数据源,比如说公开的企业信息,公开的教材信息等等,当他把这两个数据源梳理的格式定好了,所要处理的数据任务发到去中心化的平台上,赏金猎人就可以在这个平台上认领任务,他的角色一般是大学生、青年白领等等,有一定的空闲时间,有一定的知识储备和使用工具素养的一些人,他们可以领取众包任务,同时对这些数据进行校对,获取一定的收益。
数据按照我们所需要的格式和质量生产好以后,由领域专家提供给矿工,矿工就是底层的分布式存储节点,由于我们的数据存储比较定向化,都是针对知识领域的,所以对数据存储的要求能力都不是很高,可能要求这些服务器八核 16G,250G 的 ssd 固态硬盘,5 兆的带宽就可以满足。数据存储了以后,上层会有很多的应用,会访问我们的数据,因为我们的数据很有价值,因为我们整理了公开的企业信息,原题库整理了教材信息,这两种信息对他们来说都是非常有用的,同时我们可以看到上层知识的应用场景都有很大的规模,就是证明我们所服务的市场增长潜力和空间是巨大的,也可以保障整个项目的快速发展。
他们可以通过数据网关很好的访问我们平台上存储的知识和数据,从而实现更多的商业化应用,为整个知识的变现提供价值。
这个系统为什么会很好运作起来?这里面就有一个区块链行业的概念,叫做通证经济,就是我们希望设计合理的通证经济,每个人提供贡献在里面都会有对应的收益,比如领域专家每天会有 5880 元人民币的收益,可能每个月的收益足够他养活 10 到 20 人的小团队,持续的做这个事情。赏金猎人都是小镇青年和白领时间比较零散化的一类人,他们是时薪的方式,可能达到每小时 36 块钱,完成任务就可以领取这部分的收益。矿工,大概会有 30 元每台节点一天的收益。最后底层的应用场景,用户想要使用数据是需要去耗费一定的资源的,这是给整个系统注入能量的一个过程,他们需要大概抵押每天是 202 块钱人民币左右的积分,就可以获得 1GB 数据的访问权,可以随时的赎回,这形成了商业闭环。
接下来看一下整个项目的路线图:第一阶段是我们已经完成的,如白皮书测试发布,测试网方尖碑发布,到白皮书发布,测试网预挖计划发布,领域专家招募计划启动,都已经完成了,第二阶段是主网 v1.0 罗塞塔发布,还有《治理白皮书》发布和知识众包产品 1.0 发布,到今年的二三季度,就会发布主网 v2.0,引入重要的概念就是以太坊,EVM 虚拟机,同时去中心化治理平台发布和知识众包产品 2.0 发布。
顺便提一下,为什么引入 EVM 信息?这可以很便捷或者 0 成本的把以太坊上的经济或者去中心化的 Eth 经济资源引入到知识生态系统中。比如用户想访问我们链上的数据,但是没有链上积分怎么办,就可以通过抵押其他的资产,来获得数据地访问,这样可以快速扩大用户规模,这只是其中的一个应用。
我们将 EpiK 使命描述为:这将是一场至少延续 50 年的碳基生命向硅基生命的史诗级布道。这是一个非常长期的赛道,而且 Epik 也会持续的给这个系统赋能和迭代,让越来越多的用户很好的贡献知识和使用知识。
—
EpiK Protocol 铭识协议
EpiK Protocol 致力于去中心化的超大规模知识图谱构建,通过去中心化存储技术(IPFS)、去中心化自治组织(DAO)和通证经济模型(Token Economy),组织并激励全球社区成员将人类各领域知识梳理成知识图谱,共建共享并持续更新这一人类永恒知识库,从而将人工智能(AI)的视野拓展到更智能的未来。
代币名:EPK
合约地址:0xdaf88906ac1de12ba2b1d2f7bfc94e9638ac40c4
生态合作机构:Chainlink,清华大学大数据研究中心,Open Knowledge Foundation,OpenSLR,CSAGI,小牛思拓,面壁者数据,中软国际,DR.SEEK等等
EPIK 官网 :
https://www.epik-protocol.io/
EPIK 钱包:
https://epik-protocol.io/wallet
EPIK GitHub:
https://github.com/EpiK-Protocol
EPIK 微信公众号: EpiK Protocol 铭识
EPIK 微信社群:Sigrid_EpiK
EpiK电报群:
https://t.me/EpikProtocol