企业手握“数字经济时代的石油”——大数据,但常常面临流通交易的“拦路虎”:如何证明自己享有手中数据的产权?
行政部门的制度设计思路是设置新型财产权益登记、发放权益凭证。从2022年11月起,国家知识产权局在多地推行数据知识产权工作试点,给企业颁发数据知识产权登记证书。今年3月29日官方披露,17个试点省市已颁发超过7000张证书。
由行政机关主推的数据知识产权登记证书,近期得到司法机关的效力认定。在一起数据领域不正当竞争案件中,北京知识产权法院肯定了数据知识产权登记证书具备数据权益主体和数据来源合法性的初步证据效力。该案也被外界视为涉数据知识产权登记证效力“第一案”。
审理此案的北京知识产权法院法官李迎新向南都记者表示,包括数据知识产权登记证书在内的数据登记证,提供了数据权益的外观证明,为后续数据流通利用提供了必要支持。本案明确数据知识产权登记证书的初步证据效力,也是为了回应理论和实践的关注,满足数据流通使用的需要。
“降低交易成本”
作为这起案件的原告,数据堂(北京)科技股份有限公司(下称“数据堂公司”)的业务之一,是向第三方提供人工智能训练数据集的许可服务。2021年9月,该公司在官网发布一项开源的普通话语音数据集,后发现隐木(上海)科技有限公司(下称“隐木公司”)将这项数据集的一部分内容放在公司官网供网站注册用户下载。数据堂公司随即以侵权和不正当竞争为由诉至北京互联网法院。
案件的一审从2021年11月持续到2023年底。这期间,中国的数据产权制度逐渐成型。2022年12月,中共中央、国务院联合印发“数据二十条”,提出“研究数据产权登记新方式”。
此后,实践中涌现出不同形式的登记形式:各地大数据交易所颁发数据资产登记证书;而北京市、上海市、浙江省等被国家知识产权局确定开展数据知识产权工作试点的省市,还会发放数据知识产权登记证书。
数据知识产权登记证书虽然由知识产权行政机关统筹,但证书最终并非以行政机关名义颁布,而是由各地知识产权局直属事业单位知识产权保护中心作出。例如,北京地区由北京市知识产权保护中心发放证书。这和不动产登记、专利权登记等由对口负责的行政机关颁发存在显著差异。
2023年5月,北京市知识产权局联合3个部门制定《北京市数据知识产权登记管理办法(试行)》,并随后上线北京市数据知识产权登记平台。
数据堂公司留意到新的政策动向,在当年6月为涉案的普通话语音数据集申请了登记。证书公告平台的信息描述称,这项数据集可用于人工智能企业构建普通话语音识别算法模型。截至目前,数据堂公司共有24项数据集被核准登记。
北京瀛和律师事务所律师王忆湘是数据堂公司的案件代理人,他告诉南都记者,数据堂公司是出于数据集许可使用业务经营,以及自有数据法益保护目的需要去做的数据知识产权登记。
据王忆湘介绍,数据知识产权登记证书颁布之前,为了证明数据权属和合法持有,数据企业在交易过程中只能提供承诺函等诸多证明文件,但这些证明的公信力较低,很多数据需求方难免对权属存疑,产生交易障碍,抬高了沟通交易成本。
“有了登记证书,数据企业的交易成本就减轻了很多,不需要再提供过多的证明材料。”王忆湘还表示,由于申请数据知识产权登记时,需要说明数据来源并提供依法依规获取的相关证明,这有助于指引企业从根源上做好数据来源的合规。
司法鼓励企业进行数据登记
数据堂公司一案两审判决结果的差异,主要在涉案数据集是否属于商业秘密的认定问题。北京互联网法院一审认为该数据集构成商业秘密,但被北京知识产权法院二审纠正:被诉行为发生时,涉案数据集已通过数据堂公司官网向不特定公众公开披露,因主动公开而丧失秘密性。
但两级法院对数据知识产权登记证书的效力有着共识。北京互联网法院指出,数据堂公司提交的登记证书能够证明涉案数据集归其收集且持有,是该数据集的权利主体。北京知识产权法院进一步表示,数据堂公司就涉案数据集取得的登记证书,可作为证明数据堂公司享有该数据集相关财产性利益的初步证据,同时还可作为涉案数据集收集行为合法的初步证据。
王忆湘表示,当数据知识产权登记证书能作为初步证据之后,可以减轻当事人的举证负担,便于企业采取司法手段维护合法权益。
全国政协常委、副秘书长,民进中央副主席何志敏曾任国家知识产权局副局长,今年3月接受南都记者采访时他指出,“举证难”问题在数据权益保护的司法案件中尤为突出。因此,在数据纠纷中,数据处理者如何证明自己是数据的持有人、享有相关权益,难以举证。数据知识产权登记的出现,为经营主体维护自身权益提供了一种新的解决方案,是一种有益的探索尝试。
据何志敏介绍,在数据知识产权登记地方试点中,部分地区的知识产权管理部门与司法部门已经签订数据知识产权协同保护的备忘录,将进一步加强数据知识产权证书的证明效力应用。
国家知识产权局战略规划司有关负责人此前接受《知识产权报》采访时亦表示,将“推动登记证书作为有效证据在司法实践中推广应用”。
在案件审理中,数据登记证书只能充当“初步证据”。李迎新对此解释称,数据知识产权登记的操作上,对申请公司提交的书面材料一般仅进行形式审查,那么就不可能像不动产登记那般,赋予数据知识产权登记在权属和合法性上不容否认的证明力,于是被告可以对数据知识产权登记的效力提出质疑。
本案中,被告隐木公司在上诉理由中主张涉案数据集的收集行为不具有合法性,但二审法院予以驳回,认为隐木公司未提交充分证据证明涉案数据集具有危害个人信息安全风险。
李迎新说,数据登记是数据要素市场化改革的一个基础和起点,包括数据知识产权登记在内的数据登记制度,为数据权益提供了一种可视化的外观证明,也为企业的数据资产入表和交易等提供了依据,“对数据要素市场发展非常重要”。 法院对数据知识产权登记证书的初步证据效力予以确认,是鼓励企业根据自身需求,选取包括数据知识产权登记在内的适当方式保护企业的数据。
司法机关的效力认定,能否提升数据企业的登记积极性尚待观察。据南都记者统计分析,首批8个试点地方中,浙江省和福建省的企业申请热度较高,截至今年7月20日,浙江已发放6460张数据知识产权登记证书。其余试点省市比如北京市,仅有127项数据集获准登记。
数据权益的边界
数据登记提供了权益保护的外观支撑,但数据是否真正受到司法保护,法院还会展开不同主体之间的利益平衡。
上述数据堂公司一案的二审判决书对此写到,如果保护数据数量的门槛过低,会妨碍公众利用公共领域数据信息创作普通作品。为避免对普通公众的创作和表达自由产生负面影响,法院提出获得保护的数据集应当具有实质数量的数据条目。
“既要保护数据收集者的投资积极性,但同时也要平衡竞争者以及公众的利益,三者的利益平衡非常重要。”李迎新向南都记者表示。
隐木公司上诉时便主张,涉案数据集音频数量过少,不应得到保护。于是难点落在如何判断所谓的“具有实质数量”?
法院认为,应当结合数据集的性质、数据来源、数据集价值等因素综合考量。具体到本案,涉案200小时数据集是数据堂公司主动收集并整理,含有70余万条可用于人工智能模型训练的声音数据条目,且被公众人工智能模型研发主体使用,符合公开数据条目应具有实质数量的要求。
李迎新表示,法官很难在个案中对数据集的实质数量提出具体的量化标准,不同类型的数据,要求也不一样,“如果强行确定绝对数量,要么可能带来保护过度,要么是保护不足”。法院可以做的,是根据案情,提炼出一些共性的事实因素,综合判断是否应予保护,从而避免过度威胁公有领域的行动自由,或因竞争对手“搭便车”导致市场失灵的情况。
李迎新结合数据堂公司一案进一步解释说,涉案的声音数据集,可以直接用于人工智能模型的训练,属于质量和价值较高的数据集。在确定保护标准的时候,此种情形所需的数据条目,和一些原始数据或简单加工的数据集相比肯定是不一样的。
基于数据知识产权登记证书的效力,且涉案数据集达到实质数量的门槛,法院肯定了数据堂公司对该数据集享有反不正当竞争法所保护的竞争性合法权益。
而隐木公司的被诉公开传播涉案数据集的行为,被法院认定为既违反了涉案开源协议非商业目的使用规则,违背了数据服务领域的商业道德;还一定程度上截取了本属于数据堂公司的用户流量,损害了数据堂公司的合法权益,干扰了市场竞争秩序。最终,隐木公司被判构成不正当竞争,需赔偿数据堂公司经济损失10万元。
出品:南都数字经济治理研究中心
采写:南都见习记者 杨柳