欢迎阅读麦仕奇关于数据在专利制度中的性质和作用的新系列文章。本文旨在作为该系列的引言,解释数据为何如此重要,并让读者对今后文章的内容有所了解。本文本身并不打算回答任何问题,也不打算提供建议——读者们需要等待本系列文章的其他部分!不过,我们希望本文能够充分揭示我们将要涉及的关键主题,并让读者对未来的文章充满期待。
自专利制度诞生之初,在授予有限的垄断权(如美国宪法所言,这是“为了促进科学和实用艺术的发展”所必需的),与过度奖励创造者和发明者从而造成垄断权过度的潜在抑制效应之间,就一直存在矛盾。这种矛盾通常表现为以公开发明来换取垄断权的基本专利交换。
但“公开”是什么意思呢?相关法规(例如《欧洲专利公约》第83条或美国专利法35 U.S.C. 112)并没有给出明确的解释。“说明书应包含对发明、制造和使用方式及过程的书面描述,其用词应全面、清晰、简洁、准确,以便使所属领域或最接近相关领域的任何技术人员能够制造和使用该发明为准”;或者“欧洲专利申请应以足够清晰和完整的方式公开发明,以便所属领域技术人员能够实施该发明为准”。在实践中,一般的要求是在涵盖权利要求书的范围内,公开的内容应足够充分,或能够实现。也就是说,如果申请人要求保护棍子上的月亮,那么公开的内容必须能够让读者实际获得棍子上的月亮。相反,如果申请人只要求保护棍子,那么只需要公开棍子的来源即可。
数据的使用取决于发明的性质,以及相关的技术领域。这与生命科学最为相关。例如,要保护一项简单的机械发明,可能不需要包含说明该机械工作原理的数据,只要它能够制造出来即可。(当然,如果是永动机则必须符合物理定律)。另一方面,如果发明涉及声称具有特定功能的多种分子或治疗药物,则可能需要数据来证明可以获得此类分子,并且同一类别的其他未公开分子也具有该功能。
多年来,对所需数据范围的要求时高时低。最初,美国专利商标局(USPTO)要求发明人不仅提交专利说明书,还要提交实物模型(可能具有功能性)。显然,由于空间有限以及技术已不再局限于纯粹的机械领域,这种做法无法持续。1873年,路易斯·巴斯德获得了“不含有机致病菌的酵母”的专利。当时公开的这份专利是否足以制备任何类型的酵母,而不仅仅是酿造酵母?从20世纪90年代开始,基因组数据在短时间内激增,导致许多公司提交了包含数千个短DNA序列(EST)的专利申请,但除了声称这些序列可能可以作为探针(probes)使用之外,几乎没有数据表明它们可以如何被使用。这些专利申请中的许多都石沉大海,但它们确实凸显了USPTO和EPO(欧洲专利局)在实践中的关键分歧。
美国最高法院最近有关安进公司(Amgen)的判决,凸显了当前存在的另一个分歧——该决定的要点是,在美国,就算是公开了生成和选择更多抗体的方案,但是如果只公开抗体靶点和几种抗体的话,可能不足以对针对该靶点的任何抗体提出宽泛的权利要求。相比之下,欧洲专利局目前的立场是,针对特定靶点产生抗体是常规操作,因此应当认为是充分公开(但是,如果没有进一步的特征,则可能不具备创造性——这是欧洲专利局常见的攻击手段,即不那么宏伟的技术问题可以避免被认为公开不充分,但是会落入存在创造性缺陷的范畴)。
虽然基本要求是专利或申请本身必须充分公开发明,但在许多司法管辖区,提交申请后数据来支持原始公开是可能的。这当然引起了媒体的广泛关注,因为欧洲专利局和国家法院最近一直在处理所谓的发明合理性(Plausibility)问题,最终导致欧洲专利局扩大上诉委员会最近做出了G2/21号决定。不同国家对于接受申请后数据的处理方式,可能会给粗心大意的人带来风险。在评估第二医疗用途的专利时,这一点也很关键,因为已知药物可能会用于治疗新的适应症。显然,制造已知药物本身没有问题,但要想获得专利,需要满足哪些条件才能令人信服地证明其具有新的治疗效果呢?
数据当然不仅仅包括实验数据。在当今大数据和机器学习的当今时代,需要考虑的新问题层出不穷。如果一项发明仅通过挖掘庞大的数据集获得,那么它是否满足足够公开的要求?人工智能生成的数据可以发挥什么作用?随着机器学习模型在预测蛋白质折叠和人工智能指导的药物发现方面的兴起,需要什么样的数据来支持这些预测?当有可能根据目标蛋白质序列生成数千个抗体序列时,美国专利商标局能否维持其针对抗体专利的后Amgen判决的做法?在某种程度上,这可以从现有假设实例的实践中得到启发——这些实例基于对未来结果的专家预测(一项关于“预言数据”的研究估计,美国生物和化学专利数据集中的“至少17%的实验”是虚构的)。当然,还有一个更模糊的问题,即完全凭空捏造的数据会怎样,无论它们是源于错误的假设还是错误的预言——虽然科学出版物显然存在“论文工厂”的问题,但专利申请是否会遭遇类似问题?
我们即将推出的系列文章将探讨所有这些问题,以及更多内容,请继续关注我们的新的文章,我们将继续研究数据在专利领域所扮演的角色。