我们骄傲地宣布,早期两河流域契约数据库(DEMC),作为国内首个自主开发的楔形文字在线数据库,隆重登场!它可是教育部哲学社会科学研究重大课题攻关项目(23JZD040)的阶段性研究成果之一。现在,其1.0版本已经正式上线(网址:http://wx.xdsxds.com/layout/home),为大家提供免费使用服务以及AI助手服务,这无疑是学术领域的一大盛事!
为了满足国内世界古代史、古文字学、经济史、法律史、比较法学、数字人文等领域学者的研究需求,我们全力以赴打造DEMC。要知道,那些分散于全球各地图书馆、博物馆、档案馆的早期两河流域(公元前三千纪)契约文书资源,分布广泛、专业性强,还有大量未出版内容,发表渠道也极为零散,传统纸质期刊与电子资源的割裂让文献搜集难上加难。但我们毫不畏惧,通过数字人文技术,成功整合了这些碎片化资源,构建起一个集数据采集、文本挖掘、多标签分类、多模态关联展示及可视化于一体的综合性平台,为各领域研究者提供了系统化的研究工具,这是我们的巨大成就!
DEMC数据库主要收录两河流域早期的楔形文字文本资源,涵盖古苏美尔时期(又称前萨尔贡、早王朝时期)、阿卡德时期(又名萨尔贡王朝)和新苏美尔时期(即乌尔第三王朝)这三个重要时期。在内容上,以买卖契约和借贷契约为主的契约文书是我们的重点收录对象。除了契约文书的中英文及拉丁转写文本内容,数据库还收录了与之相关的各类多模态资源,像原始泥板照片、临摹图像等,并且详细记录相关资源实体的馆藏信息,全方位为研究者提供研究材料,这是我们对学术研究的有力支持!
DEMC数据库拥有四种强大功能,涵盖从数据采集到知识服务的全过程,这是我们精心设计的成果,为学术研究提供了全方位的支持。
我们以技术成熟度较高、通用性较强的FileMaker Pro工具为基础开发DEMC。该系统支持与MySQL、Oracle等主流的关系数据库进行数据集成和数据共享,它能对早期楔形文字契约文书资源进行标准化数据存储,制定统一的文本、图像采集与整合标准,并以严格的专业元数据系统进行结构化约束;同时还保留动态扩展能力,在使用过程中可以灵活增补所需的新字段。这一技术架构的选择,充分体现了我们的前瞻性和专业性!
数据库不仅提供文本的转写与英汉双语翻译,还包含多个专业字段,如契约类型、固定格式、术语、标的物与数量、缔约方(买卖契约中的卖方/买方、借贷契约中的贷方/借方)、见证人、誓言、其他关联信息,以及文本的出版信息、年代、出土地点、收藏机构、对应CDLI编号等基础信息。丰富的字段设置,为研究者提供了更细致、更全面的信息。
为了在后续实现更专业、高效的检索,并在此基础上提供细粒度的知识服务,我们对CDLI的语义知识表示框架进行了扩展。我们对两河早期契约文本的结构进行深度解析、并以CIDOC - CRM、FOAF为基础,融合《民法典》索引平台的相关叙词索引 ,实现了对契约文书内容的语义关联构建。扩展后的语义结构除包含CDLI提供的各种元数据之外,增设了Text Information、Historical Document、Visual Item等实体类分别用于表示契约文书文本特征、契约文书的内容结构及相关联的多模态资源进行组织和关联。我们对两河早期契约文书中的主体(subject)、客体(object)、甲方(agent)、乙方(patient)、担保人(guarantor)、见证人(witness)、名义见证人(nominal witness)、签约(signed)、执行(executed)等专有概念进行创新性界定并实现了细粒度的语义关联构建,实现了针对买卖(sale)、借贷(Loan)、租赁(Lease)等不同类型契约文书内容的知识表示(以CDLI/P112333为例)。这一系列的创新举措,让我们的数据库在语义关联和知识表示方面达到了新的高度!
URI、契约类型、主体、客体、甲方、乙方、担保人、见证人、名义见证人、签署时间、执行时间、关联文本、文物载体
在数据应用环节,我们提出在现有语义架构的基础上对数据库中的资源进行知识抽取和知识库构建的过程。
例如,对于契约文本中的“主体”角色,我们可以通过如下方式进行自动知识抽取:
# 语义角色分类示例
roles = ['主体(subject)', '客体(object)', '甲方(agent)',
'乙方(patient)', '担保人(guarantor)', '见证人(witness)',
'名义见证人(nominal witness)', '签约时间(signed)', '执行时间(executed)']
在知识抽取之后,我们还利用RAG等新兴的人工智能技术对相关资源构建可视化服务框架,并提供检索和智能化问答功能。这一系列的操作,让我们的数据库在数据应用方面更加智能、高效!
我们通过全面介绍DEMC数据库的核心目标、技术架构、数据流模型及多样化功能模块,并简要概述全栈开发的技术解决方案,完整呈现了该平台的潜力与功能。用户可通过多字段检索获取全部信息与数据。我们坚信,DEMC数据库必将在学术研究领域发挥重要作用,为推动学术进步贡献巨大力量!