使用手册:UMLS Quick Start Guide
目录
第 1 章 UMLS 简介
第 2-4 章。元同义词库
第 5 章 语义网络
第 6 章 专业词汇和词汇工具
第 7 章 UMLS 术语服务
第 8 章 MetamorphoSys
1 UMLS 简介
1.1. UMLS 的目的
1.2. UMLS 的使用条件
1.3. UMLS 知识源和相关工具
1.3.1. 元同义词库
1.3.2. 语义网络
1.3.3. 专业词汇和词汇工具
1.3.4. UMLS 术语服务
1.3.5. MetamorphoSys:UMLS 安装和定制程序
2 元同义词库
2.1.1. 元同义词库的范围
2.1.2. 保留源词汇的内容和含义
2.1.3. 需要定制元同义词库
2.1.4. 元同义词库发布格式
2.2. 源词汇
2.2.1. 纳入美国标准代码集和术语
2.2.2. 纳入英语以外的语言
2.3 概念、概念名称及其标识符
2.3.1. 概念和概念标识符
2.3.2. 概念名称和字符串标识符
2.3.3. 原子和原子标识符
2.3.4. 术语和词汇标识符
2.3.5 概念、字符串、原子和术语标识符的使用
2.3.6. 元同义词库概念的默认首选名称
2.3.7. 具有多重含义的字符串
2.3.7.1. 元同义词库中的歧义表示
2.3.8. 元同义词库构建过程中添加的概念名称
2.4. 关系和关系标识符
2.4.1. 非同义关系的基本类别
2.4.1.1. 源内关系
2.4.1.2. 源间关系
2.4.2. 关系标签
2.4.3. 关系标识符
2.4.4. 关系组
2.5. 属性和属性标识符
2.5.1. 属性种类
2.5.2. 属性标识符
2.6. 有关元同义词库的数据
2.6.1. 当前元同义词库的特点
2.6.2. 当前元同义词库与先前版本之间的差异
2.6.3. 历史 CUI
2.7. 概念名称索引
Lung Diseases, Obstructive(C0600260, L0024117, S0058463)
Obstructive Lung Diseases(C0600260, L0024117, S0068169)
Lung Disease, Obstructive(C0600260, L0024117, S0058458)
Obstructive Lung Disease(C0600260, L0024117, S0068168)
2.7.1. 词索引
2.7.1.1. 描述
2.7.1.2. 单词的定义
2.7.1.3. 词索引示例
2.7.2. 规范化词索引
2.7.2.1. 描述
2.7.2.2. 规范化词的定义
2.7.2.3. 规范化单词示例
2.7.3. 规范化字符串索引
2.7.3.1. 描述
2.7.3.2. 规范化字符串的定义
2.7.3.3. 规范化字符串示例
2.7.4. 单词索引程序
2.8. 字符集
2.9. 内容视图
2.9.1. RRF中内容视图元数据的表示
2.9.1.1. MRCONSO.RRF
2.9.1.2. MRSTY.RRF
2.9.1.3. MRSAT.RRF
2.9.2. 提取内容视图
2.9.2.1. 使用 MetamorphoSys
2.9.2.2. 直接从 RRF 文件
2.10. 映射
2.10.1. 元同义词库中的映射表示
2.10.1.1. MRCONSO.RRF
2.10.1.2. MRSTY.RRF
2.10.1.3. MRSAT.RRF
2.10.1.4. MRMAP.RRF
2.10.1.5. MRSMAP.RRF
2.10.1.6. MRREL.RRF
3 元同义词库 - 丰富发布格式 (RRF)
3.1. 数据文件
3.2. 列和行
3.3. 各文件说明
3.3.1. 文件(文件 = MRFILES.RRF)
3.3.2. 数据元素(文件 = MRCOLS.RRF)
3.3.3. 缩写值的文档(文件 = MRDOC.RRF)
3.3.4. 概念名称和来源(文件 = MRCONSO.RRF)
编辑表 1.
3.3.5. 简单概念和原子属性(文件 = MRSAT.RRF)
表 2.编辑表 2.
3.3.6. 定义(文件 = MRDEF.RRF)
表 3.编辑表 3.
3.3.7. 语义类型(文件 = MRSTY.RRF)
3.3.8. 历史记录(文件 = MRHIST.RRF)
表 4.编辑表 4.
3.3.9. 相关概念(文件 = MRREL.RRF)
编辑
3.3.10. 共现概念(文件 = MRCOC.RRF - 2013AA 版本之后,此文件在 UMLS 中不再可用。)
3.3.11. 可计算层次结构 (文件 = MRHIER.RRF)
编辑
表 7.
3.3.12. 上下文(文件 = MRCXT.RRF)
3.3.13. 映射(文件 = MRMAP.RRF)
表 9.编辑表 9.
3.3.14. 简单映射(文件 = MRSMAP.RRF)
3.3.15. 源信息(文件 = MRSAB.RRF)
Table 11.
3.3.16. 概念名称排序 (文件=MRRANK.RRF)
编辑
表 12.
3.3.17. 模糊术语标识符 (文件 = AMBIGLUI.RRF)
3.3.18. 模糊字符串标识符(文件 = AMBIGSUI.RRF)
3.3.19. 元同义词库变更文件
3.3.19.1. 已删除的概念(文件 = CHANGE/DELETEDCUI.RRF)
3.3.19.2. 合并概念(文件 = CHANGE/MERGEDCUI.RRF)
3.3.19.3. 已删除条款 (文件=CHANGE/DELETEDLUI.RRF)
3.3.19.4. 合并条款(文件 = CHANGE/MERGEDLUI.RRF)
3.3.19.5. 已删除的字符串(文件 = CHANGE/DELETEDSUI.RRF)
3.3.19.6. 已退役的 CUI 映射(文件 = MRCUI.RRF)
表 13.编辑表 13.
3.3.19.7. AUI 移动 (文件 = MRAUI.RRF)
编辑表 14.
3.3.20. 单词索引(文件 = MRXW_BAQ.RRF、MRXW_DAN.RRF、MRXW_DUT.RRF、MRXW_ENG.RRF、MRXW_FIN.RRF、MRXW_FRE.RRF、MRXW_GER.RRF、MRXW_HEB.RRF、MRXW_HUN.RRF、MRXW_ITA.RRF、MRXW_NOR.RRF、MRXW_POR.RRF、MRXW_RUS.RRF、MRXW_SPA.RRF、MRXW_SWE.RRF)
3.3.21. 规范化词索引(文件 = MRXNW_ENG.RRF)
3.3.22. 规范化字符串索引(文件 = MRXNS_ENG.RRF)
4 元同义词库 - 原始发布格式 (ORF)
4.1. 数据文件
4.2. 列和行
4.3. 各文件说明
4.3.1. 文件(文件 = MRFILES)
4.3.2. 数据元素(文件 = MRCOLS)
4.3.3. 概念名称(文件 = MRCON)
4.3.4. 词汇来源(文件 = MRSO)
4.3.5. 简单概念和字符串属性(文件 = MRSAT)
4.3.6. 定义(文件 = MRDEF)
4.3.7. 语义类型(文件 = MRSTY)
4.3.8. 定位器(文件 = MRLO)
4.3.9. 相关概念(文件 = MRREL)
4.3.10. 共现概念(文件 = MRCOC - 2013AA 版本后,此文件在 UMLS 中不再可用。)
4.3.11. 概念背景 (文件 = MRCXT)
4.3.12. 关联表达式(文件 = MRATX)
4.3.13. 来源信息(文件 = MRSAB)
编辑
表 2.
4.3.14. 概念名称排序 (文件 = MRRANK)
4.3.15. 模糊术语标识符 (文件 = AMBIG.LUI)
4.3.16. 模糊字符串标识符(文件 = AMBIG.SUI)
4.3.17. 元同义词库变更文件
4.3.17.1. 已删除的概念(文件 = DELETED.CUI)
4.3.17.2. 合并概念(文件 = MERGED.CUI)
4.3.17.3. 已删除术语(文件 = DELETED.LUI)
4.3.17.4. 合并术语(文件 = MERGED.LUI)
4.3.17.5. 已删除的字符串(文件 = DELETED.SUI)
4.3.17.6. 已停用的 CUI 映射(文件 = MRCUI)
4.3.18.字索引(文件 = MRXW.BAQ、MRXW.DAN、MRXW.DUT、MRXW.ENG、MRXW.FIN、MRXW.FRE、MRXW.GER、MRXW.HEB、MRXW.HUN、MRXW.ITA、MRXW.NOR、MRXW .POR、MRXW.RUS、MRXW.SPA、MRXW.SWE)
4.3.19. 规范化词汇索引(文件 = MRXNW.ENG)
4.3.20. 规范化字符串索引(文件 = MRXNS.ENG)
5语义网络
5.1. 概述
图 1.
图 2.
图 3.
5.2. 语义网络 ASCII 关系格式
Table:
Table:
Table:
Table:
Table:
5.3. 语义网络 ASCII 单元记录格式
6专业词汇和词汇工具
6.1. 一般描述
6.2. 词典的范围
6.3. 词典数据元素
6.3.1. 字符串属性
6.3.1.1. STR——字符串
6.3.1.2. AGR-一致/词形变化代码
6.3.1.3. CAS - 案例
6.3.1.4. GND-性别
6.3.2. 条目属性
6.3.2.1. EUI——词汇条目的唯一标识符
6.3.2.2. CIT - 引证表格
6.3.2.3. BAS-基本形式
6.3.2.4. SCA-句法类别
6.3.2.5. PER-迂回
6.3.2.6. COM——补充
6.3.2.7. TYP-屈折类型
6.3.2.8. POS-占有
6.3.2.9. QNT-量化
6.3.2.10. FEA - 特征
6.3.2.11. PSN - 形容词的位置
6.3.2.12. MOD - 副词的修饰类型
6.3.2.13. GEN - 商标的通用名称
6.3.3. 入口关系
6.3.3.1. ABR-缩写或缩写
6.3.3.2. SPV - 拼写变体
6.3.4. 数据描述
6.3.4.1. WRD-字
6.3.4.2. DES-描述
6.3.4.3. FMT-格式
6.3.4.4. RWS - 行数
6.3.4.5. FIL——文件名
6.3.4.6. BTS-大小(字节)
6.3.4.7. CLS - 列数
6.3.4.8. COL – 三字母字段名称
6.3.4.9. REF-文档交叉引用
6.4. 词典关系表
6.4.1. 简介
6.4.2. 关系格式的一般描述
6.4.3. 各关系文件内容摘要
6.4.3.1. - 一致和变格 (文件 = lragr)
6.4.3.2. - 词形变化类型 (File = lrtyp)
6.4.3.3. - 补充(文件 = lrcmp)
6.4.3.4. - 代词 (文件 = lrprn)
6.4.3.5. 修改器 (file = lrmod)
6.4.3.6. - 属性(文件 = lrprp)
6.4.3.7. - 缩写和首字母缩略词 (file = lrabr)
6.4.3.8. - 拼写变体 (file = lrspl)
6.4.3.9. - 名词化 (file = lrnom)
6.4.3.10. - 商标 (file = lrtrm)
6.4.3.11. - 文件(file = lrfil)
6.4.3.12. - 单词索引. (file = lrwrd)
6.4.3.13. - 字段(文件 = lrfld)
6.5. SPECIALIST 词汇单元记录
6.6. 词汇数据库介绍
6.6.1. 语义相关术语 SM.DB
6.6.2. 衍生相关术语:DM.DB
6.6.3. 新古典组合形式 NC.DB
6.7. 样本记录
6.8. SPECIALIST 词汇工具
7使用 UMLS 术语服务 (UTS)Using the UMLS Terminology Services (UTS)
7.1 下载 UMLS 知识源
7.2. 系统架构
7.3. 查询UTS
7.3.1. 元同义词库浏览器
7.3.2. 语义网络浏览器
7.4. 获取 UTS 访问权限
7.5. 悉尼科技大学
8 MetamorphoSys - UMLS 安装和定制程序
8.1. MetamorphoSys 要求
图 1.
8.2. 启动 MetamorphoSys
8.3. MetamorphoSys 帮助
使用手册章节介绍
第 1 章 UMLS 简介
本章介绍了 UMLS 的用途、可以使用不同 UMLS 组件的条件以及这些条件与开放访问/开放源代码原则的关系。它还简要介绍了每个 UMLS 组件及其之间的关系,建议了建立对 UMLS 特性和功能的理解的方法,并提供了其他 UMLS 参考资料的列表。
第 2-4 章。元同义词库
这些章节介绍了 Metathesaurus 的内容和结构,这是一个大型概念导向型数据库,包含大量生物医学和健康相关词汇、分类和编码系统。Metathesaurus 根据指定的基本语义类型对这些概念进行分类,并使这些术语中的所有信息都可以通过通用的、完全指定的文件格式访问。Metathesaurus 包括法律和法规指定的编码集和术语,作为美国临床和行政健康数据电子交换的标准。
第 5 章 语义网络
本章介绍了语义网络的内容和结构,语义网络是一个小型数据库,其中包含有关基本语义类型或类别的信息,元词库概念可能被分配到这些类别中。语义网络定义了这些语义类型之间以及语义类型的广泛分组之间可能存在的关系,例如表示紊乱的所有类型(疾病或综合症、后天异常、肿瘤过程等)。
第 6 章 专业词汇和词汇工具
本章介绍以下程序的内容和结构:
- SPECIALIST 词典,一个包含常用英语单词和生物医学词汇的句法、形态和正字法信息的数据库。SPECIALIST 词典对自然语言处理应用非常有用。
- 词汇工具可检测并抽象出自然语言中遇到的词形变化、格和词序变化。其中一个程序 MetaMap Transfer (MMTx) 专门用于将任意术语映射到元词库中的概念,或者等效地,在自由文本中发现元词库概念。
第 7 章 UMLS 术语服务
本章介绍如何通过下载、应用程序编程接口和交互式 Web 浏览器从 UMLS 术语服务访问 UMLS 资源。
第 8 章 MetamorphoSys
本章介绍 MetamorphoSys,它是所有 UMLS 知识源的安装程序和 Metathesaurus 的自定义程序。您必须使用 MetamorphoSys 来安装知识源。MetamorphoSys 允许您以 7 位 ASCII(默认)或 Unicode UTF-8 字符集输出数据。MetamorphoSys 还为 Metathesaurus 提供了两种文件格式选项(Rich Release Format 或 Original Release Format),并提供了许多其他自定义选项。
1 UMLS 简介
最后更新:2009 年 9 月 10 日。
1.1. UMLS 的目的
统一医学语言系统 (UMLS) 促进了计算机系统的开发,这些计算机系统的行为就像它们“理解”生物医学和健康语言一样。为此,NLM 制作并分发 UMLS 知识源(数据库)和相关软件工具(程序)。开发人员使用知识源和工具来构建或增强创建、处理、检索和集成生物医学和健康数据和信息的系统。知识源具有多种用途,可用于执行涉及信息类型(例如患者记录、科学文献、指南和公共卫生数据)的多种功能的系统。相关软件工具可帮助开发人员定制或使用 UMLS 知识源用于特定目的。词汇工具与 UMLS 知识源结合使用效果更佳,但也可以单独使用。
1.2. UMLS 的使用条件
所有 UMLS 知识源和相关软件工具对美国和国际用户均免费。
语义网络、专业词典和相关词汇工具可在互联网上根据开放条款访问,其中包括对其使用的适当确认。查看语义网络、专业词典和词汇工具的使用条款和条件。
要使用 Metathesaurus,您必须签订许可协议。这是因为 Metathesaurus 包含由许多不同版权所有者制作的词汇内容以及 NLM 制作的大量内容。
设置许可协议是通过 Web 完成的。一旦许可协议到位,Metathesaurus 的大部分内容都可以在非常开放的条件下使用。您预先存在的具有使用限制的内容许可证(例如 CPT、MedDRA 或 NIC)将涵盖您对 Metathesaurus 中分发的内容的使用。一些需要授权才能使用其内容的词汇表制作者通常会授予免费许可。
UMLS 元同义词库使用许可协议的全文出现在 UMLS 术语服务 (UTS) 中,第 7 章将对此进行讨论。
1.3. UMLS 知识源和相关工具
UMLS 知识源有三种:元词库、语义网络和 SPECIALIST 词典。它们随附了多种便于使用的工具,包括 MetamorphoSys 安装和自定义程序。
1.3.1. 元同义词库
元词库是一个大型、多用途、多语言的词汇数据库,其中包含有关生物医学和健康相关概念、其各种名称以及它们之间的关系的信息。它由大量词库、分类、代码集和受控术语列表的电子版本构建而成,这些词库、分类、代码集和受控术语列表用于患者护理、医疗服务计费、公共卫生统计、索引生物医学文献和/或基础、临床和医疗服务研究。在本文档中,这些被称为元词库的“源词汇”。在元词库中,所有源词汇都以通用、完全指定的数据库格式提供。
当前版本的 Metathesaurus 中存在的源词汇的完整列表出现在当前 UMLS 发布文档的UMLS 源词汇文档页面上。该列表表明哪些编码集和术语被法律和法规指定为临床和行政健康数据电子交换的美国标准。
元词库按概念或含义组织。本质上,它将同一概念的替代名称和观点联系起来,并确定不同概念之间的有用关系。元词库中的所有概念都分配了至少一种来自语义网络 (1.3.2) 的语义类型,以便在语义网络所表示的相对一般的层面上提供一致的分类。元词库中概念名称或字符串中出现的许多单词和多词术语也出现在专业词典 (1.3.3) 中。词汇工具用于生成元词库的单词、规范化单词和规范化字符串索引。MetamorphoSys (1.3.5) 用于安装 UMLS 知识源并定制元词库。
必须定制元同义词库才能有效使用。
对元同义词库及其文件结构的完整描述从本文档的第 2 章开始。
1.3.2. 语义网络
语义网络为元词库中表示的所有概念提供了一致的分类,并提供了这些概念之间的一组有用关系。有关特定概念的所有信息都可以在元词库中找到;网络提供有关可能分配给这些概念的基本语义类型或类别集的信息,并定义语义类型之间可能存在的关系集。语义网络包含 133 种语义类型和 54 种关系。语义网络是分配给元词库中概念的语义类型的权威。网络通过文本描述和其层次结构中固有的信息来定义这些类型。
语义类型是网络中的节点,它们之间的语义关系是链接。语义类型主要分为生物体、解剖结构、生物功能、化学物质、事件、物理对象以及概念或想法。UMLS 语义类型的当前范围相当广泛,允许对多个领域的各种术语进行语义分类。
语义网络及其文件结构的完整描述见本文档的第 5 章。
1.3.3. 专业词汇和词汇工具
SPECIALIST 词典旨在成为包含许多生物医学术语的通用英语词典。涵盖范围包括常用英语单词和生物医学词汇。每个单词或术语的词典条目记录了 SPECIALIST 自然语言处理系统所需的句法、形态和正字法信息。
词汇工具旨在解决自然语言单词和术语的高度可变性。单词通常有几种屈折形式,这些屈折形式可以被视为同一个单词的实例。例如,动词“treat”有三种屈折变体:
- treats — 第三人称单数现在时形式
- treated——过去式和过去分词形式
- 治疗——现在分词形式
元词库和其他受控词汇表中的多词术语除了其屈折和字母大小写变体外,还可能有词序变体。词汇工具允许用户抽象出几种类型的变体,包括英式英语/美式英语拼写变体和字符集变体。
本文档的第 6 章介绍了 SPECIALIST 词典、其文件结构和词汇程序的完整描述。
1.3.4. UMLS 术语服务
UMLS 术语服务 (UTS) 是一组基于 Web 的交互式工具和程序员界面,允许用户和开发人员访问 UMLS 知识源,包括元同义词库中的词汇表。它还包含 UMLS 数据文件的下载站点。UTS 是了解 UMLS 资源内容的有用起点。由于它包含完整的元同义词库文件,因此许多 UTS 组件的访问仅限于已签署UMLS 元同义词库使用许可协议的注册用户。
本文档的第 7 章介绍了 UTS 及其功能的完整描述。
1.3.5. MetamorphoSys:UMLS 安装和定制程序
MetamorphoSys 是一款跨平台 Java 应用程序,如果本地安装了 UMLS 知识源(元词库、语义网络和 SPECIALIST 词典),则必须使用该应用程序。MetamorphoSys 还支持创建和细化元词库的自定义子集。一般而言,元词库必须进行自定义才能在特定应用程序中有效使用。
MetamorphoSys 首先引导您安装一个或多个 UMLS 知识源,然后定制 Metathesaurus 以供本地使用。有多种选项可供选择,例如包含或排除特定源词汇表、语言和术语类型、指定 Metathesaurus 文件的输出字符集(7 位 ASCII 或 Unicode UTF-8)和输出格式(Rich Release Format 或 Original Release Format)。
MetamorphoSys 的完整描述见本文档的第 8 章。
1.4. 入门
UMLS 资源是功能强大且不同寻常的工具,旨在供系统开发人员使用。以下是一些关于如何开始了解 UMLS 特性和功能以及它们增强应用程序的潜力的建议。
扫描整个 UMLS 文档以了解可用资源的范围。
如果您对 Metathesaurus 感兴趣,请花点时间阅读文档的第 2 章。那里的背景知识将使您更容易理解第 3 章和第 4 章中的实际文件描述。
使用 UMLS 术语服务请求使用 UMLS 元词库的许可协议。需要许可协议是因为元词库包含由许多不同版权持有者制作的词汇表。您可以在最小限制下使用元词库的大部分内容,但如果您希望使用元词库中包含的某些词汇表,则可能需要从个别词汇表制作者处获得额外许可。UMLS 许可协议中解释了各种限制级别。
一旦您申请了许可证并激活了您的 UTS 帐户,请使用 UTS 对元同义词库、语义网络和专家词典的内容以及对应用程序开发人员有用的其他特殊资源进行初步浏览和探索。
【要用UTS访问,MetamorphoSys 可以从UTS下载,用来生成自定义子集】
如果您需要 UMLS 文件的本地副本,请使用本文档第 8 章中描述的 MetamorphoSys 安装和自定义程序来生成它们。您可能会发现尝试各种选项来生成自定义子集很有用。MetamorphoSys 可从 UTS 下载,其中包含 UMLS 数据文件。
1.5. 有关 UMLS 的其他信息来源
除了提供指向 UMLS 文档和 UTS 的链接外,UMLS 网站还链接到有关 UMLS 知识源和 UTS 的资料表、常见问题解答、培训材料以及有关使用 UMLS 的 NLM 应用程序和研究项目的信息。UMLS快速入门指南提供了 UMLS 的简要概述,并包含指向更详细信息的链接。可以从 MEDLINE/PubMed 检索有关 UMLS 项目和资源的文章。单击此处获取当前搜索。
【这里把关键词换成UMLS后,能找到大量相关研究,对科研很有用】
还提供了一份全面的 1986-1996 年 UMLS 项目书目,涵盖了未编入 MEDLINE/PubMed 索引的其他论文。
强烈建议 UMLS 用户订阅 UMLS 用户列表服务。NLM 使用列表服务向用户寻求建议并分发有关即将推出的 UMLS 开发的新闻;用户分享经验或获得有关使用 UMLS 资源的建议。要订阅,请向vog.hin.tsil@vrestsil
发送电子邮件,其中包含以下消息:SUBSCRIBE UMLSUSERS-L
2 元同义词库
最后更新:2021 年 8 月 20 日。
2.1. 概述
元词库是一个非常庞大、多用途和多语言的词汇数据库,其中包含有关生物医学和健康相关概念、其各种名称以及它们之间的关系的信息。元词库专为系统开发人员使用而设计,它基于各种词库、分类、代码集和受控术语列表的电子版本,这些词库用于患者护理、医疗服务计费、公共卫生统计、索引和编目生物医学文献以及/或基础、临床和医疗服务研究。这些被称为元词库的“源词汇”。元词库一词借鉴了韦氏词典对前缀“meta”的第三个定义,即“更全面、超越”。从某种意义上说,元词库超越了它所包含的特定词库、词汇和分类。
元同义词库按概念或含义组织。本质上,它将同一概念的不同名称和观点联系起来,并识别不同概念之间的有用关系。
元同义词库与其他 UMLS 知识源(语义网络和专业词典)相链接。元同义词库中的所有概念都分配给语义网络中的至少一种语义类型。这在语义网络所表示的相对通用的层面上为元同义词库中的所有概念提供了一致的分类。元同义词库中概念名称或字符串中出现的许多单词和多词术语也出现在专业词典中。词汇工具用于生成元同义词库的单词、规范化单词和规范化字符串索引。
【词汇工具在第六章】
MetamorphoSys是用于定制 Metathesaurus (元词库)以用于特定目的的软件工具。MetamorphoSys 也是所有 UMLS 资源的安装程序。UMLS 许可证持有者可以从UMLS 网站下载UMLS 知识源。为确保功能正常,您应将所有 UMLS 数据和 zip 文件下载并解压到同一目录中。
2.1.1. 元同义词库的范围
元同义词库的范围由其源词汇表的组合范围决定。许多关系(主要是同义词)、概念属性和一些概念名称都是在元同义词库的创建和维护过程中由 NLM 添加的,但基本上所有概念本身都来自一个或多个源词汇表。通常,如果某个概念未出现在任何源词汇表中,则它也不会出现在元同义词库中。
2.1.2. 保留源词汇的内容和含义
元词库反映并保留了源词汇中的含义、概念名称和关系。当两个不同的源词汇表对不同的概念使用相同的名称时,元词库会同时表示这两种含义,并指出哪种含义存在于哪个源词汇表中。当同一个概念出现在不同源词汇表的不同层次上下文中时,元词库会包含所有层次结构。当两个概念之间的冲突关系出现在不同的源词汇表中时,元词库会同时包含这两种观点。尽管某些源词汇表中的特定概念名称或关系可能具有特殊性并且缺乏表面效度,但它们仍包含在元词库中。
换句话说,元词库并不代表由 NLM 编写的全面的生物医学本体或单一一致的世界观(除了分配给其所有概念的语义类型的高级层面)。元词库保留了其源词汇表中存在的许多世界观,因为这些不同的观点可能对不同的任务有用。
尽管元同义词库保留了源词汇表中的所有含义和内容,但它会将这些信息存储在一种通用格式中。每个词汇表的原生格式都经过仔细研究,然后“反转”为通用的元同义词库格式。对于某些词汇表,这涉及以更明确的格式表示隐含信息。例如,如果源词汇表将其首选概念名称存储为备选概念名称列表中的第一个出现项,则该第一个名称在元同义词库中被明确标记为该源的首选名称。
2.1.3. 需要定制元同义词库
由于它是一种多用途资源,包含来自许多为不同目的而开发的不同源词汇的概念和术语,因此必须对元同义词库进行定制,以便在大多数特定应用程序中有效使用。您关于在元同义词库的定制子集中包含什么内容的决定将对其在系统中的实用性产生重大影响。对某些目的至关重要的词汇源(例如用于实验室数据标准交换的 LOINC)可能对其他目的有害,例如自然语言处理 (NLP)。排除词汇源中发现的原本有用的概念名称子集也很重要,例如缺乏表面效度或在 NLP 中产生虚假结果的非标准缩写或缩写形式。
元词库包含由许多不同版权持有者制作的源词汇。元词库的大部分内容均可根据元词库许可证第 1-11 和 13-16 节中描述的基本(且相当开放)条款使用。但是,一些词汇制作者对元词库中分发的内容的使用施加了额外的限制。许可证第 12 节描述了不同级别的额外限制。适用于各个词汇的级别记录在当前 UMLS 发布文档的UMLS 源词汇文档页面以及MetamorphoSys安装和自定义程序中。如果您已经拥有使用其中一个源词汇的单独许可证,那么您现有的许可证也适用于元词库中分发的该源。在某些情况下,您可能必须请求许可或与词汇制作者协商单独的许可,才能在生产系统中使用该词汇。这些单独的许可或许可协议可能会产生费用。
元词库旨在方便定制。元词库中的所有信息都标有其来源,因此可以确定哪些概念名称、属性和关系来自哪些源词汇表,以及哪些属性和关系是在元词库构建期间添加的。标签允许您通过排除特定源词汇表(包括您没有必要许可证或权限的词汇表)中的信息来对元词库进行子集化。还可以轻松排除具有特定限制级别的所有源词汇表或特定语言的所有信息。除了识别其所含信息的来源、限制级别和语言之外,元词库还包括各种更具体的概念名称标记和关系标签,可帮助您排除与特定应用程序不相关或无用的内容。
MetamorphoSys是随 UMLS 一起分发的安装和定制程序,它可以轻松生成自定义子集。MetamorphoSys 还包括默认设置,可生成通常有用的子集。MetamorphoSys 还可用于更改概念的默认首选名称;更改默认字符集(从 7 位 ASCII 更改为 Unicode UTF8);并在每个 Metathesaurus 文件中包括版本化的词汇表源缩写。
2.1.4. 元同义词库发布格式
您可以从两种关系格式中进行选择:2004 年推出的Rich Release Format (RRF)和Original Release Format (ORF)。两者都是MetamorphoSys的输出选项。所有 Rich Release Format 文件名都带有扩展名 (.RRF)。Original Release Format 文件没有扩展名。这两种格式在第 3 章和第 4 章中进行了描述(通常缩写为 RRF 和 ORF)。
Rich Release Format 具有许多优点,是 Metathesaurus 新用户和大多数数据创建应用程序的首选格式。
前往:2.2. 源词汇
元词库包含来自 100 多个术语、分类和词库的概念、概念名称和其他属性,其中一些有多个版本。元词库中每个源词汇本身都有一个概念,其语义类型为“知识产品”。一个特殊文件(MRSAB.RRF 和 ORF 中的 MRSAB)存储元词库特定版本中存在的每个源词汇的版本。所有其他引用源词汇的元词库文件都使用“根”或无版本缩写,例如 ICD9CM,而不是 ICD9CM2003,从而避免了常规的批量更新以反映新版本。如果您希望在自定义元词库子集文件中使用版本化的词汇源缩写,MetamorphoSys 可提供此选项。
当前 UMLS 发布文档的UMLS 源词汇文档页面上列出了元词库源词汇及其根源和版本源缩写的完整列表。该列表按元词库中使用的词汇源的缩写字母顺序排列。UMLS 源词汇文档页面包含其他信息:元词库中存在的概念名称数量、其具有的层次结构或上下文类型(如果有),以及它是否是元词库中不定期更新的少数源词汇之一。
元词库源词汇包括专为患者记录系统设计的术语;用于统计报告和计费的大型疾病和程序分类;用于记录与精神病学、护理、医疗器械、药物不良反应等相关的数据的更狭义的词汇;来自专家诊断系统的疾病和查找术语;以及一些用于信息检索的词库。英语源词汇的分类列表可用。
2.2.1. 纳入美国标准代码集和术语
元同义词库包括美国在临床和行政健康数据电子交换中强制使用的术语和代码集。
2.2.2. 纳入英语以外的语言
元词库结构可以容纳其源词汇翻译成英语以外的其他语言。元词库的当前版本包含多种不同语言的翻译。元词库包含一些源词汇的多种翻译,例如 NLM 的医学主题词 (MeSH) 和国际初级保健分类;其他一个或多个,并且在许多情况下,只有英文版。如前所述,MetamorphoSys可以轻松创建元词库的子集,以排除与特定应用程序不相关的语言。
前往:2.3 概念、概念名称及其标识符
元词库按概念组织。其主要目的之一是将来自许多不同词汇表的同一概念的不同名称联系起来。除了保留源词汇表中存在的所有标识符外,元词库还为其包含的概念和概念名称分配几种唯一、永久的标识符。元词库概念结构包括概念名称、其标识符以及这些概念名称的主要特征(例如语言、词汇来源、名称类型)。整个概念结构出现在 Rich Release Format(MRCONSO.RRF)的单个文件中。概念结构的缩写版本分为 Original Release Format(MRCON 和 MRSO)中的两个文件。
2.3.1. 概念和概念标识符
概念即含义。含义可以有许多不同的名称。元同义词库构建的一个主要目标是理解每个源词汇表中每个名称的预期含义,并将所有源词汇表中具有相同含义的名称(同义词)联系起来。这不是一门精确的科学。元同义词库的构建基于这样的假设:经过专门训练的学科专家可以高度准确地确定同义词。元同义词库编辑决定在元同义词库概念结构中表示哪种同义词观点。请注意,每个源词汇表的同义词观点也存在于元同义词库中,无论其是否同意元同义词库的观点。
元词库中的每个概念或含义都有一个唯一且永久的概念标识符 (CUI)。CUI 没有内在含义。换句话说,您无法仅通过查看其 CUI 推断出有关概念的任何信息。原则上,概念的标识符永远不会改变,无论元词库或源词汇表中附加到该概念的名称如何随时间发生变化。
当发现两个 CUI 指代同一个概念时(即未发现的同义词出现时),CUI 将从元同义词库中删除。在这种情况下,两个 CUI 中的一个将被保留,元同义词库中的所有相关信息将与其链接,而另一个 CUI 将被淘汰。
已停用的 CUI 永远不会被重复使用。每个版本的 Metathesaurus 都包含详细说明与上一版本相比任何此类更改的文件。一个 Metathesaurus 文件(MRCUI.RRF 和 ORF 中的 MRCUI)跟踪了从 1991 年至今的此类更改,让您可以检查 Metathesaurus 中不再存在的任何 CUI 的命运。
2.3.2. 概念名称和字符串标识符
元词库中每种语言的每个唯一概念名称或字符串都有一个唯一且永久的字符串标识符 (SUI)。字符集、大小写或标点符号的任何变化都是一个单独的字符串,具有单独的 SUI。不同语言(例如英语和西班牙语)中的相同字符串将具有针对每种语言的不同字符串标识符。如果相同字符串(例如 Cold)具有多个含义,则字符串标识符将链接到多个概念标识符 (CUI)。
2.3.3. 原子和原子标识符
构成元词库的基本构建块或“原子”是来自每个源词汇表的概念名称或字符串。每个源词汇表中的字符串每次出现都会分配一个唯一的原子标识符 (AUI)。如果完全相同的字符串在同一词汇表中出现两次,例如,作为同一概念的长名称和短名称,或作为同一词汇表源中两个不同概念的替代名称,则每次出现都会分配一个唯一的 AUI。当同一个字符串出现在多个源词汇表中时,它每次作为每个源中的概念名称出现时都会有 AUI。所有这些 AUI 都将链接到单个字符串标识符 (SUI),因为它们代表同一字符串的出现。与字符串标识符不同,单个 AUI 始终链接到单个概念标识符,因为源中字符串的每次出现只能有一个含义。
AUI 出现在 RRF(.RRF 文件)中,但不出现在 ORF 中。
2.3.4. 术语和词汇标识符
仅对于 Metathesaurus 中的英语条目,每个字符串都通过通用术语标识符 (LUI) 链接到其所有词汇变体或小变体。(因此,在 Metathesaurus 中,英语“术语”是所有彼此词汇变体的字符串的组。)使用词汇变体生成器 (lvg) 程序(UMLS 词汇工具之一)检测英语词汇变体。随着其他语言的类似工具的出现,它们可用于创建其他语言的词汇变体组。(同时,非英语字符串的 LUI 实际上是另一个字符串标识符。)
和字符串标识符一样,英语字符串的 LUI 可能与多个概念相关联。当彼此词汇变体的字符串具有不同含义时,就会发生这种情况。相比之下,每个字符串标识符和每个原子标识符只能链接到一个 LUI。
2.3.5 概念、字符串、原子和术语标识符的使用
在 Metathesaurus 中,每个 CUI(概念)都链接到至少一个 AUI(原子)、SUI(字符串)和 LUI(术语),但也可以链接到其中的多个。每个 AUI(原子)都链接到一个 SUI(字符串)、一个 LUI(术语)和一个 CUI(概念)。每个 SUI(字符串)可以链接到多个 AUI(原子)、一个 LUI(术语)和多个 CUI(概念)——尽管典型情况是一个 CUI。每个 LUI(术语)可以链接到多个 AUI(原子)、多个 SUI(字符串)和多个 CUI(概念)——尽管典型情况是一个 CUI。
在表 1中的缩写示例中,Atrial Fibrillation 作为原子出现在多个源词汇表中,每次出现都有不同的 AUI。由于每个原子都有相同的字符串或概念名称,因此它们链接到单个 SUI。Atrial Fibrillations(Atrial Fibrillation 的复数)具有不同的字符串标识符。由于单数和复数是彼此的词汇变体,因此两者都链接到相同的 LUI。Auricular Fibrillation 及其复数 Auricular Fibrillations 有不同的 LUI 以及不同的 SUI 和 AUI。由于 Atrial Fibrillation 和 Auricular Fibrillation 被判断为具有相同的含义,因此它们链接到相同的 CUI。
所有这些标识符对于构建元词库、允许针对特定目的进行高效和准确的定制以及识别其概念和概念名称覆盖范围随时间的变化都具有重要作用。
例如,CUI 链接了元同义词库中与特定概念相关的所有信息。换句话说,CUI 可用于检索出现在任何元同义词库文件中的特定概念的所有概念名称、关系和属性。CUI 还可用作许多单个源词汇所链接的生物医学概念或含义的永久、公开标识符。强烈建议您将 CUI 纳入本地应用程序 - 以支持数据交换和链接,并协助在将来需要时使用单个源词汇进行迁移。
2.3.6. 元同义词库概念的默认首选名称
为了方便那些构建 Metathesaurus 的人,一个英文术语中的一个字符串被指定并标记为 Metathesaurus 中每个概念的默认首选名称。为了避免在备选术语和字符串中进行费力的选择,任何 Metathesaurus 概念的默认首选名称的选择都基于所有 Metathesaurus 源词汇表中所有类型的英文字符串的优先顺序。不同类型的字符串(例如,每个词汇表中的首选术语、交叉引用和缩写)在此顺序中的位置不同。在建立默认优先顺序时考虑的因素包括主题覆盖范围、更新频率以及源概念名称在常规临床或生物医学论述中的使用程度。默认优先顺序出现在 MRRANK.RRF(ORF 中的 MRRANK)中,以及当前 UMLS 发布文档的源和术语类型:默认优先顺序和可抑制性页面中。
默认优先顺序并不适用于 Metathesaurus 的所有应用。MetamorphoSys可用于更改首选名称的选择,以显示最适合特定用户群体的源词汇表中的术语。例如,在临床应用中,可能首选 SNOMED CT 中的概念名称,而在文献检索系统中,可能首选 MeSH 中的术语。
2.3.7. 具有多重含义的字符串
在某些情况下,同一个名称(有或没有大小写差异)可能适用于不同的概念,通常(但并非总是)出现在不同的 Metathesaurus 源词汇表中。在下面的缩写示例中,字符串“Cold”是某个词汇表中的温度名称。在另一个词汇表中,“Cold”是“普通感冒”的替代名称。在第三个词汇表中,“COLD”是“慢性阻塞性肺病”的首字母缩写词。因此,“Cold”或“COLD”在 Metathesaurus 中作为多个概念的名称出现。
2.3.7.1. 元同义词库中的歧义表示
单独的元词库文件(AMBIGLUI.RRF 和 AMBIGSUI.RRF(ORF 中的 AMBIG.LUI 和 AMBIG.SUI))包含元词库已知的所有歧义术语和字符串的 LUI 和 SUI。见表2。
2.3.8. 元同义词库构建过程中添加的概念名称
尽管元词库中的大部分概念名称都来自其一个或多个源词汇表,但有些概念名称是在元词库构建过程中创建的。这种情况发生在以下情况下:
1.为具有多重含义的字符串创建一个唯一的名称(第 2.3.7 节中解释的情况)
2.当某个概念的源词汇名称都无法充分表达其含义时,就会创建一个更明确的名称
3.根据英式拼写生成美式英语变体
4.为扩展字符集(如 Unicode)中的字符串生成等效的基本拉丁 ASCII 字符集字符串
与元词库中的所有其他概念名称一样,在元词库构建过程中创建的名称都带有标签以表明其来源。
前往:2.4. 关系和关系标识符
元词库包含不同概念之间的许多关系(除了第 2.3 节中描述的元词库概念结构中的同义词关系)。这些关系大部分来自各个源词汇表。有些是在元词库构建过程中由 NLM 添加的。有些是由元词库用户贡献的,用于支持某些类型的应用程序。
关系以 CUI(在 RRF 和 ORF 中)和 AUI(仅在 RRF 中)的形式表示。元同义词库关系文件不包含概念名称。
一般而言,元词库会标明每个关系的作者,即源词汇表之一、元词库本身或其他供应商。元词库开发初期添加的一些关系(占当前总数的不到 6%,且数量正在下降)归因于元词库,但实际上来自特定的源词汇表。
2.4.1. 非同义关系的基本类别
元同义词库包含同一源词汇表中的概念之间的非同义关系(源词汇表内关系),以及不同词汇表中的概念之间的非同义关系(源词汇表间关系)。元同义词库并不包含其所包含的概念之间所有可能的非同义关系。它包含其源词汇表中存在的所有关系,以及一些旨在连接相关概念的附加关系。一般而言,源词汇表所断言的关系将密切相关的概念连接起来,例如具有某些共同属性或在定义上相关的概念。例如,一类药物的成员(例如青霉素)将与该类别的名称(例如抗生素)相关联;细菌感染将与导致细菌感染的细菌相关联。
2.4.1.1. 源内关系
大多数源内关系由各个源词汇表断言或暗示。此类关系出现在源词汇表的显式或隐式层次结构或上下文、交叉引用结构、应用限定词的规则或同一概念的不同类型名称之间的连接(例如缩写和完整形式)中。主要的元词库关系文件,即 ORF 中的 MRREL.RRF 和 MRREL 包含“距离 -1”层次关系,即直接父级和直接子级关系,以及其他类型的源内关系。
上下文或层次关系的子集也分布在特殊的上下文文件(MRCXT.RRF 和 ORF 中的 MRCXT)中,以方便构建用户显示。完整层次结构的“可计算”表示仅在 MRHIER.RRF 中提供。例如,即使有数千个兄弟关系,MRHIER.RRF 也会表示所有兄弟关系。UMLS源词汇表文档页面指示哪些源词汇表具有层次结构上下文,其中哪些允许概念出现在多个层次结构中,以及兄弟关系是否在 MRHIER.RRF 中表示。
如果 ORF 用户不想要这些选定的、预先计算的上下文,他们可以省略 MRCXT。
2.4.1.2. 源间关系
元词库中的主要源间关系是元词库概念结构中表示的同义词关系。元词库还包括来自不同源词汇的非同义词概念之间的一些关系。其中一些源间关系是在元词库构建过程中生成的,以将特定的“孤立”概念(祖先很少或没有祖先,或在其自己的源词汇表中有子代)与另一个源词汇表中更丰富的上下文信息联系起来。有些是由元词库用户提供的,他们发现“类似”或“相似”关系是对元词库相对严格的同义词观点的有益补充。在这两种情况下,这些关系都分布在 MRREL.RRF 和 MRREL 中的 ORF 中。
许多非同义概念之间的源间关系是通过在两个不同的源词汇表之间创建映射而产生的。这些映射可能由单个源词汇表制作者、有特定映射需求的第三方、或由 NLM 创建或在 NLM 监督下专门用于在元词库中分发。预计 NLM 监督的映射数量将会增加。RRF 中有用于映射的特定元词库文件(MRMAP.RRF 和 MRSMAP.RRF)。映射的子集出现在 ORF 中的 MRATX 中。涉及 SNOMED CT 的映射仅出现在 RRF 中。
2.4.2. 关系标签
元词库中的所有关系(基本概念结构之外)都带有通用标签 (REL),描述其基本性质,例如更广泛、更狭窄、子级、限定词等,并由其来源标识。大多数这些关系要么直接在源词汇表中断言,要么由源词汇表的结构暗示。通用关系标签的完整列表出现在 MRDOC.RRF 和当前 UMLS 发布文档的数据元素中使用的缩写页面上。
元词库中约四分之一的关系还带有从源词汇表获得的附加标签 (RELA),该标签更准确地解释了关系的性质,例如 is_a、branch_of、component_of。Digital Anatomist 词汇表和 RxNorm 是包含此类关系标签的源词汇表的示例。附加关系标签的完整列表出现在 MRDOC.RRF 中以及当前 UMLS 发布文档的“数据元素中使用的缩写”页面上。
2.4.3. 关系标识符
元同义词库中存在的每种关系都有一个唯一的关系标识符 (RUI)。这些标识符的主要目的是便于检测元同义词库不同版本中关系的变化。关系标识符的出现或消失表明元同义词库中存在的关系发生了变化。
一些源词汇表有自己的关系标识符。如果存在,这些标识符也会出现在元同义词库中。
2.4.4. 关系组
关系组是源断言或隐含的关系关联,可用于在存在多个关系时增加含义或清晰度。合在一起,每个分组可能表达比未分组时更丰富的含义。关系组可以在 MRREL.RRF 中通过具有相同 AUI2 和相同关系组 (RG) 数值的行来识别。关系组的数值根据与相同 AUI2 相关联的关系组的数量而增加。空值表示不存在关系分组。如果认为关系已过时,则关系可能是可抑制的,这由 SUPPRESS 字段中的 O 值表示。
CUI1 | AUI1 | STYPE1 | REL | CUI2 | AUI2 | STYPE2 | RELA | RUI | SRUI | SAB | SL | RG | DIR | SUPPRESS |CVF
C0024109|A3154872|SCUI|RO|C0264408| A2957612 |SCUI|has_finding_site|R14028961|994883025|SNOMEDCT_US|SNOMEDCT_US|0|Y|O||
C0231335|A2926532|SCUI|RO|C0264408| A2957612 |SCUI|occurs_in|R123147138|1795540028|SNOMEDCT_US|SNOMEDCT_US|0|Y|N||
C0006255|A3104303|SCUI|RO|C0264408| A2957612 |SCUI|has_finding_site|R98157815|3465258024|SNOMEDCT_US|SNOMEDCT_US|1|Y|O||
C0028778|A2873893|SCUI|RO|C0264408| A2957612 |SCUI|具有关联形态|R98053314|3419439024|SNOMEDCT_US|SNOMEDCT_US|1|Y|O||
在此示例中,关系组 0 将关系从 A2957612“儿童哮喘”分组到 A2926532“儿童”和 A3154872“肺结构”,以明确“儿童哮喘”存在于儿童肺部。
关系组 1 将 A2957612“儿童哮喘”与 A3104303“支气管结构”和 A2873893 的关系分组在一起,以表明“儿童哮喘”的特征是支气管阻塞。
在 SNOMEDCT_US 中,关系组是源断言的。MRREL.RRF 的 SRUI 字段包含分配给关系的 SNOMEDCT 断言的唯一标识符。有关 SNOMED CT 中关系组的详细描述,请参阅SNOMED CT 文档库。
在 MeSH 和 MedlinePlus 中,关系组由出现在相同 MeSH 映射到标题下的描述符 (SDUI) 和限定符暗示来源。MeSH 示例:
D012694
丝氨酸
*Q000031
类似物和衍生物
这种关联在 UMLS 中表示为 tagged_to 和 has_mapping_qualifier 关系的分组,将与 DescriptorName 和 QualifierName 字符串相对应的 AUI 连接到 MeSH Mapped To Heading 的 AUI。
CUI1 | AUI1 | STYPE1 | REL | CUI2 | AUI2 | STYPE2 | RELA | RUI | SRUI | SAB | SL | RG | DIR | SUPPRESS |CVF
C0002776|A3879704|SDUI|RO|C0067636| A0207764 |SDUI| has_mapping_qualifier |R148279824||MSH|MSH|1||N||
C0036720|A0115503|SDUI|RN|C0067636| A0207764 |SDUI|映射到|R148155946||MSH|MSH|1||N||
关系组链接了这些关系,以澄清 A0207764“N-乙酰-4-硝基苯基丝氨醇”映射到 A0115503“丝氨酸”并具有映射限定符 A3879704“类似物和衍生物”。
前往:2.5. 属性和属性标识符
在元同义词库中,属性包括关于概念、原子或关系的每个离散信息,这些信息不是 (1) 基本元同义词库概念结构的一部分,也不是 (2) 分布在关系文件之一中。
2.5.1. 属性种类
元词库包括概念属性、原子属性和关系属性。
概念属性是在元词库构建过程中添加的,适用于概念的所有名称。例如,语义类型“病理功能”和“发现”是首选名称为“心房颤动”的概念的属性,适用于与该概念相关的任何原子。
原子属性来自特定的源词汇表。其中一些具有普遍意义;其他仅与特定的源词汇表相关。例如,定义“心律失常,特征是快速、不规则的心房冲动和无效的心房收缩”是原子心房颤动的属性,来自医学主题词 (MeSH)。它可能是与此概念的名称相关的几个定义之一,因为 Metathesaurus 包括其任何源词汇表提供的所有定义。虽然这个特定的定义来自 MeSH,但它可能在不使用 MeSH 的 Metathesaurus 应用程序中很有用。相比之下,将字符串(原子)添加到源词汇表的日期仅适用于该特定原子。特定原子属性的效用对于 Metathesaurus 的不同应用程序会有很大差异。
关系属性来自特定的源词汇表,并描述该源中特定关系的特殊特性,例如可细化性。
大多数属性分布在 ORF 中的 MRSAT.RRF 和 MRSAT 中。在这些文件中,每行都包含属性的名称、属性的来源和属性的值,以及所有适当的标识符。选定的属性有单独的文件,例如语义类型(ORF 中的 MRSTY.RRF 和 MRSTY)和定义(ORF 中的 MRDEF.RRF 和 MRDEF)。
2.5.2. 属性标识符
元词库中每个属性的每次出现都会被分配一个唯一的属性标识符 (ATUI)。ATUI 的出现或消失表示元词库内容发生了变化,因此 ATUI 有助于高效地为每个新版本的元词库生成完整的变更集。ATUI 仅出现在 RRF 中,而不出现在 ORF 中。
前往:2.6. 有关元同义词库的数据
元词库包含许多文件,可提供有用的元数据,即有关元词库本身的数据。元数据文件描述了 (1) 元词库当前版本的特点;(2) 当前版本与前一版本之间的变化;以及 (3) 从 1991 年至今概念标识符 (CUI) 的历史记录。
2.6.1. 当前元同义词库的特点
有以下离散元同义词库文件:
- 每个元词库文件(MRFILES.RRF 和 ORF 中的 MRFILES)的名称和大小
- 每个元词库数据元素(MRCOLS.RRF 和 ORF 中的 MRCOLS)的名称和大小范围
- 包含一组有限缩写值的选定数据元素的可能值(仅限 MRDOC.RRF)。注意:最终此文件将包含包含一组有限缩写值的每个数据元素的值。
- 元词库中的源词汇(MRSAB.RRF 和 ORF 中的 MRSAB)
- 元同义词库中已知具有歧义(即具有多重含义,可链接到多个概念标识符)的术语和字符串的 LUI 和 SUI(RRF 中的 AMBIGLUI.RRF 和 AMBIGSUI.RRF 以及 ORF 中的 AMBIGLUI 和 AMBIGSUI)
- 用于计算元词库中每个概念的默认首选概念名称(MRRANK.RRF 和 ORF 中的 MRRANK)的词汇源和术语类型的优先顺序。注意:可以使用 MetamorphoSys 更改此顺序。
MRCOLS、MRDOC、MRSAB 和 MRRANK 包含实际 Metathesaurus 内容文件中未出现的数据。其他数据可从 Metathesaurus 内容文件中计算得出。它们已预先计算,并以单独的文件形式提供,以方便用户使用。
2.6.2. 当前元同义词库与先前版本之间的差异
每个版本的元同义词库都包含一组文件,总结了与上一版本相比的变化。
RRF 中的 CHANGE/MERGEDCUI.RRF(ORF 中的 CHANGE/MERGED.CUI)记录了先前版本的 Metathesaurus 中两个离散概念现在被视为同义词的情况。
RRF 中的 CHANGE/MERGEDLUI.RRF(ORF 中的 CHANGE/MERGED.LUI)记录了基于当前版本的 luinorm(用于计算它们的程序)将 Metathesaurus 先前版本中的两个离散术语识别为彼此的词汇变体的情况。
三个文件包含先前版本中出现但当前版本中没有的 Metathesaurus 概念、术语和字符串的 CUI、LUI 和 SUI(RRF 中的 CHANGE/DELETEDCUI.RRF、CHANGE/DELETEDLUI.RRF、CHANGE/DELETEDSUI.RRF 以及 ORF 中的 CHANGE/DELETED.CUI、CHANGE/DELETED.LUI、CHANGE/DELETED.SUI)。
注意:未来版本的 Metathesaurus 变更文件将仅提供 RRF 中的关系和属性。这些文件的生成取决于 Metathesaurus 2004AA 版本中引入的关系和属性标识符(RUI 和 ATUI)。
2.6.3. 历史 CUI
已停用的 CUI 文件(RRF 中的 MRCUI.RRF 和 ORF 中的 MRCUI)包括 Metathesaurus 任何先前版本中存在的所有 CUI,但不包括当前版本。通常,该文件将已停用的 CUI 映射到一个或多个当前 CUI。
前往:2.7. 概念名称索引
为了帮助系统开发人员构建应用程序来检索包含特定单词或单词组的所有字符串或概念名称,提供了三个概念名称索引:单词索引、规范化单词索引(仅适用于英文单词)和规范化字符串索引(仅适用于英文字符串)。这些索引分别在第 2.7.1、2.7.2 和 2.7.3 节中描述。为了使它们之间的区别更清晰,示例包括以下元词库概念名称集的每个索引中出现的单词或字符串:
阻塞性肺疾病 | (C0600260、L0024117、S0058463) |
阻塞性肺病 | (C0600260、L0024117、S0068169) |
阻塞性肺病 | (C0600260、L0024117、S0058458) |
阻塞性肺病 | (C0600260、L0024117、S0068168) |
Lung Diseases, Obstructive(C0600260, L0024117, S0058463)
Obstructive Lung Diseases(C0600260, L0024117, S0068169)
Lung Disease, Obstructive(C0600260, L0024117, S0058458)
Obstructive Lung Disease(C0600260, L0024117, S0068168)
2.7.1. 词索引
2.7.1.1. 描述
单词索引将任何 Metathesaurus 字符串中的每个单词与其所有相关的字符串、术语和概念标识符联系起来。Metathesaurus 中每种语言都有单独的单词索引文件。
每种语言中每个唯一字符串中的每个单词都有一个条目。每个条目有五个子元素。
1.LAT - 语言的 3 个字母缩写
2.WD-Word
3.CUI-- 概念唯一标识符
4.LUI-- 术语唯一标识符
5.SUI-- 字符串唯一标识符
2.7.1.2. 单词的定义
在这个索引中,单词被定义为仅包含长度为 1 或更大的字母数字字符的标记;有关更多信息,请参阅SPECIALIST 词典和词汇工具。
2.7.1.3. 词索引示例
对于上面列出的四个示例概念名称,单词索引将包含以下每个单词的多个条目:disease、diseases、lung、obstructive。下面显示了针对名称 Lung Disease、Obstructive 和 Obstructive Lung Disease 生成的两个条目:
ENG|disease|C0600260|L0024117|S0058458|
ENG|disease|C0600260|L0024117|S0068168|
2.7.2. 规范化词索引
2.7.2.1. 描述
规范化单词索引将每个单独的规范化英文单词与其所有相关的字符串、术语和概念标识符连接起来。
每个唯一英语字符串中找到的每个规范化单词都有一个条目。此索引中没有其他语言的条目。每个条目有五个子元素。
1.LAT-(在此版本的 Metathesaurus 中始终为 ENG)
2.NWD-- 规范化词
3.CUI-- 概念唯一标识符
4.LUI-- 术语唯一标识符
5.SUI-- 字符串唯一标识符
2.7.2.2. 规范化词的定义
规范化过程包括将字符串拆分成组成单词、将每个单词小写并将其转换为非变格形式。规范化单词是通过对每个单词进行非变格处理并删除少量停用词来生成的。如果单词出现在词典中,则使用 SPECIALIST 词典生成非变格形式;否则,则通过算法生成。
2.7.2.3. 规范化单词示例
对于上面列出的四个示例概念名称,规范化单词索引将包含以下每个单词的多个条目:disease、lung、obstructive。由于规范化单词索引仅包含基本形式,因此不包含复数“diseases”的条目。因此,在此索引中,所有四个概念名称都链接到规范化单词“disease”,如下所示:
ENG|disease|C0600260|L0024117|S0058458|
ENG|disease|C0600260|L0024117|S0058463|
ENG|disease|C0600260|L0024117|S0068168|
ENG|disease|C0600260|L0024117|S0068169|
2.7.3. 规范化字符串索引
2.7.3.1. 描述
规范化字符串索引将元同义词库字符串的规范化形式与其所有相关字符串、术语和概念标识符联系起来。每个唯一的(非规范化的)英语字符串都有一个条目。此索引中没有其他语言的条目。每个条目有五个子元素。
1.LAT-(在此版本的 Metathesaurus 中始终为 ENG)
2.NSTR-- 规范化字符串
3.CUI-- 概念唯一标识符
4.LUI-- 术语唯一标识符
5.SUI-- 字符串唯一标识符
2.7.3.2. 规范化字符串的定义
规范化过程包括将字符串拆分成组成单词、将每个单词小写、将每个单词转换为非变格形式,并按字母顺序对单词进行排序。规范化字符串是通过对每个单词进行非变格处理并省略少量停用词来生成的。如果单词出现在词典中,则使用 SPECIALIST 词典生成非变格形式;否则,则通过算法生成。
2.7.3.3. 规范化字符串示例
由于上面列出的四个示例概念名称由同一组规范化单词组成,因此规范化字符串索引将包含单个字符串的四个条目:disease lung obstructive,其中组件规范化单词按字母顺序出现。由这四个概念名称生成的完整规范化字符串索引条目集如下:
ENG|disease lung obstructive|C0600260|L0024117|S0058458|
ENG|disease lung obstructive|C0600260|L0024117|S0058463|
ENG|disease lung obstructive|C0600260|L0024117|S0068168|
ENG|disease lung obstructive|C0600260|L0024117|S0068169|
2.7.4. 单词索引程序
生成这些索引的程序是用 Java 编写的。它们可能对正在开发自己的 UMLS 数据接口或用于其他目的的系统开发人员有用。第 6 章包含有关这些以及 UMLS 知识源提供的其他词汇程序的信息。
前往:2.8. 字符集
UMLS 知识源以 Unicode 形式分布(具体来说,以 Unicode 4.0 标准 [1] 的 UTF-8 编码形式),以避免复杂性和信息丢失。
Unicode 是一个统一且可互操作的全球标准,其中包括用任何语言书写所需的字符(请参阅www.unicode.org)。Unicode 还包括变音符号、表意文字、科学符号和其他符号。大多数现代系统已使用 Unicode;我们强烈建议您升级到兼容 Unicode 的系统和软件。
7 位基本 ASCII 字符集是来自最古老的 ASCII 标准的 96 个字符和符号的“最小公分母”字符集。UTF-8 与 7 位 ASCII 范围内字符的 ASCII 编码相同,因此 7 位 ASCII 文件自动成为 UTF-8 的正确子集。这意味着最初以 7 位 ASCII 编码的源保持不变。在 UMLS 中,术语“扩展字符”是指此 7 位 ASCII 子集之外的所有 Unicode 字符。所有其他字符集都转换为 UTF-8 并以 UTF-8 分发。
请注意,UMLS LAT(术语语言)是源声明的语言。由于世界上没有使用 7 位 ASCII 的语言,因此源通常包含符号或其他语言的扩展字符,例如在人名中。
MetamorphoSys 默认以标准 UTF-8 输出所有记录和数据。选中“删除包含扩展 UTF-8 字符的记录”选项将从子集中排除所有包含扩展字符的术语和其他数据。这将在层次结构中造成空白,并可能导致对您的应用程序至关重要的词汇丢失。
对于大多数英语或西班牙语源,即 LAT = ENG 或 SPA,会为 UMLS 创建等效的 7 位 ASCII 字符串,以帮助旧系统的用户。如果您希望使用它们,则这些形式不能排除在您的子集之外。这些形式由 lvg 程序创建(请参阅第6.8 节中的词汇变体生成部分)。该程序可能会引起那些希望进行进一步转换的人的兴趣;它将扩展字符转换为官方 Unicode 字符名称的转义形式,以确保不会丢失任何信息。这些名称可能不是“读者友好的”,但对于某些目的(例如索引)很有用。
除非在 MetamorphoSys 中的“输出选项”选项卡上选择了“将 UTF-8 BOM 字符添加到输出文件”选项,否则 UTF-8 编码的 Metathesaurus 文件中不会出现初始字节顺序标记 (BOM) 字符。
文件将按字节排序(例如,对于 UTF-8 格式的数据,标准 UNIX 排序按预期工作)。请注意,UMLS 数据旨在通过数据库系统等软件工具进行操作,因此文件的排序顺序无关紧要。
前往:2.9. 内容视图
内容视图 (CV) 是元词库中任何可定义的子集,可用于某些特定目的。内容视图由 NLM 创建,或由外部机构提交给元词库。成员资格可以通过多种方式定义,包括:
- 随着时间的推移而维护的 Metathesaurus UI(CUI、SUI、AUI 等)列表。
- 参与视图的源列表。
- 一种复杂的查询或算法,它根据明确定义的标准计算原子集、源概念或关系,并且还可以配置为包含其他相关信息,例如属性或关系。
请参阅内容视图页面以获取当前版本中的内容视图列表。
2.9.1. RRF中内容视图元数据的表示
关于每个内容视图的更高级别的信息作为概念直接包含在 Rich Release Format (RRF) 文件中,如下所述。
2.9.1.1. MRCONSO.RRF
每个内容视图由 MRCONSO 中的一个概念表示,该概念具有 SAB=MTH 和 TTY=CV 的原子:
STR = <内容视图名称>,例如“MetaMap NLP 视图”
CODE = NOCODE
TTY = CV
SAB = MTH
SAUI、SCUI、SDUI = null
2.9.1.2. MRSTY.RRF
每个内容视图概念都被分配“知识产品”作为语义类型(STY)。
2.9.1.3. MRSAT.RRF
每个内容视图都具有必需的元数据属性,这些属性出现在 MRSAT 中:
ATN | ATV |
---|---|
CV_ALGORITHM | Content View algorithm |
CV_CATEGORY | Content View category |
CV_CLASS | Content View class |
CV_CODE | Content View code |
CV_CONTRIBUTOR_DATE | Date corresponding to the contributor version of this Content View |
CV_CONTRIBUTOR_URL | URL corresponding to the contributor version of this Content View |
CV_CONTRIBUTOR_VERSION | Version of this Content View submitted by the contributor |
CV_CONTRIBUTOR | Content View contributor |
CV_DESCRIPTION | Content View description |
CV_IS_GENERATED | Content View generated: Y/N |
CV_MAINTAINER_DATE | Date corresponding to the maintainer version of this Content View |
CV_MAINTAINER_URL | URL corresponding to the maintainer version of this Content View |
CV_MAINTAINER_VERSION | Version of this Content View submitted by the maintainer |
CV_MAINTAINER | Content View maintainer |
CV_PREVIOUS_META | Previous UMLS Metathesaurus version used to generate Content View. A null value means the Content View is generated based on current UMLS Metathesaurus version. |
CV_SUBCATEGORY | Content View subcategory |
2.9.2. 提取内容视图
2.9.2.1. 使用 MetamorphoSys
内容视图旨在使用 MetamorphoSys 进行提取。
要提取内容视图:
1.打开 UMLS MetamorphoSys 配置屏幕上的文件菜单。
2.选择“启用/禁用过滤器”-->“内容视图过滤器”。
3.单击“确定”。
4.在出现的配置面板中选择所需的内容视图。
生成的 RRF 子集中的内容视图标志 (CVF) 设置为一个整数,表示适用于每个数据元素的所选视图的 CV_CODE 值的总和。请参阅内容视图页面以了解 CV_CODE 值。注意:CVF 不以原始发布格式 (ORF) 表示。
例如,如果为“MetaMap NLP 视图”创建了一个子集,则 CVF 设置为 256(与“MetaMap NLP 视图”元数据概念中的 CV_CODE 属性匹配)。如果创建的子集包含两个内容视图,则参与两个内容视图的原子的 CVF 是每种情况下适用的 CV_CODE 值的总和。例如,包含参与“MetaMap NLP 视图”和“SNOMED CT 的核心问题列表子集”的原子的子集的 CVF 将为 2304(256 + 2048),即这两个内容视图的各自 CV_CODE 值的总和。注意:该子集中的某些原子仅属于“MetaMap NLP 视图”,因此仍具有 CVF 值 256,而其他原子仅属于“SNOMED CT 的核心问题列表子集”,CVF 值为 2048。
2.9.2.2. 直接从 RRF 文件
MetamorphoSys 之外的内容视图处理需要位域编程。如果您已经创建了 UMLS 子集,大多数 RRF 文件都包含一个内容视图标志字段来表示内容视图成员身份。CVF 由一个表示位掩码的整数组成。当解释为二进制数时,整数的每一位代表一个特定的内容视图 - 最多 64 个视图。这些位按从最低有效位到最高有效位的顺序分配。特定内容视图中的成员身份由相应位中的“1”表示。“0”表示它不是成员。位串被转换成十进制数以供显示。因此,如果第 9 位(256)和第 12 位(2048)分别设置为 1,则结果值将为 2304(或二进制中的 100100000000)。相应内容视图使用的位由该视图元数据中的 CV_CODE 属性定义。
考虑尝试查找从属于“MetaMap NLP 视图”的 MRCONSO.RRF 文件加载的 MRCONSO 表中所有行的情况。首先识别当前子集中的所有内容视图:
从 MRCONSO 中选择 *,其中 TTY='CV';
除其他结果外,此查询将产生所需内容视图的 CUI:C1700357。接下来,查询 MRSAT 以显示内容视图元数据,包括 CV_CODE 值:
从 MRSAT 中选择 ATN、ATV,其中 CUI='C1700357';
知道 CV_CODE (256) 后,最后一步是识别参与此内容视图的 MRCONSO 中的条目:
从 MRCONSO 中选择 *,其中 BITAND(CVF,256) <> 0;
此内容视图的 CV_CODE 为 256。当使用 CV_CODE (256) 将 BITAND 操作应用于 CVF 时,参与该内容视图的 MRCONSO 中的任何条目都将产生非零值。所有未参与内容视图的条目都将为此操作产生零值。
前往:2.10. 映射
元词库中的源间映射提供了从一个术语(源术语)中的实体到另一个术语(目标术语)中的实体的链接。实体可以是术语、代码、概念、描述符或表达式。映射可用于多种目的,包括:
- 将数据重新用于其他目的(例如,将使用 SNOMED CT 编码的临床信息转换为 ICD-9-CM 以用于报销目的)
- 在迁移到较新的术语要求时保留数据的价值(例如从 ICD-9-CM 更新到 ICD-10-CM)
鉴于地图应用的多样性,在针对特定用例进行评估时,了解地图的目的、方法、权威性和验证非常重要。
源间映射数据以 MRMAP.RRF 和 MRSMAP.RRF 表示,辅助数据以 MRCONSO.RRF、MRSTY.RRF 和 MRSAT.RRF 表示。映射数据也可以以 MRREL.RRF 中的关系形式冗余表示。
2.10.1. 元同义词库中的映射表示
源间映射数据使用以下规范表示(可能存在例外,例如最近未更新的地图集):
2.10.1.1. MRCONSO.RRF
对于 MRMAP.RRF 中表示的每个地图集,MRCONSO.RRF 中都有一个“跨映射集”概念。请注意,当地图集从一个版本更新到下一个版本时,CUI 会发生变化。
字段值分配如下:
- SAB:断言映射信息的源。例如,LCH_NW 提供了一个映射:LCH_NW_2013 到 MSH2015_2014_09_08 映射
这些映射集原子的 SAB 是“LCH_NW”。
- TTY:所有映射集原子的 XM
-
STR: 原子名称创建为“
到 映射<可选附加信息>”例如: - SNOMEDCT_2011_07_31 至 ICD9CM_2011 映射
- CODE:如果源中提供了地图集的适当标识符,则将使用该标识符作为 CODE。SAUI、SCUI 和 SDUI 也可以填充。如果没有可用的源声明标识符,则在 Metathesaurus 生成期间将生成以“MTHU”开头的 CODE。
例子:
C3826804|ENG|P|L11643734|PF|S14441772|Y|A23864609|LCH_NW|XM|MTHU000001|LCH_NW_2013 至 MSH2015_2014_09_08|0|N|256||
2.10.1.2. MRSTY.RRF
所有地图集概念都被分配了一个“知识产品”的 STY。
例子:
C3826807|T170|A2.4|智能产品|AT201718383|256||
2.10.1.3. MRSAT.RRF
每个地图集概念在 MRSAT.RRF 中都具有许多属性,可提供更多详细信息。可以在 MRSAT.RRF 中找到以下属性。这些属性使用 STYPE=CODE 附加。
Required Attributes:
ATN | ATV | Valid Values |
---|---|---|
FROMRSAB | Root source abbreviation for the "from" identifiers of a map set | range=MRSAB.RSAB |
FROMVSAB | Versioned source abbreviation for the "from" identifiers of a map set | range=MRSAB.VSAB |
MAPSETRSAB | Root source abbreviation for a map set - in general, the same as the value for FROMRSAB | range=MRSAB.RSAB |
MAPSETVERSION | Version of the map set | N/A |
MAPSETVSAB | Versioned source abbreviation for the provider of a map set | range=MRSAB.VSAB |
TORSAB | Root source abbreviation for the "to" identifiers of a map set | range=MRSAB.RSAB |
TOVSAB | Versioned source abbreviation for the "to" identifiers of a map set | range=MRSAB.VSAB |
必需属性:
航空运输网络 | 全地形车 | 有效值 |
---|---|---|
弗罗姆 | 地图集“来自”标识符的根源缩写 | 范围=MRSAB.RSAB |
弗罗姆 | 地图集“来自”标识符的版本化源缩写 | 范围=MRSAB.VSAB |
地图集 | 地图集的根源缩写 - 通常与 FROMRSAB 的值相同 | 范围=MRSAB.RSAB |
地图集版本 | 地图集版本 | 不适用 |
地图集VSAB | 地图集提供者的版本源缩写 | 范围=MRSAB.VSAB |
托尔萨布 | 地图集“to”标识符的根源缩写 | 范围=MRSAB.RSAB |
托夫萨布 | 地图集“to”标识符的版本化源缩写 | 范围=MRSAB.VSAB |
Optional Attributes: In general, these attributes are extracted directly from source-provided data and may have a diverse range of values and formats.
ATN | ATV |
---|---|
MAPSETGRAMMAR | Grammar used by expressions in FROMEXPR or TOEXPR fields |
MAPSETNAME | Official name of a map set |
MAPSETREALMID | Identifier of a "realm" to which a source is mapped, within which this cross mapping table is applicable. Used in cases where Realm specific business rules or guidelines alter the acceptable mappings. Realm is the same as used in SNOMED CT subsets. It includes a four character ISO6523 identifier followed by an optional series of concatenated subdivision codes defined by the registered organization. |
MAPSETRULETYPE | Indicates the types of rules used in a map set and cross map targets to which a source is mapped. |
MAPSETSCHEMEID | Standard identifier for the scheme to which a map set belongs. This may be an International Coding Scheme Identifier (ISO7826) or an Object Identifier (OID) used as specified by HL7. |
MAPSETSCHEMENAME | Full name of the target scheme in a map set. |
MAPSETSCHEMEVERSION | Version number of the target scheme (as published by the issuing organization) in a map set. |
MAPSETSEPARATORCODE | XML entity code (for example, "|" to represent the vertical-bar character) for the character used as a separator between the individual codes in the target codes field in a map set. |
MAPSETSID | Source asserted identifier for a map set. If present, matches the CODE in MRCONSO.RRF. |
MAPSETTYPE | Indicates the nature of a map set. Its value is map set specific. It can be used to indicate the inclusion of one to one, one to many, or rule based. |
MAPSETXRTARGETID | Map set target identifier used for XR mappings. Only used for map sets that explicitly map source codes to “nothing.” |
SOS | Scope statement |
TARGETSCHEMEID | Identifier for the target scheme in the map set. This may be an International Coding Scheme Identifier (ISO7826) or an Object Identifier (OID) used as specified by HL7. |
可选属性:一般来说,这些属性直接从源提供的数据中提取,可能具有多种值和格式。
航空运输网络 | 全地形车 |
---|---|
地图集语法 | FROMEXPR 或 TOEXPR 字段中的表达式使用的语法 |
地图集名称 | 地图集的正式名称 |
地图集范围 | 源映射到的“域”的标识符,此交叉映射表适用于该域。用于域特定业务规则或指南改变可接受映射的情况。域与 SNOMED CT 子集中使用的域相同。它包括一个四字符 ISO6523 标识符,后跟注册组织定义的一系列可选的连接细分代码。 |
地图规则类型 | 指示映射集和源映射到的跨映射目标中使用的规则类型。 |
地图集方案ID | 地图集所属方案的标准标识符。这可能是国际编码方案标识符 (ISO7826) 或 HL7 指定使用的对象标识符 (OID)。 |
地图集方案名称 | 地图集中目标方案的全名。 |
地图集方案版本 | 地图集中目标方案(由发布组织发布)的版本号。 |
地图集分隔符代码 | XML 实体代码(例如,“|”表示竖线字符),用于在地图集中的目标代码字段中用作各个代码之间的分隔符的字符。 |
地图集标识符 | 地图集的源声明标识符。如果存在,则与 MRCONSO.RRF 中的 CODE 匹配。 |
地图集类型 | 表示映射集的性质。其值特定于映射集。它可用于表示包含一对一、一对多或基于规则。 |
地图设置目标ID | 用于 XR 映射的映射集目标标识符。仅用于明确将源代码映射到“无”的映射集。 |
紧急求救 | 范围说明 |
目标方案ID | 映射集中目标方案的标识符。这可能是国际编码方案标识符 (ISO7826) 或 HL7 指定使用的对象标识符 (OID)。 |
Optional MTH Attributes: ATNs for attributes created during Metathesaurus source processing begin with “MTH_”.
View in own window
ATN | ATV | Valid Values |
---|---|---|
MTH_MAPFROMCOMPLEXITY | Two-part value indicating the complexity of "from" expressions used in a map set. Valid values can be combined in a comma-separated list | Part 1: SINGLE, LIST, or BOOLEAN_EXPRESSION Part 2: AUI, CODE, CUI, LUI, SAUI, SCUI, SDUI, SUI, or STR |
MTH_MAPFROMEXHAUSTIVE | Indicates whether or not the "from" source of a map set is completely mapped | Y/N |
MTH_MAPSETCOMPLEXITY | Indicates the overall complexity of a map set. To compute this field: 1. Compute FROMEXPR cardinality (left hand side) based on whether >1 FROMEXPR exists for same TOEXPR OR MTH_MAPTOCOMPLEXITY indicates MULTIPLE. 2. Compute TOEXPR cardinality (right hand side) based on whether >1 TOEXPR exists for same FROMEXPR OR MTH_MAPFROMCOMPLEXITY indicates MULTIPLE. 3. RULE_BASED if >1 non-null distinct MAPSUBSETID | N_TO_N, N_TO_ONE, ONE_TO_N, ONE_TO_ONE, or RULE_BASED |
MTH_MAPTOCOMPLEXITY | Two-part value indicating the complexity of "to" expressions used in a map set. Valid values can be combined in a comma-separated list | Part 1: SINGLE, LIST, or BOOLEAN_EXPRESSION Part 2: AUI, CODE, CUI, LUI, SAUI, SCUI, SDUI, SUI, or STR |
MTH_MAPTOEXHAUSTIVE | Indicates whether or not the "to" source is completely mapped | Y/N |
MTH_UMLSMAPSETSEPARATOR | The character used in the UMLS Metathesaurus as a separator between the individual codes in the target codes field of the cross map targets to which a source is mapped. | AND |
可选的 MTH 属性:在 Metathesaurus 源处理期间创建的属性的 ATN 以“MTH_”开头。
在自己的窗口中查看
航空运输网络 | 全地形车 | 有效值 |
---|---|---|
MTH_MAPFROMCOMPLEXITY | 两部分值,表示映射集中使用的“from”表达式的复杂性。有效值可以组合在逗号分隔的列表中 | 第 1 部分: SINGLE、LIST 或 BOOLEAN_EXPRESSION 第 2 部分: AUI、CODE、CUI、LUI、SAUI、SCUI、SDUI、SUI 或 STR |
MTH_MAPFROMEXHAUSTIVE | 指示地图集的“来自”源是否已完全映射 | 是/否 |
MTH_MAPSETCOMPLEXITY | 表示地图集的整体复杂度。要计算此字段: 1. 根据相同 TOEXPR 是否存在 >1 FROMEXPR 或 MTH_MAPTOCOMPLEXITY 指示 MULTIPLE,计算 FROMEXPR 基数(左侧)。 2. 根据相同 FROMEXPR 是否存在 >1 TOEXPR 或 MTH_MAPFROMCOMPLEXITY 表示 MULTIPLE,计算 TOEXPR 基数(右侧)。 3. RULE_BASED 如果 >1 非空不同 MAPSUBSETID | N_TO_N、N_TO_ONE、ONE_TO_N、ONE_TO_ONE 或 RULE_BASED |
MTH_MAPTOCOMPLEXITY | 两部分值,表示映射集中使用的“to”表达式的复杂性。有效值可以组合在逗号分隔的列表中 | 第 1 部分:SINGLE、LIST 或 BOOLEAN_EXPRESSION 第 2 部分:AUI、CODE、CUI、LUI、SAUI、SCUI、SDUI、SUI 或 STR |
MTH_MAPTOEXHAUSTIVE | 指示“目标”源是否已完全映射 | 是/否 |
MTH_UMLSMAPSETSEPARATOR | UMLS 元同义词库中用来作为源映射到的交叉映射目标的目标代码字段中各个代码之间的分隔符的字符。 | 和 |
例子:
C3826807|L11643734|S14441772|A23864609|CODE|MTHU000001|AT197916839||MAPSETRSAB|LCH_NW|LCH_NW|N||
C3826807|L11643734|S14441772|A23864609|CODE|MTHU000001|AT197916840||FROMVSAB|LCH_NW|LCH_NW_2013|N||
C3826807|L11643734|S14441772|A23864609|CODE|MTHU000001|AT197916842||TORSAB|LCH_NW|MSH|N||
2.10.1.4. MRMAP.RRF
MRMAP.RRF 包含有关相互映射的实体以及负责映射的源的信息。有关此文件的更多信息,请参阅第 3.3.13 节。
2.10.1.5. MRSMAP.RRF
此文件提供了 MRMAP.RRF 中大多数映射的更简单表示,以服务于不需要 MRMAP.RRF 数据结构的全部丰富的应用程序。有关此文件的更多信息,请参阅第 3.3.14 节。
2.10.1.6. MRREL.RRF
根据以下准则,映射子集在 MRREL.RRF 中以关系的形式冗余表示:
- FROMEXPR 和 TOEXPR 是简单表达式
- 地图集不是基于规则的
- REL 不是 XR
- 部分地图集可能以 MRREL 表示
目前没有简单的方法来识别 MRREL.RRF 中的跨源映射。这些关系的 RELA 目前包括“mapped_to/from”、“same_as”、“classified_as/classified_by”和空 RELA。所有这些 RELA 也用于源内 RELA。要识别跨源映射关系,请查找 MRREL.RRF 案例,其中 MRCONSO.RRF 中的 AUI1 和 AUI2 具有不同的 SAB 值,并且 STYPE1 和 STYPE2 都不是 CUI。
3 元同义词库 - 丰富发布格式 (RRF)
最后更新:2021 年 8 月 20 日。
Metathesaurus 用户可以从两种关系格式中进行选择:2004 年首次推出的 Rich Release Format (RRF) 和 Original Release Format (ORF)。这两种格式都可以作为MetamorphoSys(安装和自定义程序)的输出选项。
鼓励开发人员使用 RRF,它在源词汇透明度(即能够准确地表示每个源词汇的详细语义)方面具有显著优势;能够在元词库的版本之间生成完整和准确的变更集;并且更方便地表示概念名称、来源和分层上下文信息。
两种 Metathesaurus 格式都不是完全规范化的。根据设计,不同文件之间以及某些文件内的数据存在重复。特别是,不同的 Metathesaurus 概念之间的关系会出现两次(例如,从条目 A 到条目 B,从条目 B 到条目 A)。开发人员需要自行决定应在多大程度上保留、减少或增加这种冗余以适应其特定应用。
除MRRANK.RRF之外的所有文件都按行排序。
前往:3.1. 数据文件
每个元词库条目中的数据可能以 20 多个不同的关系或文件表示。这些文件对应于第 2.3 - 2.6 节中描述的四个逻辑数据元素组和第 2.7 节中描述的索引,如下所示:
- 概念、概念名称及其来源 ( 2.3 ) = MRCONSO.RRF
- 属性(2.5)= MRSAT.RRF、MRDEF.RRF、MRSTY.RRF、MRHIST.RRF
- 关系 ( 2.4 ) = MRREL.RRF、MRCXT.RRF、MRHIER.RRF、MRMAP.RRF、MRSMAP.RRF
- 有关元词库的数据 ( 2.6 ) = MRFILES.RRF、MRCOLS.RRF、MRDOC.RRF、MRRANK.RRF、MRSAB.RRF、AMBIGLUI.RRF、AMBIGSUI.RRF、CHANGE/MERGEDCUI.RRF、CHANGE/MERGEDLUI.RRF、CHANGE/DELETEDCUI.RRF、CHANGE/DELETEDLUI.RRF、CHANGE/DELETEDSUI.RRF、MRCUI.RRF
- 索引(2.7)= MRXW_BAQ.RRF、MRXW_DAN.RRF、MRXW_DUT.RRF、MRXW_ENG.RRF、MRXW_FIN.RRF、MRXW_FRE.RRF、MRXW_GER.RRF、MRXW_HEB.RRF、MRXW_HUN.RRF、MRXW_ITA.RRF、MRXW_NOR.RRF、MRXW_POR.RRF、MRXW_RUS.RRF、MRXW_SPA.RRF、MRXW_SWE.RRF、MRXNW_ENG.RRF、MRXNS_ENG.RRF
3.2. 列和行
每个文件或命名的数据值表按照定义都有固定数量的列;行数取决于特定版本的元同义词库的内容。
列是给定数据元素或逻辑子元素中所有值的序列。通常,较长的可变长度数据元素的列将显示在较短和/或固定长度数据元素的列的右侧。文件中所有列的信息在 MRCOLS.RRF 和当前版本文档的列和数据元素页面上描述。
一行包含一个 Metathesaurus 条目的一个或多个数据元素或逻辑子元素的值。根据所涉及的数据元素的性质,每个 Metathesaurus 条目在给定文件中可能具有一行或多行。行中表示的不同数据元素或逻辑子元素的值由竖线 (|) 分隔。如果可选元素为空白,则仍使用竖线来保持后续元素的正确定位。每行都以竖线和行终止符结束。
前往:3.3. 各文件说明
文件的描述按以下顺序出现:
1.关于元同义词库的关键数据:文件;列或数据元素;解释元同义词库数据元素和属性中出现的缩写含义的文档
2.概念名称及其词汇来源
3.属性
4.关系
5.有关元同义词库的其他数据
6.索引
每个文件描述列出了文件中出现的列或数据元素,并包括来自文件中的示例行。
3.3.1. 文件(文件 = MRFILES.RRF)
每个逻辑文件的每个物理段在此文件中只有一行。出现在多个文件中的数据元素(例如 CUI、AUI)将在此文件中占据多行。
Col. | Description |
---|---|
FIL | Physical FILENAME |
DES | Descriptive Name |
FMT | Comma separated list of column names (COL), in order |
CLS | of COLUMNS |
RWS | of ROWS |
BTS | Size in bytes in this format (ISO/PC or Unix) |
上校 | 描述 |
---|---|
外国投资局 | 物理文件名 |
数据加密标准 | 描述性名称 |
裂解酶 | 按顺序排列以逗号分隔的列名列表 (COL) |
中立证券 | 列数 |
远程工作站 | 行数 |
防弹少年团 | 此格式的大小(以字节为单位)(ISO/PC 或 Unix) |
样本记录
MRSTY.RRF|语义类型|CUI、TUI、STN、STY、ATUI、CVF|6|2630816|149735178|
3.3.2. 数据元素(文件 = MRCOLS.RRF)
每个文件中的每个列或数据元素在此文件中恰好占一行。出现在多个文件中的数据元素(例如 CUI、AUI)将在此文件中占多行。
Col. | Description |
---|---|
COL | Column or data element name |
DES | Descriptive Name |
REF | Documentation Section Number |
MIN | Minimum Length, Characters |
AV | Average Length |
MAX | Maximum Length, Characters |
FIL | Physical FILENAME in which this field occurs |
DTY | SQL-92 data type for this column |
上校 | 描述 |
---|---|
科尔 | 列或数据元素名称 |
数据加密标准 | 描述性名称 |
参考 | 文档章节编号 |
分钟 | 最小长度,字符 |
AV | 平均长度 |
最大限度 | 最大长度,字符 |
外国投资局 | 此字段所在的物理文件名 |
涤纶低弹丝 | 此列的 SQL-92 数据类型 |
样本记录
AUI|原子的唯一标识符||8|8.57|9|MRCONSO.RRF|varchar(9)|
CODE|源中字符串的唯一标识符或代码||1|7.23|30|MRCONSO.RRF|varchar(50)|
3.3.3. 缩写值的文档(文件 = MRDOC.RRF)
对于选定的数据元素或属性的每个允许值,此表中只有一行,这些元素或属性的允许值有有限数量的缩写。此类数据元素的示例包括 TTY、ATN、TS、STT、REL、RELA。
Col. | Description |
---|---|
DOCKEY | Data element or attribute |
VALUE | Abbreviation that is one of its values |
TYPE | Type of information in EXPL column |
EXPL | Explanation of VALUE |
上校 | 描述 |
---|---|
船用多基 | 数据元素或属性 |
价值 | 缩写,是其值之一 |
类型 | EXPL 列中的信息类型 |
扩张 | VALUE 的解释 |
样本记录
ATN|DDF|expanded_form|药物剂型(如咀嚼片)|
ATN|FDA_UNII_CODE|expanded_form|FDA UNII 代码|
*注:MetamorphoSys 生成的 MRDOC 文件包含有关发布本身的元数据。以下是记录示例:
RELEASE|mmsys.build.date|release_info|2010_10_19_11_52_39|
发布|mmsys.版本|发布信息|MMSYS-2010AB-20101019|
3.3.4. 概念名称和来源(文件 = MRCONSO.RRF)
此文件中恰好有一行对应于元词库中的每个原子(每个源词汇中每个唯一字符串或概念名称的每次出现),即,恰好有一行对应于元词库中的每个唯一 AUI。元词库中的每个字符串或概念名称都出现在此文件中,与其语言、源词汇和概念标识符相关联。TS、STT 和 ISPREF 的值反映了 MRRANK.RRF 中词汇源和术语类型的默认优先顺序。(表 1)
表 1.
概念名称和来源(文件 = MRCONSO.RRF)
样本记录
C0001175|ENG|P|L0001175|VO|S0010340|Y|A0019182||M0000245|D000163|MSH|PM|D000163|获得性免疫缺陷综合征|0|N||
C0001175|ENG|S|L0001842|PF|S0011877|N|A2878223|103840012|62479008||SNOMEDCT_US|PT|62479008|艾滋病|9|N|2304|
C0001175|ENG|P|L0001175|VO|S0354232|Y|A2922342|103845019|62479008||SNOMEDCT_US|SY|62479008|获得性免疫缺陷综合征|9|N|2304|
C0001175|FRE|S|L0162173|PF|S0226654|Y|A27478989||M0000245|D000163|MSHFRE|ET|D000163|SIDA|3|N||
C0001175|RUS|S|L0904943|PF|S1108760|Y|A13488500||M0000245|D000163|MSHRUS|SY|D000163|SPID|3|N||
3.3.5. 简单概念和原子属性(文件 = MRSAT.RRF)
对于没有子元素结构的每个概念、原子或关系属性,此表中只有一行。所有元词库概念和少数元词库关系在此文件中都有条目。此文件包括所有不属于其他类别的源词汇表属性。(表 2)
表 2.表 2.
简单概念和原子属性(文件 = MRSAT.RRF)
样本记录
C0001175|L0001175|S0010339|A0019180|SDUI|D000163|AT38209082||FX|MSH|D015492|N||
C0001175|||R54775538|RUI||AT173814751||CHARACTERISTIC_TYPE_ID|SNOMEDCT_US|900000000000011006|O||
C0001175|||R54775538|RUI||AT174785253||MODIFIER_ID|SNOMEDCT_US| 900000000000451002|O||
3.3.6. 定义(文件 = MRDEF.RRF)
此文件中只有一行对应于 Metathesaurus 中的每个定义。定义是原子(源词汇表中出现的字符串)的属性。一些定义的长度接近 3,000 个字符。(表 3)
表 3.表 3.
定义(文件 = MRDEF.RRF)
样本记录
C0001175|A0019180|AT38139119||MSH|与人类免疫缺陷病毒 (HIV) 感染相关的获得性细胞免疫缺陷,CD4 阳性 T 淋巴细胞计数低于 200 个细胞/微升或低于总淋巴细胞的 14%,并且更容易感染机会性感染和恶性肿瘤。临床表现还包括消瘦(消瘦)和痴呆。这些因素反映了 CDC 于 1993 年定义的艾滋病标准。|N||
C0001175|A0021048|AT51221477||CSP|一种或多种指示性疾病,取决于 HIV 感染的实验室证据(CDC);HIV 感染晚期的特征是免疫功能明显抑制,导致机会性感染、肿瘤和其他全身症状(NIAID)。|N||
C0001175|A7568512|AT198127773||NCI_NCI-GLOSS|由人类免疫缺陷病毒 (HIV) 引起的疾病。患有后天免疫缺陷综合征的人患某些癌症和感染的风险较高,而这些感染通常只发生在免疫系统较弱的个体中。|N||
3.3.7. 语义类型(文件 = MRSTY.RRF)
此文件中为每个概念分配的每种语义类型都只有一行。所有元同义词库概念在此文件中至少有一个条目。许多概念有多个条目。TUI、STN 和 STY 都是 UMLS语义网络的直接链接。
Col. | Description |
---|---|
CUI | Unique identifier of concept |
TUI | Unique identifier of Semantic Type |
STN | Semantic Type tree number |
STY | Semantic Type. The valid values are defined in the Semantic Network. |
ATUI | Unique identifier for attribute |
CVF | Content View Flag. Bit field used to flag rows included in Content View. This field is a varchar field to maximize the number of bits available for use. |
上校 | 描述 |
---|---|
崔 | 概念的唯一标识符 |
途易 | 语义类型唯一标识符 |
斯坦尼 | 语义类型树数量 |
斯特林 | 语义类型。有效值在语义网络中定义。 |
澳大利亚交通部 | 属性的唯一标识符 |
心血管功能衰竭 | 内容视图标志。用于标记内容视图中包含的行的位字段。此字段为 varchar 字段,用于最大化可用的位数。 |
样本记录
C0001175|T047|B2.2.1.2.1|疾病或综合征|AT17683839|2304|
3.3.8. 历史记录(文件 = MRHIST.RRF)
此文件跟踪源断言历史信息。它目前仅包含 SNOMED CT 历史记录。(表 4)
表 4.表 4.
历史记录(文件 = MRHIST.RRF)
样本记录
C0000294|108821000|SNOMEDCT|20001101|0|CONCEPTSTATUS|0|||
C0000294|108821000|SNOMEDCT|20020731|2|CONCEPTSTATUS|0|FULLYSPECIFIEDNAME CHANGE||
C0000294|1185494016|SNOMEDCT|20020731|0|DESCRIPTIONSTATUS|0|||
C0000294|1185494016|SNOMEDCT|20100731|2|DESCRIPTIONSTATUS|0|初始资本状态变更||
C0000294|1461100014|SNOMEDCT|20030131|0|DESCRIPTIONSTATUS|0|||
3.3.9. 相关概念(文件 = MRREL.RRF)
该表(表 5 )中每行对应Metathesaurus 所知的概念或原子之间的关系,但其他文件中存在以下例外:MRMAP.RRF 和 MRSMAP.RRF 中发现的两个源词汇之间的成对映射关系。
表 5.
相关概念(文件 = MRREL.RRF)
请注意,对于非对称关系,关系的每个方向都有一行。还请注意 REL 的方向 - 第二个概念或原子(具有概念唯一标识符 CUI2 和原子唯一标识符 AUI2)与第一个概念或原子(具有概念唯一标识符 CUI1 和原子唯一标识符 AUI1)之间的关系。
样本记录
C0002372|A0022283|AUI|SY|C0002372|A16796726|AUI||R55153988||RXNORM|RXNORM|||N||
C0002372|A0022283|AUI|RO|C2241537|A14211642|AUI|has_ingredient|R91984327||MMSL|MMSL|||N||
3.3.10. 共现概念(文件 = MRCOC.RRF - 2013AA 版本之后,此文件在 UMLS 中不再可用。)
注意:2013AA 版本发布后,UMLS 中不再提供共现信息。更新的共现数据可在MEDLINE 共现 (MRCOC) 页面的文本文件中获取。
该文件包括外部数据源中含义共现的统计汇总。这些存在于 AUI 级别。此表中每对原子在所表示的每个信息源中共现,每行有两行:关系的每个方向各一行。(请注意,关系的每个方向的 COA 数据可能不同。)许多 Metathesaurus 概念在此文件中没有条目。由于共现关系数量非常大,因此它们分布在单独的文件中。(表 6)
共现是指概念在某个信息源的相同条目中同时出现。此处表示的关系是通过对信息源进行机器处理获得的。共现关系可能存在于相似概念之间(例如,心房颤动和心律失常),也可能存在于非常不同但在生物医学领域具有重要联系的概念之间(例如,心房颤动和地高辛),也可能存在于主要概念和限定词之间(例如,碎石术和仪器)。两个没有其他明显关系的概念之间可能存在共现关系,尽管这种共现的频率会很小。
在当前的 Metathesaurus 中,有三个共现数据来源:MEDLINE、AI/RHEUM 和 CCPSS。从 MEDLINE 中,共现数据是针对在同一期刊文章中被指定为主要或要点的概念计算的,即,共现计数不包括其中一个或两个概念存在并在 MEDLINE 中编入索引但未被指定为要点的文章。(如果主标题或其任何子标题带有 *,则该概念被视为要点。)
提供了 MEDLINE 共现的两种总体频率:一种是最近的 MEDLINE 数据 (MED),另一种是前几年的 MEDLINE 数据 (MBD)。当第一个概念与第二个概念共现时,会提供不同的 MeSH 限定词或根本没有限定词的频率的单独计数。共现关系的每个方向都有单独的条目。每个条目中相关的子标题出现信息属于条目中的第一个概念,因此对于关系的每个方向都是不同的。
除了与两个共现概念相关的特定限定词信息之外,该元素还在具有共现类型的 LQ 和 LQB 值的条目中包含每个主要概念被特定子标题或无子标题限定的次数的总和。
AI/RHEUM 共现数据表示 AI/RHEUM 知识库中疾病和发现的共现情况,即与特定发现共现的疾病和与特定疾病共现的发现。每个疾病/发现对在 AI/RHEUM 知识库中只能共现一次。
在 CCPSS 中,共现数据是从病人记录中提取的,包括病人记录中的问题-问题共现以及问题-修饰词共现。
样本记录
C0000294|A0085139|C0002423|A0022422|MED|L|1|AD=1,TU=1||
C0000294|A0085139|C0003962|A0026887|MBD|L|1|AA=1,BL=1,PK=1||
C0000294|A0085139|C0006434|A0033347|MBD|L|1|AD=1,PD=1||
3.3.11. 可计算层次结构 (文件 = MRHIER.RRF)
此文件为各个原子出现的每个层次结构或上下文包含一行。如果源词汇表不包含层次结构,则其原子在此文件中不会有行。如果源词汇表是多层次的(允许同一个原子出现在多个层次结构中),则其中一些原子将在此文件中有多个行。MRHIER.RRF(表 7)提供了所有 Metathesaurus 源词汇表中存在的所有层次结构的完整而紧凑的表示。可以通过将此文件中的数据与 MRCONSO.RRF 中的数据相结合来计算层次结构显示。MRHIER.RRF 中表示的距离为 1 的关系(即直接父级和直接子级关系)也出现在 MRREL.RRF 中。
表 7.
可计算层次结构(文件 = MRHIER.RRF)
样本记录
C0001175|A2878223|1|A3316611|SNOMEDCT_US|isa|A3684559.A3886745.A2880798.A24813547.A3082701.A3316611|||
C0001175|A2878223|2|A23017839|SNOMEDCT_US|isa|A3684559.A3886745.A2880798.A24813547.A3082701.A3398847.A3398762.A2888699,A23017839| ||
C0001175|A2878223|3|A3316611|SNOMEDCT_US|isa|A3684559.A3886745.A2880798.A24813547.A3287869.A3316611|||
要查找层次结构中使用的特定概念名称,请查找 MRCONSO.RRF 中的 AUI 和 STR 数据元素中的原子标识符。
NLM 编辑器不声明概念级(CUI 到 CUI)层次关系。层次关系由原子级(AUI 到 AUI)的源声明。
对于大多数源词汇表,RELA 的值(如果存在)适用于层次结构中的顶部或根。换句话说,它也适用于原子的父级和原子的祖父级之间的关系等。此版本的 Metathesaurus 中的两个例外是 GO(基因本体论)和 NIC(护理干预分类)。除了 GO 和 NIC 原子外,原子祖先(父级、祖父级等)的 MRHIER 行不包含除源断言的层次编号或代码 (HCD) 之外的附加信息。如果对此不感兴趣,可能没有理由为原子的祖先找到 MRHIER 行。
要在特定上下文中查找原子的兄弟,请查找所有共享其 SAB、RELA* 和 PTR 值的 MRHIER.RRF 行。
要在特定上下文中查找原子的子项,请将句点 (.) 和原子的 AUI 附加到其 PTR,并查找所有 MRHIER.RRF 行及其 SAB、RELA* 和扩展的 PTR。
*需要 RELA 来检索华盛顿大学数字解剖学家 (UWDA) 层次结构的正确同级和子级。一些 UWDA 原子出现在多个层次结构中,这些层次结构仅通过其 RELA 值来区分。
3.3.12. 上下文(文件 = MRCXT.RRF)
该文件不再默认创建。它已被 MRHIER.RRF 取代,后者是层次结构的正确、完整且可计算的表示。需要 MRCXT(表 8 )文件的用户需要在创建子集后创建该文件。要创建 MRCXT 文件,请使用新的 MRCXT Builder 应用程序,可从 MetamorphoSys 欢迎屏幕访问。有关 MRCXT Builder 的信息可在UMLS - MetamorphoSys MRCXT Builder找到。以下信息描述了 MRCXT Builder 生成文件时的内容。
这个非常大的文件包含预先计算的层次结构上下文信息(包括概念名称),旨在方便显示 UMLS 源词汇表中的层次结构。可以通过将 MRHIER.RRF 文件与 MRCONSO.RRF 合并来计算此文件中的所有信息(加上其他兄弟关系)。对于任何 UMLS 源词汇表中层次结构中出现的原子,此文件中可以有许多行 - 即本讨论中的“上下文”。许多 Metathesaurus 概念有许多具有上下文的原子,而其他概念可能没有。每个上下文的行数取决于原子在该上下文中具有的祖先、兄弟或子术语的数量。由于某些原子在同一源中具有多个上下文,例如 MeSH,因此使用上下文编号(CXN - 例如 1、2、3)来标识同一上下文的所有成员。CXN 不是全局的,而是根据需要为每个原子创建的。可以使用 CUI-AUI-SAB-CXN 键检索单个原子的每个不同上下文。
样本记录
C0001175|S0011877|A0021048|CSP|1560-6271|4|ANC|5|获得性免疫缺陷|C0596032|A1171599|||||
C0001175|S0011877|A0021048|CSP|1560-6271|4|CCP||艾滋病|C0001175|A0021048|||||
C0001175|S0011877|A0021048|CSP|1560-6271|4|CHD||艾滋病相关肿瘤/癌症|C0920774|A1882809|||||
C0001175|S0011877|A0021048|CSP|1560-6271|4|SIB||毛细胞白血病|C0023443|A0480441|||||
3.3.13. 映射(文件 = MRMAP.RRF)
此文件包含词汇表之间的映射集。大多数映射都是两个不同词汇表的代码/标识符(或由代码/标识符形成的表达式)之间的映射。每组映射中至少有一个词汇表存在于 Metathesaurus 中;通常两个词汇表都存在。一组映射中出现的词汇表版本可能与其他 Metathesaurus 发布文件中出现的词汇表版本不同。映射集中词汇表的版本由映射集概念的 FROMVSAB 和 TOVSAB 属性指定(见下文)。用户应注意,映射仅在这些属性中指定的词汇表版本之间有效。映射集本身的版本由映射集概念的 MAPSETVERSION 属性指定。
MRMAP.RRF(表 9)文件很复杂,允许更复杂的映射。在可能的情况下,所有映射也都表示在下面描述的更简单的 MRSMAP.RRF 文件中。
表 9.表 9.
映射(文件 = MRMAP.RRF)
每组映射都由 MRCONSO.RRF 中的映射集概念表示(TTY = 'XM'),由 CUI(MAPSETCUI)标识。映射集的元数据在 MRSAT.RRF 中作为映射集概念的属性找到。每个映射集都有三个与之关联的 SAB 值:映射集本身的 SAB(MAPSETVSAB)、被映射源的 SAB(FROMVSAB)和被映射到的源的 SAB(TOVSAB)。因此,单个映射集仅声明从一个源到另一个源的映射。
映射的子集在 MRREL.RRF 中冗余地表示为映射至 (mapped_to) 和映射自 (mapped_from) 关系。这些是 UMLS 中两个词汇表之间的一对一映射。这些一般关系不如映射文件精确,因为映射集中词汇表的版本与其余元词库文件中词汇表的版本之间的任何差异都会被忽略。在少数情况下,此类差异可能会影响 MRREL.RRF 中关系的有效性。
有三组映射包含从元词库概念(由 CUI 表示)到由一个或多个概念名称形成的表达式的映射。这些映射以前称为关联表达式,并且都具有 MAPTYPE='ATX'。这些数据来自早期的映射工作,并在 ORF 中的 MRATX 文件中表示。
示例记录
图集概念(在 MRCONSO.RRF 中):
C1306694|ENG|P|L14542194|PF|S17644451|Y|A28926527||||MTH|XM|1000|MSH2018_2018_02_05 相关表达|0|N||
地图集元数据(在 MRSAT.RRF 中):
C1306694|L14542194|S17644451|A28926527|CODE|1000|AT232101656||MAPSETVERSION|MTH|2018_2018_02_05|N||
C1306694|L14542194|S17644451|A28926527|CODE|1000|AT232101657||TOVSAB|MTH|MSH2018_2018_02_05|N||
映射(在 MRMAP.RRF 中):
C1306694|MTH|||AT28307527||C0011764||C0011764|CUI|||RO||2201||<发育障碍> 和 <写作>|BOOLEAN_EXPRESSION_STR|||||ATX||||
C1306694|MTH|||AT52620421||C0010700||C0010700|CUI|||RN||1552||<膀胱>/<手术>|BOOLEAN_EXPRESSION_STR|||||ATX||||
3.3.14. 简单映射(文件 = MRSMAP.RRF)
此文件提供了 MRMAP.RRF 中大多数映射的更简单表示(表 10),以服务于不需要 MRMAP.RRF 数据结构的全部丰富性的应用程序。通常,支持基于规则的处理的映射需要 MRMAP.RRF 的附加字段(例如 MAPRANK、MAPRULE、MAPRES),并且不会在 MRSMAP.RRF 中表示。更具体地说,所有具有 MAPSUBSETID 和 MAPRANK 非空值的映射都将从 MRSMAP.RRF 中排除。
样本记录
C1306694|MTH|AT28312030||C0009215|CUI|SY||<可待因> 和 <药物过敏>|BOOLEAN_EXPRESSION_STR||
C1306694|MTH|AT28312033||C0795964|CUI|RU||<言语障碍>|BOOLEAN_EXPRESSION_STR||
3.3.15. 源信息(文件 = MRSAB.RRF)
Metathesaurus 在数据文件中具有“无版本”或“根”源缩写 (SAB)。MRSAB.RRF 将根 SAB 与当前版本的完整指定版本信息联系起来。例如,MeSH 的发布 SAB 现在只是“MSH”。在 MRSAB.RRF(表 11)中,您将看到当前版本的 SAB,例如 MSH2003_2002_10_24。MRSAB.RRF 允许所有其他 Metathesaurus 文件使用无版本源缩写,以便版本之间没有数据变化的所有行保持不变。MetamorphoSys 可以生成具有根或版本化 SAB 的文件,因此任何一种形式都可以在 Metathesaurus 的自定义子集中使用。
Table 11.
Source Information (File = MRSAB.RRF)
Field | Full Name | Description |
---|---|---|
VCUI | CUI | CUI of the versioned SRC concept for a source |
RCUI | Root CUI | CUI of the root SRC concept for a source |
VSAB | Versioned Source Abbreviation | The versioned source abbreviation for a source, e.g., MSH2003_2002_10_24 |
RSAB | Root Source Abbreviation | The root source abbreviation for a source e.g., MSH |
SON | Official Name | The official name for a source |
SF | Source Family | The source family for a source |
SVER | Version | The source version, e.g., 2001 |
VSTART | Meta Start Date | The date a source became active, e.g., 2001_04_03 |
VEND | Meta End Date | The date a source ceased to be active, e.g., 2001_05_10 |
IMETA | Meta Insert Version | The version of the Metathesaurus in which a source first appeared, e.g., 2001AB |
RMETA | Meta Remove Version | The version of the Metathesaurus in which the source last appeared, e.g., 2001AC |
SLC | Source License Contact | The source license contact field contains the following semi-colon-separated subfields: Name Title Organization Address 1 Address 2 City State/Prov. Country Zip Telephone Fax URL |
SCC | Source Content Contact | The source content contact field contains the following semi-colon-separated subfields: Name Title Organization Address 1 Address 2 City State/Prov. Country Zip Telephone Fax URL |
SRL | Source Restriction Level | 0, 1, 2, 3, 4, 9 - explained in the License Agreement |
TFR | Term Frequency | The number of terms for this source in MRCONSO.RRF, e.g., 12343 |
CFR | CUI Frequency | The number of CUIs associated with this source, e.g., 10234 |
CXTY | Context Type | The type of contexts for this source. Values are FULL, FULL-MULTIPLE, null. |
TTYL | Term Type List | Term type list from source, e.g., MH, EN, PM, TQ |
ATNL | Attribute Name List | The attribute name list (from MRSAT.RRF), e.g., MUI, RN, TH |
LAT | Language | The language of the terms in the source |
CENC | Character Encoding | All UMLS content is provided in Unicode, encoded in UTF-8. MetamorphoSys will allow exclusion of extended characters with some loss of information. Transliteration to other character encodings is possible but not supported buy NLM; for further information, see http://www.unicode.org |
CURVER | Current Version | A Y or N flag indicating whether or not this row corresponds to the current version of the named source |
SABIN | Source in Subset | A Y or N flag indicating whether or not this row is represented in the current MetamorphoSys subset. Initially always Y where CURVER is Y, but later is recomputed by MetamorphoSys. |
SSN | Source Short Name | The short name of a source as used by the UMLS Terminology Services |
SCIT | Source Citation | For sources released in 2014AA and later, the citation field contains the following semi-colon-separated subfields: Author name(s) Personal author address Organization author(s) Editor(s) Title Content Designator Medium Designator Edition Place of Pub. Publisher Date of pub. or copyright Date of revision Location Extent Series Avail. Statement (URL) Language Notes Empty Subfield Empty Subfield The citation field for sources released prior to 2014AA will be updated as resources permit. |
源信息(文件 = MRSAB.RRF)
场地 | 姓名 | 描述 |
---|---|---|
虚拟用户界面 | 崔 | 源的版本化 SRC 概念的 CUI |
右心房重建 | 崔根 | 源的根 SRC 概念的 CUI |
电压稳定平衡 | 版本源缩写 | 来源的版本化来源缩写,例如 MSH2003_2002_10_24 |
皇家鸟类保护协会 | 根源缩写 | 来源的根源缩写,例如 MSH |
儿子 | 正式名称 | 来源的正式名称 |
旧金山 | 源家庭 | 源的源系列 |
斯维 | 版本 | 源版本,例如 2001 |
起始电压 | 元开始日期 | 来源生效的日期,例如 2001_04_03 |
鬻 | 元结束日期 | 来源停止活动的日期,例如 2001_05_10 |
意大利国际玩具及运动器材展览会 | 元插入版本 | 来源首次出现的元同义词库版本,例如 2001AB |
远程医疗电子技术协会 | Meta 删除版本 | 来源最后出现的元同义词库版本,例如 2001AC |
速尔 | 源许可联系方式 | 源许可证联系人字段包含以下以分号分隔的子字段: 姓名 职务 组织 地址 1 地址 2 城市 州/省 国家 邮编 电话 传真 电子邮件 URL |
鳞状细胞癌 | 来源 内容 联系方式 | 源内容联系人字段包含以下以分号分隔的子字段: 姓名 职务 组织 地址 1 地址 2 城市 州/省 国家 邮编 电话 传真 电子邮件 URL |
沙特基础工业公司 | 源限制级别 | 0、1、2、3、4、9 - 许可协议中有说明 |
总生育率 | 词频 | MRCONSO.RRF 中此源的术语数,例如 12343 |
疾病控制与预防中心 | 冷却塔下电弧频率 | 与此源关联的 CUI 数量,例如 10234 |
星火 | 上下文类型 | 此源的上下文类型。值为 FULL、FULL-MULTIPLE 和 null。 |
下次再谈 | 术语类型列表 | 来源的术语类型列表,例如 MH、EN、PM、TQ |
亚特兰大 | 属性名称列表 | 属性名称列表(来自 MRSAT.RRF),例如 MUI、RN、TH |
拉特 | 语言 | 来源术语的语言 |
中央空调公司 | 字符编码 | 所有 UMLS 内容均以 Unicode 提供,采用 UTF-8 编码。MetamorphoSys 将允许排除扩展字符,但会丢失一些信息。可以音译为其他字符编码,但不支持购买 NLM;有关更多信息,请参阅http://www .unicode.org |
曲线 | 当前版本 | AY 或 N 标志,指示此行是否对应于指定源的当前版本 |
萨宾 | 子集中的源 | AY 或 N 标志指示此行是否在当前 MetamorphoSys 子集中表示。最初始终为 Y,其中 CURVER 为 Y,但后来由 MetamorphoSys 重新计算。 |
社保号 | 源简称 | UMLS 术语服务使用的源的简称 |
脊髓损伤与脊髓损伤 | 来源引文 | 对于 2014AA 及以后发布的来源,引文字段包含以下以分号分隔的子字段: 作者姓名 个人作者地址 组织作者 编辑 标题 内容指示器 媒介指示器版本 出版 地点出版商 出版 日期或版权 修订日期 位置 范围 系列 可用性声明 (URL) 语言 注释 空子字段 空子字段 2014AA 之前发布的来源的引文字段将在资源允许时更新。 |
此文件中的每行对应当前 Metathesaurus 中每个来源的每个版本;最终还会有历史信息,其中每行对应出现在任何 Metathesaurus 版本中的每个来源的每个版本。请注意,字段 CURVER 的值为 Y,用于标识此 Metathesaurus 版本中的版本。MRSAB.RRF 的未来版本也将在 CURVER 值为 N 的行中包含历史版本信息。
具有上下文的源具有“完整”上下文,即所有级别的术语都可能具有祖先、父母和子级。完整上下文还可以进一步指定为多个。
多个表示此源中的单个概念可能有多个层次位置。
当前版本文档的UMLS源词汇文档页面列出了元词库中的每个来源,并包含有关每个来源的上下文类型(如果有)的信息。
样本记录
C4550278|C1140284|RXNORM_17AB_180305F|RXNORM|RxNorm 词汇,17AB_180305F|RXNORM|17AB_180305F|||2018AA||RxNorm 客户服务;;美国国家医学图书馆;8600 Rockville Pike;;Bethesda;MD;美国;20894;(888) FIND-NLM;;rxnorminfo@nlm.nih.gov;https://www.nlm.nih.gov/research/umls/rxnorm/|RxNorm 客户服务;;美国国家医学图书馆;8600 Rockville Pike;;Bethesda;MD;美国;20894;(888) FIND-NLM;;rxnorminfo@nlm.nih.gov;https://www.nlm.nih.gov/research/umls/rxnorm/|0|319274|208301||BN,BPCK,DF,DFG,ET,GPCK,IN,MIN,PIN,PSN,SBD,SBDC,SBDF,SBDG,SCD,SCDC,SCDF,SCDG,SY,TMSY|AMBIGUITY_FLAG,NDC,ORIG_CODE,ORIG_SOURCE,RXAUI,RXCU I,RXN_ACTIVATED,RXN_AVAILABLE_STRENGTH,RXN_BN_CARDINALITY,RXN_HUMAN_DRUG,RXN_IN_EXPRESSED_FLAG,RXN_OBSOLETED,RXN_QUALITATIVE_DISTINCTION,RXN_QUANTITY,RXN_STRENGTH,RXN_VET_DRUG,RXTERM_FORM|ENG|UTF-8|Y|Y|RXNORM|;;;;RxNorm;;;META2017AB 完整更新 2018_03_05;马里兰州贝塞斯达;美国国家医学图书馆;;;;;;;;|
3.3.16. 概念名称排序 (文件=MRRANK.RRF)
每个 Metathesaurus 源词汇表(每个 SAB-TTY 组合)中的每个概念名称类型都有一行。分布式文件中的 RANK 和 SUPPRESS 值是 Metathesaurus 生产中使用的值。用户可以自由更改这些值以满足他们的需求和偏好,然后使用 MetamorphoSys 创建自定义 Metathesaurus,更改命名优先级和可抑制性。(表 12)
表 12.
概念名称排序(文件=MRRANK.RRF)
样本记录
Sample Records
0624|AIR|SY|N|
0438|PDQ|IS|Y|
0377|LNC|LO|Y|
0624|空气|SY|N|
0438|PDQ|是|是|
0377|LNC|LO|Y|
3.3.17. 模糊术语标识符 (文件 = AMBIGLUI.RRF)
如果词汇唯一标识符 (LUI) 链接到多个概念唯一标识符 (CUI),则此表中每对 LUI-CUI 都有一行。此文件标识了元同义词库中具有多重含义的词汇变体类别。
在 Metathesaurus 中,LUI 将英语中所有被 UMLS SPECIALIST 词典和工具中的 luinorm 程序识别为彼此词汇变体的字符串链接起来。LUI 的分配与每个字符串的含义无关。此表可能对希望在其应用程序中使用词汇程序来识别和消除歧义术语的系统开发人员有用。
Col.Description
LUI Lexical Unique Identifier
CUI Concept Unique Identifier
上校 | 描述 |
---|---|
陆 | 词汇唯一标识符 |
崔 | 概念唯一标识符 |
样本记录
L0000003|C0010504|
L0000003|C0917995|
L0000032|C0010206|
L0000032|C0010207|
3.3.18. 模糊字符串标识符(文件 = AMBIGSUI.RRF)
如果字符串唯一标识符 (SUI) 链接到多个概念唯一标识符 (CUI),则此表中每个 SUI-CUI 对都有一行。
此文件位于 META 目录中。在 Metathesaurus 中,每种语言中的每个唯一字符串只有一个 SUI,即使该字符串有多个含义。此表仅对在其应用程序或本地数据文件中使用 SUI 的系统开发人员有用。
Col. Description
SUI String Unique Identifier
CUI Concept Unique Identifier
上校 | 描述 |
---|---|
隋 | 字符串唯一标识符 |
崔 | 概念唯一标识符 |
样本记录
S0000176|C0042266|
S0000176|C2004487|
S0000217|C0024817|
S0000217|C0555026|
3.3.19. 元同义词库变更文件
有六个文件或关系可识别 Metathesaurus 上一版和当前版条目之间的主要差异。开发人员可以使用这些特殊文件来确定是否存在影响其应用程序的更改。
单个文件的实用性取决于元同义词库中的数据如何链接或合并到特定应用程序中。
每个关系或命名数据表都有固定数量的列和可变数量的行。列是给定数据元素中所有值的序列。行包含一个条目的两个或多个数据元素的值。行中不同数据元素的值用竖线 (|) 分隔。每行以竖线和行结束。
3.3.19.1. 已删除的概念(文件 = CHANGE/DELETEDCUI.RRF)
此文件中报告了元同义词库中不再存在其含义的概念。每个存在于上一版本中但当前版本中不存在的概念都有一行。如果含义存在于当前版本中,即缺失的概念已与另一个当前概念合并,则会在 MERGEDCUI.RRF 文件(第 3.3.19.2 节)中报告,而不会在此文件中报告。
Col. Description
PCUI Concept Unique Identifier in the previous Metathesaurus
PSTR Preferred name of this concept in the previous Metathesaurus
上校 | 描述 |
---|---|
个人电脑用户界面 | 上一版元同义词库中的概念唯一标识符 |
磷脂酶 | 上一版元同义词库中此概念的首选名称 |
3.3.19.2. 合并概念(文件 = CHANGE/MERGEDCUI.RRF)
此表中每个已发布的概念(上一个元同义词库 (CUI1))都对应一行,这些概念已合并到上一个元同义词库 (CUI2) 中的另一个已发布概念中。发生此合并时,第一个 CUI (CUI1) 已退役;此表显示此元同义词库中已合并概念的 CUI (CUI2)。
此文件中的条目代表在上一版本中被认为具有不同含义但现在被标识为同义词的概念对。
Col. Description
PCUI1 Concept Unique Identifier in the previous Metathesaurus
CUI Concept Unique Identifier in this Metathesaurus in format C#######
上校 | 描述 |
---|---|
个人计算机用户界面1 | 上一版元同义词库中的概念唯一标识符 |
崔 | 此元同义词库中的概念唯一标识符采用 C#####格式 |
3.3.19.3. 已删除条款 (文件=CHANGE/DELETEDLUI.RRF)
对于每个在上一个元同义词库中出现但未在此元同义词库中出现的词汇唯一标识符 (LUI),此表中均有一行。
LUI 由 luinorm 程序分配,该程序是 UMLS SPECIALIST 词典和工具中 lvg 程序的一部分;参见第 6 章。
这些条目代表了之前版本的 luinorm 程序识别的 LUI(用于识别之前 Metathesaurus 中的词汇变体)在此版本的 Luinorm 中不再可用的情况。这并不一定意味着从 Metathesaurus 中删除了字符串或概念。
Col. Description
PLUI Lexical Unique Identifier in the previous Metathesaurus
PSTR Preferred Name of Term in the previous Metathesaurus
上校 | 描述 |
---|---|
局部上皮感染 | 上一版元同义词库中的词汇唯一标识符 |
磷脂酶 | 上一版元同义词库中的术语首选名称 |
3.3.19.4. 合并条款(文件 = CHANGE/MERGEDLUI.RRF)
对于每种情况,此文件中都有一行,其中字符串在前一个元同义词库中具有不同的词汇唯一标识符 (LUI),但在此元同义词库中共享相同的 LUI;因此,前一个元同义词库中存在的 LUI 在此元同义词库中不存在。
LUI 由 luinorm 程序分配,该程序是 UMLS SPECIALIST 词典和工具中 lvg 程序的一部分;参见第 6 章。
这些条目代表了由前一版本的 luinorm 程序版本标识的单独词汇变体与由此版本的 luinorm 标识的单个词汇变体的情况。
Col. | Description |
---|---|
PLUI | Lexical Unique Identifier in the previous Metathesaurus but not present in this Metathesaurus |
LUI | Lexical Unique Identifier into which it was merged in this Metathesaurus |
上校 | 描述 |
---|---|
局部上皮感染 | 上一元同义词库中存在词汇唯一标识符,但本元同义词库中不存在 |
陆 | 在该元同义词库中被合并到的词汇唯一标识符 |
3.3.19.5. 已删除的字符串(文件 = CHANGE/DELETEDSUI.RRF)
对于每种语言中的每个字符串,此文件中均有一行,这些字符串出现在上一个元同义词库的条目中,但未出现在此元同义词库中。
请注意,这并不一定意味着从元同义词库中删除术语(LUI)或概念(CUI)。在一种语言中删除的字符串可能仍会出现在另一种语言的元同义词库中。
Col. | Description |
---|---|
PSUI | String Unique Identifier in the previous Metathesaurus that is not present in this Metathesaurus |
PSTR | Preferred Name of Term in the previous Metathesaurus that is not present in this Metathesaurus |
上校 | 描述 |
---|---|
聚苯乙烯磺酸钠 | 前一个元同义词库中不存在但此元同义词库中不存在的字符串唯一标识符 |
磷脂酶 | 上一元同义词库中首选的术语名称,但本元同义词库中不存在 |
3.3.19.6. 已退役的 CUI 映射(文件 = MRCUI.RRF)
对于任何先前版本中存在但在当前版本中不存在的每个概念唯一标识符 (CUI),此文件 (表 13 )中都有一行或多行。该文件包括与当前 CUI 的同义映射,或与一个或多个相关当前 CUI 的映射(如果可能)。如果找不到同义映射,则可以创建 CUI 之间的其他关系。这些关系可以是更广泛 (RB)、更狭窄 (RN)、其他相关 (RO)、已删除 (DEL) 或从子集中删除 (SUBX)。MetamorphoSys 将具有 SUBX 关系的行添加到 MRCUI 中,用于符合排除标准并因此从子集中删除的每个 CUI。使用这些关系可以将某些 CUI 映射到多个其他 CUI。
表 13.表 13.
已退役的 CUI 映射(文件 = MRCUI.RRF)
当 (1) 两个已发布的概念被发现是同义词并因此被合并,从而停用一个 CUI;(2) 该概念不再出现在任何源词汇表中且未被 NLM“拯救”;或 (3) 该概念是源词汇表中公认的错误或被确定为元同义词库制作错误时,CUI 可能会被停用。
请参阅第 3.3.19 1 至 5 节,其中仅包含自上一版本以来的更改(不包含映射)的文件。
样本记录
C1313903|2004AA|SY|||C0525045|Y|
C1313909|2004AA|RO|||C0476661|Y|
C2732033|2010AA|RO|||C0025942|Y|
3.3.19.7. AUI 移动 (文件 = MRAUI.RRF)
该文件记录了原子唯一标识符 (AUI) 从元词库的一个版本中的概念 (CUI1) 移动到元词库的下一个版本 (VER) 中的概念 (CUI2) 的过程。该文件是历史性的。(表 14)
表 14.
AUI 运动(文件 = MRAUI.RRF)
样本记录
A0000039|C0236824|2004AC|||移动|A0000039|C1411876|Y|
A0000077|C1510447|2007AC|||移动|A0000077|C0003477|Y|
A9460778|C1696703|2009AB|||移动|A9460778|C0023067|Y|
3.3.20. 单词索引(文件 = MRXW_BAQ.RRF、MRXW_DAN.RRF、MRXW_DUT.RRF、MRXW_ENG.RRF、MRXW_FIN.RRF、MRXW_FRE.RRF、MRXW_GER.RRF、MRXW_HEB.RRF、MRXW_HUN.RRF、MRXW_ITA.RRF、MRXW_NOR.RRF、MRXW_POR.RRF、MRXW_RUS.RRF、MRXW_SPA.RRF、MRXW_SWE.RRF)
这些表中的每一行对应着每个独特的 Metathesaurus 字符串(忽略大小写)。所有 Metathesaurus 条目都有单词索引中的条目。这些条目按 ASCII 顺序排序。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string in which the word appears |
WD | Word in lowercase |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 单词所在字符串的语言缩写 |
西部数据 | 小写单词 |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
MRXW_ENG.RRF 的样本记录
ENG|贫血|C0002871|L0002871|S0352688|
ENG|贫血|C0002871|L0002871|S0013742|
ENG|障碍|C0002871|L2818006|S3448137|
英语|未指定|C0002871|L0503461|S0589617|
MRXW_FRE.RRF 的样本记录
FRE|ANEMIE|C0002871|L0162748|S0227229|
3.3.21. 规范化词索引(文件 = MRXNW_ENG.RRF)
此表中,每个唯一英语元同义词库字符串中的每个规范化单词都有一行。所有英语元同义词库条目均在规范化单词索引中。元同义词库中没有其他语言的规范化字符串索引。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string in which the word appears (always ENG in this edition of the Metathesaurus) |
NWD | Normalized word in lowercase (described in Section 2.7.2.1) |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 单词出现字符串的语言缩写(在此版本的 Metathesaurus 中始终为 ENG) |
新世界时 | 规范化的小写单词(如第 2.7.2.1 节所述) |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
样本记录
ENG|贫血|C0002871|L0002871|S0013742|
ENG|贫血|C0002871|L0002871|S0013787|
ENG|障碍|C0002871|L2818006|S3448137|
英语|未指定|C0002871|L0503461|S0589617|
3.3.22. 规范化字符串索引(文件 = MRXNS_ENG.RRF)
此表中的每一行对应于每个唯一的英语 Metathesaurus 字符串(忽略大小写)中的每个规范化字符串。所有英语 Metathesaurus 条目均在规范化字符串索引中列出。此版本的 Metathesaurus 中没有其他语言的规范化单词索引。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string (always ENG in this edition of the Metathesaurus) |
NSTR | Normalized string in lowercase (described in Section 2.7.3.1) |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 字符串语言的缩写(在此版本的 Metathesaurus 中始终为 ENG) |
国家标准与试验研究所 | 规范化的小写字符串(如第 2.7.3.1 节所述) |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
样本记录
ENG|贫血症|C0002871|L2822821|S3436848|
ENG|贫血未指定|C0002871|L0503461|S0589617|
ENG|贫血|C0002871|L0002871|S0013742|
4 元同义词库 - 原始发布格式 (ORF)
最后更新:2021 年 8 月 20 日。
预计阅读时间:18 分钟
Metathesaurus 用户可以从两种关系格式中进行选择:2004 年首次推出的 Rich Release Format (RRF) 和 Original Release Format (ORF)。这两种格式都可以作为MetamorphoSys(安装和自定义程序)的输出选项。
鼓励开发人员使用 RRF,它在源词汇透明度(即能够准确地表示每个源词汇的详细语义)方面具有显著优势;能够在元词库的版本之间生成完整和准确的变更集;并且更方便地表示概念名称、来源和分层上下文信息。
两种 Metathesaurus 格式都不是完全规范化的。根据设计,不同文件之间以及某些文件内的数据存在重复。特别是,不同的 Metathesaurus 概念之间的关系会出现两次(例如,从条目 A 到条目 B,从条目 B 到条目 A)。开发人员需要自行决定应在多大程度上保留、减少或增加这种冗余以适应其特定应用。
注意:第 3 章“元同义词库丰富发布格式 (RRF)”中描述了首选的、更完整的格式。
除 MRRANK 之外的所有文件均按行排序。
前往:4.1. 数据文件
每个元词库条目中的数据可能以 20 多个不同的“关系”或文件表示。这些文件对应于第 2.3 - 2.6 节中描述的四个逻辑数据元素组和第 2.7 节中描述的索引,如下所示:
- 元同义词库概念名称及其来源(2.3)= MRCON、MRSO
- 属性 ( 2.5 ) = MRSAT、MRDEF、MRSTY
- 不同概念名称之间的关系(2.4)= MRREL,MRATX,MRCXT
- 有关元词库的数据 ( 2.6 ) =MRSAB、MRRANK、AMBIG.LUI、AMBIG.SUI、DELETED.CUI、MERGED.CUI、DELETED.LUI、MERGED.LUI、DELETED.SUI、MRCUI
- 索引 ( 2.7 ) = MRXW.BAQ、MRXW.DAN、MRXW.DUT、MRXW.ENG、MRXW.FIN、MRXW.FRE、MRXW.GER、MRXW.HEB、MRXW.HUN、MRXW.ITA、MRXW.NOR、MRXW .POR、MRXW.RUS、MRXW.SPA、MRXW.SWE、MRXNW.ENG、MRXNS.ENG
AMBIG* 文件现在提供了一种方便的方法来识别所有 Metathesaurus 术语和在 Metathesaurus 源词汇表中具有多种含义的字符串。
前往:4.2. 列和行
每个关系或命名的数据值表按照定义都有固定数量的列;行数取决于特定版本的元同义词库的内容。
列是给定数据元素或逻辑子元素中所有值的序列。通常,较长的可变长度数据元素的列将显示在较短和/或固定长度数据元素的列的右侧。ORF 文件中所有列的信息在当前版本文档的列和数据元素页面上描述。
一行包含一个 Metathesaurus 条目的一个或多个数据元素或逻辑子元素的值。根据所涉及的数据元素的性质,每个 Metathesaurus 条目在给定文件中可能具有一行或多行。行中表示的不同数据元素或逻辑子元素的值由竖线 (|) 分隔。如果可选元素为空白,则仍使用竖线来保持后续元素的正确定位。每行都以竖线和行终止符结束。
前往:4.3. 各文件说明
文件的描述按以下顺序出现:
- 关于元同义词库的关键数据:文件、列或数据元素
- 概念名称及其词汇来源
- 属性
- 关系
- 有关元同义词库的其他数据
- 索引
4.3.1. 文件(文件 = MRFILES)
对于关系格式的文件的每个物理段,此文件中只有一行。文件中的列或数据元素如下:
Col. | Description |
---|---|
FIL | Physical FILENAME |
DES | Descriptive name |
FMT | Comma separated list of COL, in order |
CLS | of COLUMNS |
RWS | of ROWS |
BTS | Size in bytes in this format (ISO/PC or Unix) |
上校 | 描述 |
---|---|
外国投资局 | 物理文件名 |
数据加密标准 | 描述性名称 |
裂解酶 | 按顺序以逗号分隔的 COL 列表 |
中立证券 | 列数 |
远程工作站 | 行数 |
防弹少年团 | 此格式的大小(以字节为单位)(ISO/PC 或 Unix) |
样本记录
MRATX|相关表达式|CUI,SAB,REL,ATX|4|8451|454611|
MRCOLS|属性关系|COL,DES,REF,MIN,AV,MAX,FIL,DTY|8|220|13546|
4.3.2. 数据元素(文件 = MRCOLS)
关系格式的每个文件中的每个列或数据元素在此文件中恰好有一行。
Col. | Description |
---|---|
COL | Column or data element name |
DES | Descriptive name |
REF | Documentation section number |
MIN | Minimum length, characters |
AV | Average length |
MAX | Maximum length, characters |
FIL | Physical FILENAME in which this field occurs |
DTY | SQL-92 data type for this column |
上校 | 描述 |
---|---|
科尔 | 列或数据元素名称 |
数据加密标准 | 描述性名称 |
参考 | 文档章节编号 |
分钟 | 最小长度,字符 |
AV | 平均长度 |
最大限度 | 最大长度,字符 |
外国投资局 | 此字段所在的物理文件名 |
涤纶低弹丝 | 此列的 SQL-92 数据类型 |
样本记录
ATN|属性名称||2|8.03|29|MRSAT|varchar(50)|
ATV|属性值||0|7.66|7903|MRSAT|varchar(8000)|
ATX|相关表达式||5|35.79|242|MRATX|varchar(300)|
4.3.3. 概念名称(文件 = MRCON)
此文件中,每个唯一字符串的每个含义都恰好占一行,即,每个唯一 CUI-SUI 组合都恰好占一行。大小写、词序等任何差异都会产生不同的唯一字符串。
Col. | Description |
---|---|
CUI | Unique identifier for concept |
LAT | Language of term |
TS | Term status |
LUI | Unique identifier for term |
STT | String type |
SUI | Unique identifier for string |
STR | String |
LRL | Least restriction level |
上校 | 描述 |
---|---|
崔 | 概念的唯一标识符 |
拉特 | 术语语言 |
TS | 任期状态 |
陆 | 术语的唯一标识符 |
静息态 | 字符串类型 |
隋 | 字符串的唯一标识符 |
强度 | 细绳 |
低阻力 | 最低限制级别 |
样本记录
C0002871|ENG|P|L0002871|VC|S0352787|贫血|0|
C0002871|ENG|P|L0002871|VC|S0414880|贫血|0|
C0002871|ENG|P|L0002871|VO|S0013787|贫血|0|
C0002871|ENG|P|L0002871|VO|S0352688|贫血|0|
C0002871|ENG|P|L0002871|VO|S0470050|贫血,NOS|9|
C0002871|ENG|P|L0002871|VO|S0470197|贫血,新无症状|0|
C0002871|ENG|S|L0503461|PF|S0804082|未指明的贫血|3|
4.3.4. 词汇来源(文件 = MRSO)
该文件包含概念、术语和字符串的词汇源。
此文件中只有一行对应于 Metathesaurus 中每个字符串的每个来源。所有 Metathesaurus 概念均在此文件中有条目。
Col. | Description |
---|---|
CUI | Unique identifier for concept |
LUI | Unique identifier for term |
SUI | Unique identifier for string |
SAB | Abbreviated source name (SAB) for source vocabulary. Maximum field length is 20 alphanumeric characters. Two source abbreviations are assigned:
|
TTY | Abbreviation for term type in source vocabulary, for example PN (Metathesaurus Preferred Name) or CD (Clinical Drug). Possible values are listed on the Abbreviations Used in Data Elements page. |
CODE | Unique identifier or code for string in that source |
SRL | Source restriction level |
上校 | 描述 |
---|---|
崔 | 概念的唯一标识符 |
陆 | 术语的唯一标识符 |
隋 | 字符串的唯一标识符 |
南非科学顾问委员会 | 源词汇的缩写源名称 (SAB)。最大字段长度为 20 个字母数字字符。分配了两个源缩写:
|
终端电话 | 源词汇表中术语类型的缩写,例如 PN(元同义词库首选名称)或 CD(临床药物)。可能的值列在数据元素中使用的缩写页面上。 |
代码 | 该源中字符串的唯一标识符或代码 |
沙特基础工业公司 | 源限制级别 |
样本记录
C0002871|L0002871|S0013742|SNOMEDCT|OP|154786001|9|
C0002871|L0002871|S0013742|SNOMEDCT|OP|64593003|9|
C0002871|L0002871|S0013742|SNOMEDCT|PT|271737000|9|
C0002871|L0002871|S0013787|MSH|PM|D000740|0|
C0002871|L0002871|S0352688|CST|GT|贫血|0|
C0002871|L0002871|S0352688|世卫组织|PT|0544|2|
C0002871|L0002871|S0352787|CCPSS|PT|1017210|3|
MRSO 中的信息可与 MRCON 结合使用,以确定特定概念、名称或代码是否存在于特定来源中,以及以何种形式出现。
注意:在 RRF 中,概念名称和词汇源信息出现在单个文件 MRCONSO.RRF 中。
4.3.5. 简单概念和字符串属性(文件 = MRSAT)
对于没有子元素结构的每个概念、术语和字符串属性,此表中只有一行。所有元同义词库概念在此文件中都有条目。
Col. | Description |
---|---|
CUI | Unique identifier for concept |
LUI | Unique identifier for term (optional) |
SUI | Unique identifier for string (optional) |
CODE | Unique identifier or code for entry in the source of the attribute, e.g., for all attributes derived from MeSH, the MeSH unique identifier (optional). |
ATN | Attribute name. Possible values are all described in Attribute Names page. |
SAB | Abbreviated source name (SAB). Maximum field length is 20 alphanumeric characters. Two source abbreviations are assigned:
|
ATV | Attribute value described under specific attribute name in Attribute Names page. A few attribute values exceed 1,000 characters. |
上校 | 描述 |
---|---|
崔 | 概念的唯一标识符 |
陆 | 术语的唯一标识符(可选) |
隋 | 字符串的唯一标识符(可选) |
代码 | 属性源中条目的唯一标识符或代码,例如,对于从 MeSH 衍生的所有属性,MeSH 唯一标识符(可选)。 |
航空运输网络 | 属性名称。可能的值均在属性名称页面中描述。 |
南非科学顾问委员会 | 缩写源名称 (SAB)。最大字段长度为 20 个字母数字字符。分配了两个源缩写:
|
全地形车 | 属性值在属性名称页面中的特定属性名称下描述。一些属性值超过 1,000 个字符。 |
样本记录
C0002871|L0002871|S0013742|D000740|MMR|MSH|19960610|
C0002871|L0002871|S0013742|D000740|MN|MSH|C15.378.071|
C0002871|L0002871|S0013742|D000740|TERMUI|MSH|T002209|
C0002871|L0002871|S0013742|D000740|TH|MSH|POPLINE (1994)|
C0002871|L0002871|S0470197|DC-10010|SIC|SNMI|285.9|
C0002871|L0002871|S0803242|271737000|语言代码|SNOMEDCT|en-GB|
4.3.6. 定义(文件 = MRDEF)
此文件中只有一行对应于元同义词库中的每个定义。一些定义的长度接近 3,000 个字符。
Col. | Description |
---|---|
CUI | Unique identifier for concept |
SAB | Abbreviated source name (SAB) of the source of the definition. Maximum field length is 20 alphanumeric characters. Two source abbreviations are assigned:
|
DEF | Definition |
上校 | 描述 |
---|---|
崔 | 概念的唯一标识符 |
南非科学顾问委员会 | 定义源的缩写源名称 (SAB)。最大字段长度为 20 个字母数字字符。分配了两个源缩写:
|
防御 | 定义 |
样本记录
C0002871|CSP|红细胞水平或功能低于正常,导致组织缺氧症状。|
C0002871|MSH|循环红细胞数量或血红蛋白数量减少。|
C0002871|NCI|(a-NEE-mee-a) 红细胞数量低于正常值的情况。|
4.3.7. 语义类型(文件 = MRSTY)
此文件中为每个概念分配的每种语义类型都只占一行。所有元同义词库概念在此文件中至少有一个条目。许多概念有多个条目。
Col. | Description |
---|---|
CUI | Unique identifier of concept |
TUI | Unique identifier of Semantic Type |
STY | Semantic Type. The valid values are defined in the Semantic Network. |
上校 | 描述 |
---|---|
崔 | 概念的唯一标识符 |
途易 | 语义类型唯一标识符 |
斯特林 | 语义类型。有效值在语义网络中定义。 |
样本记录
C0002871|T047|疾病或综合症|
4.3.8. 定位器(文件 = MRLO)
自 2004AB 版起,此文件已从 Metathesaurus 中删除。部分信息已过时,部分信息与其他 Metathesaurus 文件中的信息重复,部分信息可从其他公开来源(例如 PubMed)轻松获取。
4.3.9. 相关概念(文件 = MRREL)
该表中,每个元词库概念之间的关系都有一行,这些概念在元词库中已知,但在其他文件中存在以下例外:在 MRATX 中发现的相关表达式。
请注意,对于非对称关系,关系的每个方向都有一行。还请注意 REL 的方向 - 第二个概念(具有概念唯一标识符 CUI2)与第一个概念(具有概念唯一标识符 CUI1)之间的关系。
Col. | Description |
---|---|
CUI1 | Unique identifier of first concept |
REL | Relationship of SECOND to first concept |
CUI2 | Unique identifier of second concept |
RELA | Relationship attribute |
SAB | Abbreviated source name (SAB) of the source of relationship. Maximum field length is 20 alphanumeric characters. Two source abbreviations are assigned:
|
SL | Source of relationship labels |
MG | Machine-generated and unverified indicator (optional). G indicates 'machine generated' |
上校 | 描述 |
---|---|
CUI1 | 第一个概念的唯一标识符 |
相对 | SECOND 与第一个概念的关系 |
CUI2 | 第二个概念的唯一标识符 |
关系 | 关系属性 |
南非科学顾问委员会 | 关系源的缩写源名称 (SAB)。最大字段长度为 20 个字母数字字符。分配了两个源缩写:
|
SL | 关系标签来源 |
MG | 机器生成且未经验证的指标(可选)。G 表示“机器生成” |
样本记录
C0002871|CHD|C0002891||MSH|MSH||
[新生儿贫血 (C0002891)
有 CHILD REL 并且是 RELA
贫血(C0002871)]
C0002871|RB|C0221016||MTH|MTH||
[红细胞疾病,NOS(C0221016)
具有更广泛的 REL
贫血(C0002871)]
C0002871|RL|C0002886|mapped_to|SNMI|SNMI||
[贫血,大细胞性 (C0002886)
有类似关系
贫血(C0002871)]
C0002871|RQ|C0002886|临床相关|CCPSS|CCPSS||
[叶酸缺乏导致的巨幼细胞性贫血,NOS(C0151482)
具有 clinically_associated_with 关系
贫血(C0002871)]
4.3.10. 共现概念(文件 = MRCOC - 2013AA 版本后,此文件在 UMLS 中不再可用。)
注意:2013AA 版本发布后,UMLS 中不再提供共现信息。更新的共现数据可在MEDLINE 共现 (MRCOC) 页面的文本文件中获取。
此表中每对同时出现在每个信息源中的概念有两行,每个关系方向各占一行。(请注意,COA 数据可能因关系方向的不同而不同)。许多 Metathesaurus 概念在此文件中没有条目。由于共现关系数量非常多,因此它们分布在单独的文件中。
Col. | Description |
---|---|
CUI1 | Unique identifier of first concept |
CUI2 | Unique identifier of second concept Note: Where COT is MeSH topical qualifier (LQ) and CUI2 is not present, the count of citations of CUI1 with no MeSH qualifiers is reported. |
SOC | Abbreviation of the source of co-occurrence information if applicable |
COT | Type of co-occurrence |
COF | Frequency of co-occurrence, if applicable |
COA | Attributes of co-occurrence, if applicable |
上校 | 描述 |
---|---|
CUI1 | 第一个概念的唯一标识符 |
CUI2 | 第二个概念的唯一标识符 注意:当 COT 为 MeSH 主题限定词 (LQ) 且不存在 CUI2 时,将报告没有 MeSH 限定词的 CUI1 的引用计数。 |
系统性红斑 | 共现信息来源的缩写(如果适用) |
中央贸易办公室 | 共现类型 |
摩擦系数 | 共现频率(如果适用) |
原产地证 | 共现属性(如果适用) |
样本记录
C0002871|C0000530|MED|L|1|BL=1,DT=1,ET=1|
C0002871|C0000545|MBD|L|1|BL=1,CI=1,DT=1|
C0002871|C0000589|MBD|L|1|CI=1,PC=1|
C0002871|C0000726|MED|L|1|CO=1|
C0002871|C0000727|MBD|L|1|CO=1,DI=1,TH=1|
共现是指概念在某个信息源的相同条目中同时出现。此处表示的关系是通过对信息源进行机器处理获得的。共现关系可能存在于相似概念之间(例如,心房颤动和心律失常),也可能存在于非常不同但在生物医学领域具有重要联系的概念之间(例如,心房颤动和地高辛),也可能存在于主要概念和限定词之间(例如,碎石术和仪器)。两个没有其他明显关系的概念之间可能存在共现关系,尽管这种共现的频率会很小。
在当前的 Metathesaurus 中,有三个共现数据来源:MEDLINE、AI/RHEUM 和 CCPSS。从 MEDLINE 中,共现数据是针对在同一期刊文章中被指定为主要或要点的概念计算的,即,共现计数不包括其中一个或两个概念存在并在 MEDLINE 中编入索引但未被指定为要点的文章。(如果主标题或其任何子标题带有 *,则该概念被视为要点。)
提供了 MEDLINE 共现的两种总体频率:一种是最近的 MEDLINE 数据 (MED),另一种是前几年的 MEDLINE 数据 (MBD)。当第一个概念与第二个概念共现时,会提供不同的 MeSH 限定词或根本没有限定词的频率的单独计数。共现关系的每个方向都有单独的条目。每个条目中相关的子标题出现信息属于条目中的第一个概念,因此对于关系的每个方向都是不同的。
除了与两个共现概念相关的特定限定词信息之外,在共现类型为 LQ 和 LQB 值的条目中,该元素还包括每个主要概念被特定子标题或无子标题限定的次数总数。
AI/RHEUM 共现数据表示 AI/RHEUM 知识库中疾病和发现的共现情况,即与特定发现共现的疾病和与特定疾病共现的发现。每个疾病/发现对在 AI/RHEUM 知识库中只能共现一次。
在 CCPSS 中,共现数据是从病人记录中提取的,包括病人记录中的问题-问题共现以及问题-修饰词共现。
4.3.11. 概念背景 (文件 = MRCXT)
此文件不再分发。要创建 MRCXT 文件(表 1),请使用新的 MRCXT Builder 应用程序,可从 MetamorphoSys Welcome 屏幕访问。有关 MRCXT Builder 的信息可在UMLS - MetamorphoSys MRCXT Builder找到。以下信息描述了 MRCXT Builder 生成的文件的内容。
此文件中,每个概念在 UMLS 源词汇表中的层次结构中出现(在本讨论中称为“上下文”)都有相应的行。许多 Metathesaurus 概念有多个上下文,而其他概念可能没有。每个上下文的行数取决于概念在该上下文中的祖先、同级或子术语的数量。由于某些概念在同一来源(例如 MeSH)中有多个上下文,因此使用上下文编号(CXN - 例如 1、2、3)来标识同一上下文的所有成员。CXN 不是全局的,而是根据每个概念的需要创建的。由于某些概念在同一词汇表中有多个上下文,且具有相同的 SUI,因此可以使用 CUI-SUI-SAB-CXN 键检索每个不同的上下文。
样本记录
C0002871|S0013742|MSH|D000740|1|ANC|1|MeSH|C0220876||||
C0002871|S0013742|MSH|D000740|1|ANC|2|疾病 (MeSH 类别)|C0012674|C|||
C0002871|S0013742|MSH|D000740|1|ANC|3|血液和淋巴系统疾病|C0018981|C15|||
C0002871|S0013742|MSH|D000740|1|ANC|4|血液系统疾病|C0018939|C15.378|isa||
C0002871|S0013742|MSH|D000740|1|CCP||贫血|C0002871|C15.378.71|isa|+|
C0002871|S0013742|MSH|D000740|1|CHD||再生障碍性贫血|C0002874|C15.378.71.85|isa|+|
C0002871|S0013742|MSH|D000740|1|SIB||血液蛋白疾病|C0005830|C15.378.147|isa|+|
C0002871|S0013742|MSH|D000740|1|CHD||溶血性贫血|C0002878|C15.378.71.141|isa|+|
4.3.12. 关联表达式(文件 = MRATX)
此表中的每一行都对应着与元同义词库中的概念有关系的词汇表达(即来自特定元同义词库源词汇的术语组合)。大多数元同义词库条目在此表中均无条目。
Col. | Description |
---|---|
CUI | Unique identifier of concept to which the expression is related |
SAB | Abbreviated source name (SAB) of source of terms in expression. Maximum field length is 20 alphanumeric characters. Two source abbreviations are assigned:
|
REL | Relationship of meaning of expression to main concept |
ATX | Associated expression |
上校 | 描述 |
---|---|
崔 | 与表达式相关的概念的唯一标识符 |
南非科学顾问委员会 | 表达式中术语来源的缩写源名称 (SAB)。最大字段长度为 20 个字母数字字符。分配了两个源缩写:
|
相对 | 表达意义与主要概念的关系 |
ATX | 相关表达 |
样本记录
C0001207|MSH|SY|<肢端肥大症> 和 <巨人症>|
C0001296|LCH|RU|<保险>/<统计>|
C0001360|MSH|SY|<甲状腺炎> 和 <急性疾病>|
4.3.13. 来源信息(文件 = MRSAB)
Metathesaurus 的数据文件中有“无版本”或“根”来源缩写 (SAB)。MRSAB(表 2)将根 SAB 与当前版本的完整指定版本信息联系起来。例如,MeSH 的发布 SAB 现在只是“MSH”。在 MRSAB 中,您将找到当前版本的 SAB,例如 MSH2003_2002_10_24。MetamorphoSys 可以生成包含根或版本 SAB 的文件,以便用户可以使用任何一种形式。
此文件中有一行用于当前 Metathesaurus 中每个来源的每个版本;完成后,还会有历史信息,其中一行用于任何 Metathesaurus 版本中出现的每个来源的每个版本。请注意,字段 CURVER 的值为 Y,用于标识此 Metathesaurus 版本中的版本。MRSAB 的未来版本也将在 CURVER 值为 N 的行中包含历史版本信息。
表 2.
来源信息(文件 = MRSAB)
MRSAB 允许所有其他元词库文件使用无版本的源缩写,以便版本之间没有数据变化的行也保持不变。
具有上下文的源具有“完整”上下文,即所有级别的术语都可能具有祖先、父母和子级。完整上下文还可以进一步指定为多个。
多个表示此源中的单个概念可能有多个层次位置。
当前版本文档的UMLS源词汇文档页面列出了元词库中的每个来源,并包含有关每个来源的上下文类型(如果有)的信息。
样本记录
C2930057|C1140284|RXNORM_10AA_100907F|RXNORM|RxNorm 词汇,10AA_100907F|RXNORM|10AA_100907F|||2010AB||Stuart Nelson,医学博士;MeSH 部门负责人;美国国家医学图书馆;8600 Rockville Pike;贝塞斯达;马里兰州;美国;20894;nelson@nlm.nih.gov|Stuart Nelson,医学博士;MeSH 部门负责人;美国国家医学图书馆;8600 Rockville Pike;贝塞斯达;马里兰州;联合州;20894;nelson@nlm.nih.gov|0|437305|193737||BN,BPCK,DF,ET,GPCK,IN,MIN,OCD,PIN,SBD,SBDC,SBDF,SCD,SCDC,SCDF, SY|AMBIGUITY_FLAG,NDC,ORIG_AMBIGUITY_FLAG,ORIG_CODE,ORIG_SOURCE,ORIG_TTY,ORIG_VSAB,RXAUI, RXCUI,RXN_ACTIVATED,RXN_BN_CARDINALITY,RXN_HUMAN_DRUG,RXN_IN_EXPRESSED_FLAG,RXN_OBSOLETED, RXN_QUANTITY,RXN_STRENGTH,RXN_VET_DRUG,UNII_CODE|ENG|UTF-8|Y|Y|
4.3.14. 概念名称排序 (文件 = MRRANK)
每个 Metathesaurus 源词汇表(每个 SAB-TTY 组合)中的每个概念名称类型都恰好有一行。分布式文件中的 RANK 和 SUPPRESS 值是 Metathesaurus 生产中使用的值。用户可以自由更改这些值以满足他们的需求和偏好,然后使用 MetamorphoSys 创建自定义 Metathesaurus,更改命名优先级和可抑制性(MRCON 中的 TS)。
Col. | Description |
---|---|
RANK | Numeric order of precedence, higher value wins |
SAB | Abbreviated source name (SAB). Maximum field length is 20 alphanumeric characters. Two source abbreviations are assigned:
|
TTY | Abbreviation for term type in source vocabulary, for example PN (Metathesaurus Preferred Name) or CD (Clinical Drug). Possible values are listed on the Abbreviations Used in Data Elements page. |
SUPPRESS | Flag indicating that this SAB and TTY will create a TS=s MRCON entry; see TS |
上校 | 描述 |
---|---|
秩 | 数字优先顺序,数值越大获胜 |
南非科学顾问委员会 | 缩写源名称 (SAB)。最大字段长度为 20 个字母数字字符。分配了两个源缩写:
|
终端电话 | 源词汇表中术语类型的缩写,例如 PN(元同义词库首选名称)或 CD(临床药物)。可能的值列在数据元素中使用的缩写页面上。 |
压制 | 标志表明此 SAB 和 TTY 将创建 TS=s MRCON 条目;请参阅 TS |
样本记录
0624|空气|SY|N|
0623|ULT|PT|N|
0622|CPT|PT|N|
4.3.15. 模糊术语标识符 (文件 = AMBIG.LUI)
如果词汇唯一标识符 (LUI) 链接到多个概念唯一标识符 (CUI),则此表中每对 LUI-CUI 都有一行。此文件标识了元同义词库中具有多重含义的词汇变体类别。
在 Metathesaurus 中,LUI 链接了英语中所有被 UMLS SPECIALIST 词典和词汇工具中的 luinorm 程序识别为彼此词汇变体的字符串。LUI 的分配与每个字符串的含义无关。此表可能对希望在其应用程序中使用词汇程序来识别和消除歧义术语的系统开发人员有用。
Col. | Description |
---|---|
LUI | Lexical Unique Identifier |
CUI | Concept Unique Identifier |
上校 | 描述 |
---|---|
陆 | 词汇唯一标识符 |
崔 | 概念唯一标识符 |
样本记录
L0000003|C0010504|
L0000003|C0917995|
L0000032|C0010206|
4.3.16. 模糊字符串标识符(文件 = AMBIG.SUI)
如果字符串唯一标识符 (SUI) 链接到多个概念唯一标识符 (CUI),则此表中每个 SUI-CUI 对都有一行。
此文件位于 META 目录中。在 Metathesaurus 中,每种语言中的每个唯一字符串只有一个 SUI,即使该字符串具有多个含义。此表仅对在其应用程序或本地数据文件中使用 SUI 的系统开发人员有用。
Col. | Description |
---|---|
SUI | String Unique Identifier |
CUI | Concept Unique Identifier |
上校 | 描述 |
---|---|
隋 | 字符串唯一标识符 |
崔 | 概念唯一标识符 |
样本记录
S0063890|C0026667|
S0063890|C1135584|
S5147722|C1261047|
4.3.17. 元同义词库变更文件
有六个文件或关系可识别 Metathesaurus 上一版和当前版条目之间的主要差异。开发人员可以使用这些特殊文件来确定是否存在影响其应用程序的更改。
单个文件的实用性取决于元同义词库中的数据如何链接或合并到特定应用程序中。
每个关系或命名数据表都有固定数量的列和可变数量的行。列是给定数据元素中所有值的序列。行包含一个条目的两个或多个数据元素的值。行中不同数据元素的值用竖线 (|) 分隔。每行以竖线和行结束。
4.3.17.1. 已删除的概念(文件 = DELETED.CUI)
此文件中报告了元同义词库中不再存在其含义的概念。每个存在于上一版本中但当前版本中不存在的概念都有一行。如果含义存在于当前版本中,即缺失的概念已与另一个当前概念合并,则会在 MERGEDCUI 文件(第 4.3.17.2 节)中报告,而不会在此文件中报告。
Col. | Description |
---|---|
CUI | Concept unique identifier in the previous Metathesaurus |
STR | Preferred name of this concept in the previous Metathesaurus |
上校 | 描述 |
---|---|
崔 | 上一个元同义词库中的概念唯一标识符 |
强度 | 上一版元同义词库中此概念的首选名称 |
4.3.17.2. 合并概念(文件 = MERGED.CUI)
此表中每个已发布的概念(上一个元同义词库 (CUI1))都对应一行,这些概念已合并到上一个元同义词库 (CUI2) 中的另一个已发布概念中。发生此合并时,第一个 CUI (CUI1) 已退役;此表显示此元同义词库中已合并概念的 CUI (CUI2)。
此文件中的条目表示在上一版中被认为具有不同含义的概念对,但现在被标识为同义词
Col. | Description |
---|---|
CUI1 | Concept unique identifier in the previous Metathesaurus |
CUI2 | Concept unique identifier in this Metathesaurus in format C####### |
上校 | 描述 |
---|---|
CUI1 | 上一个元同义词库中的概念唯一标识符 |
CUI2 | 此元同义词库中概念的唯一标识符,格式为 C####### |
4.3.17.3. 已删除术语(文件 = DELETED.LUI)
对于每个在元同义词库的先前版本中出现但未在此版本中出现的词汇唯一标识符 (LUI),此表中均有一行。
LUI 由 luinorm 程序分配,该程序是 UMLS SPECIALIST 词典和词汇工具中 lvg 程序的一部分。
这些条目代表了之前版本的 luinorm 程序识别的 LUI(用于识别之前 Metathesaurus 中的词汇变体)在此版本的 Luinorm 中不再可用的情况。这并不一定意味着从 Metathesaurus 中删除了字符串或概念。
Col. | Description |
---|---|
LUI | Concept unique identifier in the previous Metathesaurus |
STR | Preferred name of Term in the previous Metathesaurus |
上校 | 描述 |
---|---|
陆 | 上一个元同义词库中的概念唯一标识符 |
强度 | 上一版元同义词库中的术语首选名称 |
4.3.17.4. 合并术语(文件 = MERGED.LUI)
对于每种情况,此文件中都有一行,其中字符串在前一个元同义词库中具有不同的 LUI,但在此元同义词库中共享相同的 LUI;因此,前一个元同义词库中存在的 LUI 在此元同义词库中不存在。
LUI 由 luinorm 程序分配,该程序是 UMLS SPECIALIST 词典和词汇工具中 lvg 程序的一部分。
这些条目代表了由前一版本的 luinorm 程序版本标识的单独词汇变体与由此版本的 luinorm 标识的单个词汇变体的情况。
Col. | Description |
---|---|
LUI1 | Lexical unique identifier in the previous Metathesaurus but not present in this Metathesaurus |
LUI2 | Lexical unique identifier into which it was merged in this Metathesaurus |
上校 | 描述 |
---|---|
LUI1 | 前一个元同义词库中的词汇唯一标识符,但此元同义词库中不存在 |
LUI2 | 在该元同义词库中合并的词汇唯一标识符 |
4.3.17.5. 已删除的字符串(文件 = DELETED.SUI)
对于每种语言中的每个字符串,此文件中均有一行,这些字符串出现在上一个元同义词库的条目中,但未出现在此元同义词库中。
请注意,这并不一定意味着从元同义词库中删除术语(LUI)或概念(CUI)。在一种语言中删除的字符串可能仍会出现在另一种语言的元同义词库中。
Col. | Description |
---|---|
SUI | String unique identifier in the previous Metathesaurus that is not present in this Metathesaurus |
LAT | Three-character abbreviation of language of string that has been deleted |
STR | Preferred name of term in the previous Metathesaurus that is not present in this Metathesaurus |
上校 | 描述 |
---|---|
隋 | 前一个元同义词库中不存在的字符串唯一标识符 |
拉特 | 已删除字符串的语言三字符缩写 |
强度 | 上一元同义词库中首选的术语名称,但本元同义词库中不存在 |
4.3.17.6. 已停用的 CUI 映射(文件 = MRCUI)
此文件中有一行或多行,用于表示存在于任何先前版本中但在当前版本中不存在的每个概念唯一标识符 (CUI)。该文件包括与当前 CUI 的同义映射,或与一个或多个相关当前 CUI 的映射(如果可能)。如果找不到同义映射,则可以创建 CUI 之间的其他关系。这些关系可以是更广泛 (RB)、更狭窄 (RN)、其他相关 (RO)、已删除 (DEL) 或从子集中删除 (SUBX)。MetamorphoSys 将具有 SUBX 关系的行添加到 MRCUI,用于符合排除标准并因此从子集中删除的每个 CUI。使用这些关系,某些 CUI 可以映射到多个其他 CUI。
当 (1) 两个已发布的概念被发现是同义词并因此被合并,从而停用一个 CUI;(2) 该概念不再出现在任何源词汇表中且未被 NLM“拯救”;或 (3) 该概念是源词汇表中公认的错误或被确定为元同义词库制作错误时,CUI 可能会被停用。
请参阅 META/CHANGE 文件,尤其是 MERGED.CUI 和 DELETED.CUI,仅了解自上一版本以来的更改,而不了解映射。
Col. | Description |
---|---|
CUI1 | Retired CUI - was present in some prior release, but is currently missing |
VER | The last release version in which CUI1 was a valid CUI |
CREL | The relationship CUI2 has to CUI1, if present, or DEL if CUI2 is not present. Valid values currently are SY, DEL, RO, RN, RB. |
CUI2 | The current CUI that CUI1 most closely maps to |
MAPIN | Is this map in current subset? Values of Y, N, or null. MetamorphoSys generates the Y or N to indicate whether the CUI2 concept is or is not present in the subset. The null value is for rows where the CUI1 was not present to begin with (i.e., REL=DEL). |
上校 | 描述 |
---|---|
CUI1 | 已退役的 CUI - 存在于之前的某个版本中,但目前缺失 |
版本 | CUI1 为有效 CUI 的最后一个发布版本 |
核心资源库 | 如果存在,则 CUI2 与 CUI1 的关系为 CUI2;如果不存在,则 CUI2 与 CUI1 的关系为 DEL。当前有效值为 SY、DEL、RO、RN、RB。 |
CUI2 | CUI1 最接近映射的当前 CUI |
地图信息 | 此映射是否在当前子集中?值为 Y、N 或 null。MetamorphoSys 生成 Y 或 N 来指示 CUI2 概念是否存在于子集中。null 值表示 CUI1 一开始就不存在的行(即 REL=DEL)。 |
样本记录
C0612278|2001AC|SY|C0612279|Y|
C1146475|2004AA|DEL|||
C2741204|2010AA|RB|C1348543|Y|
C2741243|2010AA|DEL|||
C2741244|2010AA|RO|C1616644|Y|
4.3.18.字索引(文件 = MRXW.BAQ、MRXW.DAN、MRXW.DUT、MRXW.ENG、MRXW.FIN、MRXW.FRE、MRXW.GER、MRXW.HEB、MRXW.HUN、MRXW.ITA、MRXW.NOR、MRXW .POR、MRXW.RUS、MRXW.SPA、MRXW.SWE)
这些表中的每一行对应着每个独特的 Metathesaurus 字符串(忽略大小写)。所有 Metathesaurus 条目都有单词索引中的条目。这些条目按 ASCII 顺序排序。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string in which the word appears |
WD | Word in lowercase |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 单词所在字符串的语言缩写 |
西部数据 | 小写单词 |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
MRXW.ENG 的样本记录
ENG|贫血|C0002871|L0002871|S0352688|
ENG|贫血|C0002871|L0002871|S0013742|
ENG|障碍|C0002871|L2818006|S3448137|
英语|编号|C0002871|L0002871|S0470050|
英语|未指定|C0002871|L0503461|S0589617|
MRXW.FRE 的样本记录
FRE|ANEMIE|C0002871|L0162748|S0227229|
4.3.19. 规范化词汇索引(文件 = MRXNW.ENG)
此表中,每个唯一英语元同义词库字符串中的每个规范化单词都有一行。所有英语元同义词库条目均在规范化单词索引中。此版本的元同义词库中没有其他语言的规范化字符串索引。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string in which the word appears (always ENG in this edition of the Metathesaurus) |
NWD | Normalized word in lowercase (described in Section 2.7.2.1) |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 单词出现字符串的语言缩写(在此版本的 Metathesaurus 中始终为 ENG) |
新世界时 | 规范化的小写单词(如第 2.7.2.1 节所述) |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
样本记录
ENG|贫血|C0002871|L0002871|S0013742|
ENG|贫血|C0002871|L0002871|S0013787|
ENG|障碍|C0002871|L2818006|S3448137|
英语|未指定|C0002871|L0503461|S0589617|
4.3.20. 规范化字符串索引(文件 = MRXNS.ENG)
此表中的每一行对应于每个唯一的英语 Metathesaurus 字符串(忽略大小写)中的每个规范化字符串。所有英语 Metathesaurus 条目均在规范化字符串索引中列出。此版本的 Metathesaurus 中没有其他语言的规范化单词索引。
Col. | Description |
---|---|
LAT | Abbreviation of language of the string (always ENG in this edition of the Metathesaurus) |
NSTR | Normalized string in lowercase (described in Section 2.7.3.1) |
CUI | Concept identifier |
LUI | Term identifier |
SUI | String identifier |
上校 | 描述 |
---|---|
拉特 | 字符串语言的缩写(在此版本的 Metathesaurus 中始终为 ENG) |
国家标准与试验研究所 | 规范化的小写字符串(如第 2.7.3.1 节所述) |
崔 | 概念标识符 |
陆 | 术语标识符 |
隋 | 字符串标识符 |
样本记录
ENG|贫血症|C0002871|L2822821|S3436848|
ENG|贫血未指定|C0002871|L0503461|S0589617|
ENG|贫血|C0002871|L0002871|S0013742|
5语义网络
最后更新:2021 年 8 月 20 日。
预计阅读时间:10 分钟
语义网络由 (1) 一组广泛的主题类别或语义类型组成,它们为 UMLS 元词库中表示的所有概念提供一致的分类,以及 (2) 一组有用且重要的关系或语义关系,它们存在于语义类型之间。本文档的这一部分概述了语义网络,并描述了语义网络的文件。示例记录说明了这些文件的结构和内容。
语义网络作为 UMLS 知识源之一进行分发,并作为语义网络网站上提供的开源资源进行分发。
前往:5.1. 概述
语义网络的目的是为 UMLS 元词库中表示的所有概念提供一致的分类,并提供这些概念之间的一组有用关系。有关特定概念的所有信息都可以在元词库中找到。网络提供有关可能分配给这些概念的基本语义类型或类别集的信息,并定义语义类型之间可能存在的关系集。语义网络包含 127 种语义类型和 54 种关系。语义网络是分配给元词库中概念的语义类型的权威。网络通过文本描述和其层次结构中固有的信息来定义这些类型。
语义类型是网络中的节点,它们之间的关系是链接。语义类型主要分为生物体、解剖结构、生物功能、化学物质、事件、物理对象以及概念或想法。当前 UMLS 语义类型的范围相当广泛,允许对多个领域的各种术语进行语义分类。
元词库由来自其源词汇表的术语组成。每个术语的含义由其来源定义,明确由定义或注释定义;由上下文(其在层次结构中的位置);由同义词和术语之间的其他规定关系定义;由其在描述、分类或索引中的用法定义。每个元词库概念至少分配一种语义类型。在所有情况下,层次结构中最具体的语义类型被分配给概念。例如,概念“Macaca”接收语义类型“哺乳动物”,因为网络中没有更具体的类型“灵长类动物”。粒度级别在整个网络中有所不同。这对于解释已分配给元词库概念的含义(即语义类型)具有重要意义。例如,节点“物理对象”下的子树是“制造对象”。它只有两个子节点,“医疗设备”和“研究设备”。很明显,除了医疗设备和研究设备之外,还有其他制造对象。无需增加语义类型的数量来涵盖这些对象的多个附加子类别,而是简单地为既不是医疗设备也不是研究设备的概念分配更通用的语义类型“制造对象”。
图 1显示了网络的一部分。语义类型“生物功能”有两个子项,“生理功能”和“病理功能”,每个子项又有几个子项和孙项。层次结构中的每个子项都通过“isa”链接与其父项相链接。
图 1.
UMLS 语义网络的一部分:“生物功能”层次结构
网络中的主要链接是“isa”链接。它建立了网络中类型的层次结构,并用于确定可分配给元词库概念的最具体的语义类型。此外,还确定了类型之间的一组非层次关系。这些关系分为五大类,它们本身就是关系:“物理相关”、“空间相关”、“时间相关”、“功能相关”和“概念相关”。
图 2显示了网络关系层次结构的一部分。“影响”关系是几种功能关系之一,有六个子关系,包括“管理”、“治疗”和“预防”。
图 2.
UMLS 语义网络的一部分:“影响”层次结构
只要有可能,网络中的高级语义类型之间就会陈述关系,并且通常通过“isa”链接由这些类型的所有子代继承。因此,例如,语义类型“生物功能”和“有机体”之间存在“过程”关系。因此,它也适用于“器官或组织功能”(即“生理功能”,反过来又是“生物功能”)和“动物”(即“有机体”)之间。语义类型之间会陈述关系,但不一定适用于已分配给这些语义类型的所有概念实例。也就是说,任何特定概念对之间都可能存在或不存在关系。因此,尽管语义类型“符号”和“有机体属性”之间存在“评估”关系,但特定符号或特定属性可能不会通过此关系链接。因此,“超重”和“发烧”等符号分别是对有机体属性“体重”和“体温”的评估。但是,“超重”并不是对“体温”的评价,“发烧”也不是对“体重”的评价。
在某些情况下,网络中类型的放置与要继承的链接之间会发生冲突。如果是这样,则链接的继承被称为被阻止。例如,通过继承,“心理过程”类型将是“植物的过程”。由于植物不是有知觉的生物,因此此链接被明确阻止。在其他情况下,关系的性质使得它不应被其链接的类型的子代继承。在这种情况下,关系针对其明确链接的两个语义类型定义,但针对这些类型的所有子代被阻止。例如,“概念部分”链接“身体系统”和“完全形成的解剖结构”,但它不应将“身体系统”链接到“完全形成的解剖结构”的所有子代,例如“细胞”或“组织”。
MeSH 层次结构的几个部分都标有子级到父级的语义关系。所有解剖学、疾病、精神病学和心理学部分以及部分生物科学部分都已标记。除了少数例外,MeSH 术语之间表达的链接都反映在语义网络中。也就是说,如果两个 MeSH 术语通过某种关系链接,那么该链接在网络中表示为分配给这些 MeSH 术语的语义类型之间的链接。例如,“羊水”是一种“身体物质”,是“胚胎”的子级,“胚胎”是一种“胚胎结构”。“羊水”与其父级“胚胎”之间的标记关系是“环绕”。这是允许的,因为网络中表示的是“身体物质环绕胚胎结构”的关系。
图 3显示了语义网络的一部分,说明了语义类型之间存在的层次关系或关联关系。
图 3.
UMLS 语义网络的一部分:关系
UMLS语义网络提供两种格式:关系表格式和单元记录格式。
前往:5.2. 语义网络 ASCII 关系格式
此格式包含两个基本表、两个辅助表和两个簿记表。两个基本表包含的信息与单元记录文件完全相同,但信息的呈现方式不同。一个表包含有关语义类型和关系的定义信息;另一个表包含有关网络结构的信息。每个语义类型和每个关系都分配有一个四个字符的唯一标识符 (UI)。这些标识符的形式为“T001”、“T002”等。辅助表是包含网络结构的表的扩展。它们给出了网络中表示的完全继承的链接集。第一个表表示为 UI 的三元组。第二个表表示为名称的三元组。两个簿记表描述了关系文件及其字段。所有表中的字段都用“|”分隔。所有表都列出并描述如下:
Table | Description |
---|---|
SRDEF | Basic information about the Semantic Types and Relations. |
SRSTR | Structure of the Network. |
SRSTRE1 | Fully inherited set of Relations (UI's). |
SRSTRE2 | Fully inherited set of Relations (names). |
SRFIL | Description of each table. |
SRFLD | Description of each field and the table(s) in which it is found. |
桌子 | 描述 |
---|---|
沙特基础工业公司 | 关于语义类型和关系的基本信息。 |
SRSTR | 网络结构。 |
SRSTRE1 | 完全继承的关系集(UI)。 |
SRSTRE2 | 完全继承的关系集(名称)。 |
固体燃料喷射机 | 每个表的描述。 |
固体废物管理办公室 | 每个字段以及该字段所在的表的描述。 |
各表具体说明:
Table:
SRDEF
Field | Description |
---|---|
RT: | Record Type (STY = Semantic Type or RL = Relation). |
UI: | Unique Identifier of the Semantic Type or Relation. |
STY/RL: | Name of the Semantic Type or Relation. |
STN/RTN: | Tree Number of the Semantic Type or Relation. |
DEF: | Definition of the Semantic Type or Relation. |
EX: | Examples of Metathesaurus concepts with this Semantic Type (STY records only). |
UN: | Usage note for Semantic Type assignment (STY records only). |
NH: | The Semantic Type and its descendants allow the non-human flag (STY records only). |
ABR: | Abbreviation of the Relation Name or Semantic Type. |
RIN: | Inverse of the Relation (RL records only). |
场地 | 描述 |
---|---|
转发: | 记录类型(STY = 语义类型或 RL = 关系)。 |
用户界面: | 语义类型或关系的唯一标识符。 |
星/韋爾: | 语义类型或关系的名称。 |
STN/RTN: | 语义类型或关系的树编号。 |
防御: | 语义类型或关系的定义。 |
前任: | 具有此语义类型的元同义词库概念的示例(仅限 STY 记录)。 |
联合国: | 语义类型分配的使用说明(仅限 STY 记录)。 |
新罕布什尔州: | 语义类型及其后代允许非人类标志(仅限 STY 记录)。 |
ABR: | 关系名称或语义类型的缩写。 |
瑞安码: | 关系的逆(仅限 RL 记录)。 |
Table:
SRSTR
Field | Description |
---|---|
STY/RL: | Argument 1 (Name of a Semantic Type or Relation). |
RL: | Relation ("isa" or the name of a non-hierarchical Relation). |
STY/RL: | Argument 2 (Name of a Semantic Type or Relation); if this field is blank this means that the Semantic Type or Relation is one of the top nodes of the Network. |
LS: | Link Status (D = Defined for the Arguments and its children; B = Blocked; DNI = Defined but Not Inherited by the children of the Arguments). N.B.: The relations expressed in this table are binary relations and the arguments are ordered pairs. The relations are stated only for the top-most node of the "isa" hierarchy of the Semantic Types to which they may apply. |
场地 | 描述 |
---|---|
星/韋爾: | 参数 1(语义类型或关系的名称)。 |
RL: | 关系(“isa” 或非层次关系的名称)。 |
星/韋爾: | 参数 2(语义类型或关系的名称);如果此字段为空,则表示语义类型或关系是网络的顶级节点之一。 |
LS: | 链接状态(D = 为参数及其子项定义;B = 已阻止;DNI = 已定义但未被参数的子项继承)。 注意:此表中表达的关系是二元关系,参数是有序对。关系仅针对它们可能适用的语义类型的“isa”层次结构的最顶层节点进行陈述。 |
Table:
SRSTRE1 or SRSTRE2
Field | Description |
---|---|
UI/STY: | Argument 1 (UI or name of a Semantic Type). |
UI/RL: | Relation (UI or name of a nonhierarchical Relation). |
UI/STY: | Argument 2 (UI or name of a Semantic Type). N.B.: The relations expressed in this table are binary relations and the arguments are ordered pairs. All relations have been fully inherited in this table. |
场地 | 描述 |
---|---|
用户界面/STY: | 参数 1(UI 或语义类型的名称)。 |
用户界面/RL: | 关系(非层次关系的 UI 或名称)。 |
用户界面/STY: | 参数 2(UI 或语义类型的名称)。 注意:此表中表达的关系是二元关系,参数是有序对。此表中所有关系都已完全继承。 |
Table:
SRFIL
Field | Description |
---|---|
FIL: | File Name. |
DES: | Description of the file. |
FMT: | Format of the file (fields in a comma-separated list). |
CLS: | Number of columns in the file. |
RWS: | Number of rows in the file. |
BTS: | Number of bytes in the file. |
场地 | 描述 |
---|---|
菲尔: | 文件名。 |
数据加密标准(DES): | 文件的描述。 |
裂变材料: | 文件的格式(以逗号分隔的列表中的字段)。 |
CLS: | 文件中的列数。 |
名人堂: | 文件中的行数。 |
防弹少年团: | 文件中的字节数。 |
Table:
SRFLD
Field | Description |
---|---|
COL: | Field name. |
DES: | Description of the field. |
REF: | Cross-reference to the documentation. |
FIL: | File name(s) in which the field is found. |
场地 | 描述 |
---|---|
上校: | 字段名称。 |
数据加密标准(DES): | 字段的描述。 |
参考: | 交叉引用文档。 |
菲尔: | 找到该字段的文件名。 |
关系记录示例
:::::::::::::::
SRDEF
::::::::::::::
STY|T020|获得性异常|A1.2.2.2|在先前正常的结构中发现或衍生的异常结构,或大小或位置异常的结构。获得性异常与疾病不同,即使它们可能导致病理功能(例如“疝气嵌顿”)。||NULL||acab||
STY|T047|疾病或综合症|B2.2.1.2.1|改变或干扰生物体正常过程、状态或活动的状况。其通常特征是宿主的一个或多个系统、部位或器官功能异常。这里包括描述疾病的一组症状。||任何被修饰词(如“急性”、“长期”等)修饰的特定疾病或综合症也将被分配到此类型。如果解剖异常具有病理表现,则它将被赋予此类型以及“解剖异常”层次结构中的类型,例如,“糖尿病性白内障”因此将被双重分类。||dsyn||
STY|T052|活动|B1|生物体或机器执行或参与的操作或一系列操作。||很少有概念会被分配给这种广泛的类型。只要有可能,就会从这个层次结构中选择一个更具体的类型。对于分配给此类型的概念,关注的焦点是活动。当关注的焦点是执行活动的个人或团体时,将选择“行为”层次结构中的类型。一般来说,概念不会同时从“活动”和“行为”层次结构中获得类型。||acty||
STY|T059|实验室程序|B1.3.1.1|用于确定标本的成分、数量或浓度的程序、方法或技术,在临床实验室中进行。这里包括测量反应时间和速率的程序。||NULL||lbpr||
RL|T173|adjacent_to|R2.2|靠近、邻近或毗连另一个物理单元,且中间没有其他同类结构。这包括毗邻、毗连、相邻、并列和靠近。||||AD|adjacent_to|
RL|T151|affects|R3.1|产生直接影响。暗示改变或影响现有条件、状态、情况或实体。这包括发挥作用、改变、影响、倾向、催化、刺激、调节、抑制、阻碍、增强、促成、导致和修改。||||AF|affected_by|
::::::::::::::
SRSTR
::::::::::::::
获得性异常|与损伤或中毒同时发生|
获得性异常|isa|解剖异常|
获得性异常|结果|行为|
活动|isa|事件|
年龄组|isa|组|
::::::::::::::
SRSTRE1
::::::::::::::
T020|T186|T190|
T020|T186|T017|
T020|T186|T072|
T052|T186|T051| T052|
T165|T090| T052|
T165|T091|
T100|T186|T096|
T100|T186|T077|
T100|T186|T071|
::::::::::::::
SRSTRE2
::::::::::::::
获得性异常|isa|解剖异常|
获得性异常|isa|解剖结构|
获得性异常|isa|实体|
获得性异常|isa|物理对象|
获得性异常|影响|两栖动物|
获得性异常|影响|动物|获得性异常
|影响|古
菌| 获得性异常|影响|细菌|
获得性异常|影响|鸟类|
获得性异常|影响|细胞功能|
获得性异常|影响|真核生物|
获得性异常|影响|鱼类|
获得性异常|影响|真菌|
获得性异常|影响|遗传功能|
获得性异常|影响|人类|
获得性异常|影响|哺乳动物|
获得性异常|影响|心理过程|
获得性异常|影响|分子功能|
获得性异常|影响|器官或组织功能|
获得性异常|影响|生物体功能|获得性异常|
影响|生物体|
获得性异常|影响|生理功能|
获得性异常|影响|植物|
获得性异常|影响|爬行动物|
获得性异常|影响|脊椎动物|
获得性异常|影响|病毒|
活动|isa|事件|
年龄组|isa|概念实体|
年龄组|isa|实体|
年龄组|isa|组|
5.3. 语义网络 ASCII 单元记录格式
文件“SU”包含语义类型和关系的单独记录。
每条记录以包含四个字符的唯一标识符字段 (UI) 开头。这些字段的格式为“T001”、“T002”等。记录中的每个字段都以新行开始,可能会持续多行。有些字段是可选的。
语义类型记录包含以下字段:
Field | Description |
---|---|
UI: | Unique Identifier of the Semantic Type. |
STY: | Name of the Semantic Type. |
STN: | Tree Number of the Semantic Type. |
DEF: | Definition of the Semantic Type. |
EX: | Examples of Metathesaurus concepts with this Semantic Type (optional field). |
UN: | Usage note for Semantic Type assignment (optional field). |
NH: | Semantic Type and its descendants allow the non-human flag (optional field). |
HL: | Hierarchical links of the Semantic Type to its parent ({isa}) and its children ({inverse_isa}). If there are no hierarchical links, then the value |
场地 | 描述 |
---|---|
用户界面: | 语义类型的唯一标识符。 |
斯蒂尔: | 语义类型的名称。 |
斯坦因: | 语义类型的树编号。 |
防御: | 语义类型的定义。 |
前任: | 具有此语义类型的元同义词库概念的示例(可选字段)。 |
联合国: | 语义类型分配的使用说明(可选字段)。 |
新罕布什尔州: | 语义类型及其后代允许非人类标志(可选字段)。 |
HL: | 语义类型与其父级 ({isa}) 及其子级 ({inverse_isa}) 的层次链接。如果没有层次链接,则分配值 |
关系记录包含以下字段:
Field | Description |
---|---|
UI: | Unique Identifier of the Relation. |
RL: | Name of the Relation. |
ABR: | Abbreviation of the Relation. |
RIN: | Name of the inverse of the Relation. |
RTN: | Tree Number of the Relation. |
DEF: | Definition of the Relation. |
INH: | "N" if the relation is not inherited (optional field). |
HL: | Hierarchical links of the Relation to its parent ({isa}) and its children ({inverse_isa}). If there are no hierarchical links, then the value |
STL: | Semantic Types linked by this Relation. N.B.: These are binary relations and the arguments are ordered pairs. The relations are stated only for the top-most node of the "isa" hierarchy of the Semantic Types to which they may apply. This field does not appear in the "isa" relation record since its values can be computed from the "HL" field. If there are no semantic types linked by this Relation, then the value |
STLB: | Semantic Types linked by this Relation are blocked (optional field). |
场地 | 描述 |
---|---|
用户界面: | 关系的唯一标识符。 |
RL: | 关系的名称。 |
ABR: | 关系的缩写。 |
瑞安码: | 关系的逆名称。 |
中继干线: | 关系的树编号。 |
防御: | 关系的定义。 |
异烟肼: | 如果关系不是继承的,则为“N”(可选字段)。 |
HL: | 关系与其父级 ({isa}) 及其子级 ({inverse_isa}) 的层次链接。如果没有层次链接,则分配值 |
STL: | 此关系链接的语义类型。 注意:这些是二元关系,参数是有序对。这些关系仅针对它们可能适用的语义类型的“isa”层次结构的最顶层节点进行陈述。此字段不会出现在“isa”关系记录中,因为其值可以从“HL”字段计算得出。如果此关系没有链接的语义类型,则分配值 |
空运班班长: | 此关系链接的语义类型被阻止(可选字段)。 |
样本 单位记录
::::::::::::::
SU
::::::::::::::
UI: | T020 |
STY: ABR: | Acquired Abnormality acab |
|
|
|
|
|
|
UI: | T052 |
STY: ABR: | Activity acty |
|
|
|
|
|
|
|
|
UI: | T100 |
STY: ABR: | Age Group aggp |
|
|
|
|
|
|
UI: | T173 |
RL: | adjacent_to |
ABR: | AD |
RIN: | adjacent_to |
RTN: | R2.2 |
DEF: | Close to, near or abutting another physical unit with no other structure of the same kind intervening. This includes adjoins, abuts, is contiguous to, is juxtaposed, and is close to. |
HL: | {isa} spatially_related_to |
STL: | [Body Location or Region|Body Location or Region]; [Body Location or Region|Body Part, Organ, or Organ Component]; [Body Location or Region|Body Space or Junction]; [Body Part, Organ, or Organ Component|Body Part, Organ, or Organ Component]; [Body Part, Organ, or Organ Component|Body Space or Junction]; [Body Part, Organ, or Organ Component|Cell]; [Body Part, Organ, or Organ Component|Tissue]; [Body Space or Junction|Body Space or Junction]; [Cell Component|Body Space or Junction]; [Cell Component|Cell Component]; [Cell|Cell]; [Tissue|Body Space or Junction]; [Tissue|Tissue] |
UI: | T151 |
RL: | affects |
ABR: | AF |
RIN: | affected_by |
RTN: | R3.1 |
DEF: | Produces a direct effect on. Implied here is the altering or influencing of an existing condition, state, situation, or entity. This includes has a role in, alters, influences, predisposes, catalyzes, stimulates, regulates, depresses, impedes, enhances, contributes to, leads to, and modifies. |
HL: | {isa} functionally_related_to; {inverse_isa} manages; {inverse_isa} treats; {inverse_isa} disrupts; {inverse_isa} complicates; {inverse_isa} interacts_with; {inverse_isa} prevents |
STL: | [Natural Phenomenon or Process|Natural Phenomenon or Process]; [Anatomical Abnormality|Physiologic Function]; [Biologic Function|Organism]; [Anatomical Abnormality|Organism]; [Health Care Activity|Biologic Function]; [Diagnostic Procedure|Patient or Disabled Group]; [Therapeutic or Preventive Procedure|Patient or Disabled Group]; [Chemical|Natural Phenomenon or Process]; [Gene or Genome|Physiologic Function]; [Cell Component|Physiologic Function]; [Physiologic Function|Organism Attribute]; [Food|Biologic Function]; [Behavior|Behavior]; [Behavior|Mental Process]; [Mental Process|Behavior]; [Mental or Behavioral Dysfunction|Behavior]; [Research Activity|Mental Process]; [Regulation or Law|Group]; [Regulation or Law|Organization] |
:::::::::::::::
苏
::::::::::::::
用户界面: | T020 |
斯蒂尔: ABR: | 获得性异常 阿卡布 |
|
|
|
|
|
|
用户界面: | T052 |
斯蒂尔: ABR: | 活动 行动 |
|
|
|
|
|
|
|
|
用户界面: | T100 |
斯蒂尔: ABR: | 年龄组 聚合酶 |
|
|
|
|
|
|
用户界面: | T173 |
RL: | 相邻 |
ABR: | 广告 |
瑞安码: | 相邻 |
中继干线: | R2.2 |
防御: | 靠近、邻近或毗连另一个物理单元,中间没有其他同类结构。这包括毗连、毗连、相邻、并列和靠近。 |
HL: | {isa} 空间相关 |
STL: | [身体位置或区域 |身体位置或区域]; [身体位置或区域 |身体部位、器官或器官组成部分]; [身体位置或区域 |身体空间或连接处]; [身体部位、器官或器官组成部分 |身体部位、器官或器官组成部分]; [身体部位、器官或器官组成部分 |身体空间或连接处]; [身体部位、器官或器官组成部分 |细胞]; [身体部位、器官或器官组成部分 |组织]; [身体空间或连接处 |身体空间或连接处]; [细胞组成部分 |身体空间或连接处]; [细胞组成部分 |细胞组成部分]; [细胞|细胞]; [组织|身体空间或连接处]; [组织|组织] |
用户界面: | T151 |
RL: | 影响 |
ABR: | 自动对焦 |
瑞安码: | 受影响 |
中继干线: | R3.1 |
防御: | 产生直接影响。此处隐含的是改变或影响现有条件、状态、情况或实体。这包括发挥作用、改变、影响、促成、催化、刺激、调节、抑制、阻碍、增强、促成、导致和修改。 |
HL: | {isa} 功能相关; {inverse_isa} 管理;{inverse_isa} 治疗; {inverse_isa} 破坏; {inverse_isa} 复杂化; {inverse_isa} 相互作用; {inverse_isa} 阻止 |
STL: | [自 然现象或过程|自然现象或过程]; |
6专业词汇和词汇工具
最后更新:2021 年 8 月 20 日。
预计阅读时间:20 分钟
SPECIALIST 词典的开发旨在为 SPECIALIST 自然语言处理系统 (NLP) 提供所需的词汇信息。它旨在成为包含许多生物医学术语的通用英语词典。涵盖范围包括常用英语单词和生物医学词汇。每个单词或术语的词典条目记录了 SPECIALIST NLP 系统所需的句法、形态和正字法信息。
词汇工具旨在解决自然语言单词和术语的高度可变性。单词通常有几种屈折形式,这些屈折形式可以被视为同一个词的实例。例如,动词“treat”有三种屈折变体:“treats”第三人称单数现在时形式,“treated”过去和过去分词形式,以及“treating”现在分词形式。元词库和其他受控词汇表中的多词术语除了屈折和字母大小写变体外,还可能有词序变体。词汇工具允许用户抽象出这种变体。
有关 SPECIALIST 词汇表、词汇变体程序和词汇数据库的概述,请参阅《管理生物医学术语变异的词汇方法》,AT McCray、S. Srinivasan 和 AC Browne 合著,载于第 18 届医疗保健计算机应用年会论文集,1994 年,第 235-239 页。
SPECIALIST 词典作为 UMLS 知识源之一进行分发,并与SPECIALIST NLP 工具一起作为开源资源进行分发,但须遵守这些条款和条件。
前往:6.1. 一般描述
词典由一组词汇条目组成,每个条目对应一个特定词类的拼写或拼写变体集。如果多词术语在通用英语词典或医学词典或医学词库(如 MeSH)中作为术语出现,则该词汇项可能是由其他词组成的“多词”术语。通常使用的首字母缩略词和缩写的扩展也可以作为多词术语。
单位词汇记录是一个由槽位和填充符组成的框架结构。每个词汇记录都有一个 base= 槽位,其填充符表示基本形式,以及可选的一组 spliting_variants= 槽位,用于表示拼写变体。“entry=”槽位记录记录的唯一标识符 (EUI)。EUI 编号是七位数字,前面带有“E”。每个记录都有一个 cat= 槽位,表示词性。词汇记录由括号 ({...}) 分隔。
下面给出的“麻醉”单元词汇记录说明了 SPECIALIST 词汇记录的一些特点:
{base=anesthetic 拼写变体=anaesthetic entry=E0354094 cat=noun variants=reg variants=uncount}
{base=anesthetic 拼写变体=anaesthetic entry=E0330019 cat=adj variants=inv position=attrib(3) position=pred stative}
基本形式“anesthetic”及其拼写变体“anaesthetic”出现在两个词汇记录中,一个是形容词条目,另一个是名词条目。variants= 槽包含表示条目屈折形态的代码;名词条目中的填充 reg 表示名词“anesthetic”是可数名词,其采用常规英语复数构成(“anaesthetics”);形容词条目 variants= 槽中的 inv 表示形容词“anesthetic”不构成比较级或最高级。position= 槽表示形容词“aneesthetic”是定语,按正常形容词顺序出现在颜色形容词之后。形容词条目位置槽中的“pred”表示该形容词可以出现在谓语位置。
词汇条目不按意义划分。因此,无论语义如何,一个条目都代表一个拼写-类别配对。名词“act”有两种意义,均显示大写和小写的拼写;戏剧行为和法律行为。由于这两种意义具有相同的拼写和句法类别,因此它们在当前词典中由单个词汇条目表示。“Act”的单元记录如下所示。
{base=Act 拼写变体=act 条目=E0000154 cat=名词变体=reg }
当不同的意义具有不同的句法行为时,每个行为的代码都记录在一个条目中。例如,“啤酒”有两种意义:酒精饮料和该饮料标准容器的数量。
A. 喝啤酒的病人比喝葡萄酒的病人恢复得慢。B
. 56 名病人报告说他们每天喝 5 杯以上的啤酒。
上文 A. 中所示的第一种含义是不可数名词。B. 中所示的第二种含义是常规名词(可数名词)。在这种情况下,两种含义的相应代码都包含在条目中。
{base=beer entry=E0012226 cat=noun variants=uncount variants=reg }
当词汇项既可数又不可数且没有意义区别时,也会出现两个代码。“腹腔分娩”无论作为不可数名词出现(如 C. 中)还是作为可数名词出现(如 D. 中),都表示相同的过程。
C. 在这种情况下,剖腹分娩是首选方法。D
. 如今,剖腹分娩更为常见。
“腹腔分娩”的单位词汇记录包含这两个代码。
{base=腹部分娩条目=E0006453 cat=名词变体=uncount 变体=reg }
其他句法代码,如动词、形容词和名词的补语代码,也是类似地不考虑意义而进行分组的。
前往:6.2. 词典的范围
词汇编码的选词来自各种来源。UMLS 测试 MEDLINE 摘要集的约 20,000 个单词以及 UMLS 元同义词库和 Dorland 插图医学词典中出现的单词构成了输入单词的核心。此外,还努力将通用英语词汇中的单词纳入其中。美国传统词频手册中列出的 10,000 个最常用单词和朗文当代英语词典中定义中使用的 2,000 个单词列表也已编码。由于大多数选定用于编码的单词都是名词,因此我们努力通过识别当前 MEDLINE 引文记录中的动词、使用计算机可用牛津高级学习词典以及使用 McCray 和 Srinivasan (1990) 开发的启发式方法识别 Dorland 插图医学词典中的潜在形容词来纳入动词和形容词。
编码词汇记录时使用了各种参考资料。编码基于 UMLS 测试集和 MEDLINE、通用英语词典、主要为学习者词典(记录 NLP 所需的句法信息)和医学词典中的实际使用情况。使用了朗文当代英语词典、多兰图解医学词典、柯林斯 COBUILD 词典、牛津高阶学习词典和韦氏医学案头词典。
SPECIALIST 词典也以从单位记录生成的关系格式存在。文件techrpt.pdf中的完整 SPECIALIST 词典技术报告题为“SPECIALIST 词典” ,全面描述了单位记录格式。本章的其余部分描述了词典的关系形式。第 6.3 节描述了构成关系表的数据元素,第 6.4 节描述了表格。
前往:6.3. 词典数据元素
下面的每个元素都以关系格式表示为字段(列)。
6.3.1. 字符串属性
这些数据元素指的是条目生成的字符串的属性。
6.3.1.1. STR——字符串
词汇条目会生成多种形式(字符串),包括每种拼写变体的所有屈折形式(以及引用形式)。大小写、标点和空格都很重要。
6.3.1.2. AGR-一致/词形变化代码
此元素对一致性和词形变化信息进行编码。
名词与动词、限定词与名词的一致涉及人称与数。人称与数用下列代码表示。
Code | Person | Number |
---|---|---|
second | Second | Singular & Plural |
third | Third | Singular & Plural |
fst_sing | First | Singular |
fst_plur | First | Plural |
thr_sing | Third | Singular |
thr_plur | Third | Plural |
代码 | 人 | 数字 |
---|---|---|
第二 | 第二 | 单数和复数 |
第三 | 第三 | 单数和复数 |
響鳴 | 第一的 | 单数 |
fst_plur | 第一的 | 复数 |
thr_sing | 第三 | 单数 |
thr_plur | 第三 | 复数 |
对于名词,一致/词形变化代码表示可数性、人称和数。人称和数由上面给出的人称/数代码表示,这些代码在可数性代码后用括号括起来。名词可以是可数的,也可以是不可数的。
对于代词,一致/词形变化使用上面给出的代码来表示人称和数字。
对于动词(包括助动词和情态动词),一致/词形变化代码表示时态、人称和数。人称和数用上面给出的相同人称/数代码表示。这些代码在时态后用括号括起来。非限定时态没有给出人称数代码。“pres(thr_sing)”表示第三人称单数现在时,“pres(fst_sing,fst_plur,thr_plur,second)”表示除第三单数以外的所有人称和数的现在时。助动词(didn't)和情态动词(can't)的否定形式在一致/词形变化代码末尾的冒号后有“negative”。
Code | Person | Number |
---|---|---|
second | Second | Singular & Plural |
third | Third | Singular & Plural |
fst_sing | First | Singular |
fst_plur | First | Plural |
thr_sing | Third | Singular |
thr_plur | Third | Plural |
代码 | 紧张 |
---|---|
过去的 | 过去时 |
普雷斯 | 现在时 |
过去的部分 | 过去分词 |
pres_part | 现在分词 |
不定式 | 不定式 |
限定词在可数性和数量方面与名词一致。限定词的一致/词形变化代码为“自由”、“复数”、“单数”和“不可数”。“自由”表示限定词对名词没有任何限制。标记为“复数”的限定词允许使用复数名词,标记为“单数”的限定词允许使用单数名词,标记为“不可数”的限定词允许使用不可数名词。
6.3.1.3. CAS - 案例
请参阅“SPECIALIST Lexicon”技术报告第 4.3.1 节。
英语中的代词有两种格,主格(主格)和宾格(宾格)。此字段包含“主格”、“宾格”或两者,用逗号分隔以指示代词的格。
6.3.1.4. GND-性别
此字段表示代词的性别。
代词可以标记为 pers 或 neut,以分别表示它们是指人还是非人。标记为 pers 的代词可以是阳性 (masc) 或阴性 (fem),分别指男性或女性。请参阅“专业词典”技术报告第 14.2 节。此字段可能有四种代码:
Code | Gender |
---|---|
pers | person |
neut | neuter |
pers(masc) | person masculine |
pers(fem) | person feminine |
代码 | 性别 |
---|---|
个人 | 人 |
中性 | 中性 |
pers(阳性) | 男性化的人 |
人(女性) | 女性化的人 |
请注意,此处使用的 pers 并不对应于传统术语“人称代词”。例如,“it”和“they”传统上被称为人称代词,因为它们都属于人称/数范式。“none”之类的代词传统上不被称为人称代词。
6.3.2. 条目属性
6.3.2.1. EUI——词汇条目的唯一标识符
EUI 标识词汇条目。有关特定词类中一组拼写变体的信息表示为单元记录中的条目。特定字符串可能会被分配多个 EUI 编号,因为它可能出现在多个词类中。
6.3.2.2. CIT - 引证表格
此字段记录了一致/词形变化表中字符串的引用形式(第 6.4.3.1 节 - lragr)。引用形式是名词的单数形式、动词的不定式形式以及形容词和副词的肯定形式。基本形式和拼写变体(如果有)是其各自词形变化的引用形式。这种形式有时被称为非词形变化形式。
6.3.2.3. BAS-基本形式
此字段记录词汇条目的基本形式。基本形式是选择用来代表整个集合的一组拼写变体之一的引用形式。它可能被认为是词汇条目的名称。基本形式是 base= 槽的填充物。
6.3.2.4. SCA-句法类别
词汇条目的句法类别(词性)。此字段可以由下列之一填充。请参阅“SPECIALIST 词汇表”技术报告第 3 节。
Code | Category |
---|---|
noun | nouns |
adj | adjectives |
adv | adverbs |
pron | pronouns |
verb | verbs |
det | determiners |
prep | prepositions |
conj | conjunctions |
aux | auxiliaries |
modal | modals |
compl | complementizers |
代码 | 类别 |
---|---|
名词 | 名词 |
形容词 | 形容词 |
前言 | 副词 |
代词 | 代词 |
动词 | 动词 |
确定 | 限定词 |
准备 | 介词 |
连词 | 连词 |
辅助 | 辅助剂 |
情态动词 | 情态动词 |
完整 | 互补词 |
6.3.2.5. PER-迂回
此字段中的代码“periph”表示形容词或副词是迂回的。如果形容词可以与“more”形成比较级,与“most”形成最高级,则该形容词是迂回的。有关讨论,请参阅“专家词典”技术报告第 4.3.5 节。
6.3.2.6. COM——补充
这些是补码。有关 SPECIALIST 补码的描述,请参阅“SPECIALIST 词典”技术报告的第 5.1、5.2、5.4 和 5.5 节。
6.3.2.7. TYP-屈折类型
条目的屈折类型表明其形式可以屈折的方式,或者在限定词的情况下,表明它们可以确定的词头的屈折。这些代码用于生成其他表中的变体字符串 (STR)。
对于名词,可能出现以下类型:
Code | Pluralization Pattern | See "The SPECIALISTLexicon" Section |
---|---|---|
reg | regular | 4.5.2 |
glreg | Greco-Latin regular | 4.5.3 |
metareg | metalinguistic regular | 4.5.4 |
irreg( ) | irregular | 4.5.5 |
sing | fixed singular | 4.5.6 |
plur | fixed plural | 4.5.7 |
inv | invariant | 4.5.8 |
group(irreg( )) | group irregular | 4.5.9 |
group(reg) | group regular | 4.5.9 |
uncount | uncountable | 4.5.10 |
groupuncount | group uncount | 4.5.11 |
代码 | 复数形式 | 请参阅“专家词典”部分 |
---|---|---|
登记 | 常规的 | 4.5.2 |
格勒格 | 希腊拉丁字母常规 | 4.5.3 |
元注册 | 元语言规则 | 4.5.4 |
不规则() | 不规律的 | 4.5.5 |
唱歌 | 固定单数 | 4.5.6 |
复数 | 固定复数 | 4.5.7 |
投资 | 不变的 | 4.5.8 |
组(irreg()) | 组不规则 | 4.5.9 |
组(注册) | 团体定期 | 4.5.9 |
不计数 | 不可数 | 4.5.10 |
组数 | 组不计数 | 4.5.11 |
对于动词,可能出现以下类型:
Code | Inflection Type | See "The SPECIALISTLexicon" Section |
---|---|---|
reg | regular | 4.1.1 |
regd | regular doubling | 4.1.2 |
irreg( ) | irregular | 4.1.3 |
代码 | 屈折类型 | 请参阅“专家词典”部分 |
---|---|---|
登记 | 常规的 | 4.1.1 |
登记 | 定期加倍 | 4.1.2 |
不规则() | 不规律的 | 4.1.3 |
对于代词,可能出现以下类型:
Code | Inflection Type |
---|---|
fst_plur | first person plural |
fst_sing | first person singular |
sec_plur | second person plural |
sec_sing | second person singular |
second | second person |
third | third person |
thr_plur | third person plural |
thr_sing | third person singular |
代码 | 屈折类型 |
---|---|
fst_plur | 第一人称复数 |
響鳴 | 第一人称单数 |
sec_plur | 第二人称复数 |
sec_sing | 第二人称单数 |
第二 | 第二人称 |
第三 | 第三人称 |
thr_plur | 第三人称复数 |
thr_sing | 第三人称单数 |
请参阅“SPECIALIST Lexicon”技术报告的第 14.1 节。
对于形容词和副词,可以出现以下类型:
Code | Inflectional Type | See "The SPECIALISTLexicon" Section |
---|---|---|
reg | regular | 4.3.1 and 4.4.1 |
regd | regular doubling | 4.3.2 |
inv | invariant | 4.3.4 and 4.4.3 |
inv;periph | periphrastic | 4.3.5 and 4.4.4 |
irreg( ) | irregular | 4.3.3 and 4.4.2 |
代码 | 屈折类型 | 请参阅“专家词典”部分 |
---|---|---|
登记 | 常规的 | 4.3.1 和 4.4.1 |
登记 | 定期加倍 | 4.3.2 |
投资 | 不变的 | 4.3.4 和 4.4.3 |
逆;外围 | 迂回曲折的 | 4.3.5 和 4.4.4 |
不规则() | 不规律的 | 4.3.3 和 4.4.2 |
对于限定词,词形变化类型表示它们可能决定的名词头的词形变化。可能出现以下类型:
Code | Inflectional Type | See "The SPECIALISTLexicon" Section |
---|---|---|
sing | singular | 4.7.1 |
plur | plural | 4.7.2 |
uncount | uncount | 4.7.3 |
singuncount | singular uncount | 4.7.4 |
pluruncount | plural uncount | 4.7.5 |
free | free | 4.7.6 |
代码 | 屈折类型 | 请参阅“专家词典”部分 |
---|---|---|
唱歌 | 单数 | 4.7.1 |
复数 | 复数 | 4.7.2 |
不计数 | 不计数 | 4.7.3 |
单数 | 单数不数 | 4.7.4 |
复数 | 复数不可数 | 4.7.5 |
自由的 | 自由的 | 4.7.6 |
6.3.2.8. POS-占有
英语代词可以是所有格或名词性所有格。此字段中可能出现代码 poss、possnom 或两者(逗号分隔)。
请参阅“SPECIALIST Lexicon”技术报告第 14.3.2 节。
6.3.2.9. QNT-量化
此字段表示某些代词固有的量化属性。此字段中可能出现的四种代码为:
Code | Properties |
---|---|
univ | universal quantification |
indef(nonassert) | non-assertive indefinite |
indef(neg) | negative indefinite |
indef(assert) | assertive indefinite |
代码 | 特性 |
---|---|
大学 | 普遍量化 |
indef(不断言) | 非肯定不确定 |
不确定(负) | 否定不定 |
不确定(断言) | 断言不确定 |
有关代词量化的讨论,请参阅《专业词典》技术报告的第 14.3.4 节。
6.3.2.10. FEA - 特征
此字段表示不同类别术语的各种特征。可能的特征包括:
Feature | See "The SPECIALISTLexicon" Section |
---|---|
reflexive | 14.3.3 |
negative | 14.3.4 |
demonstrative | 14.3.5 |
interrogative | 12.1 |
proper | 8. |
negative | 13.1 |
broad_negative | 13.2 |
stative | 10. |
特征 | 请参阅“专家词典”部分 |
---|---|
反身的 | 14.3.3 |
消极的 | 14.3.4 |
示范性的 | 14.3.5 |
疑问 | 12.1 |
恰当的 | 8. |
消极的 | 13.1 |
broad_negative | 13.2 |
静态的 | 10. |
6.3.2.11. PSN - 形容词的位置
SPECIALIST 词汇表中的形容词用位置代码标记,以显示它们是修饰后置定语还是表语。如果是定语,代码会指示它们出现在形容词前名词序列中的位置。附加的定语代码 attribc 用于指示可以在定语位置上接补语的形容词。可以出现以下一个或多个代码:
Code | Position | See "The SPECIALIST Lexicon" Section |
---|---|---|
attrib(1) | attributive (1st position) | 9.1.1.1 |
attrib(2) | attributive (2nd position) | 9.1.1.2 |
attrib(3) | attributive (3rd position) | 9.1.1.3 |
attribc | attributive with complement | 9.1.2 |
post | post modifying | 9.2 |
pred | predicative | 9.3 |
代码 | 位置 | 请参阅“专家词典”部分 |
---|---|---|
属性(1) | 定语(第一位) | 9.1.1.1 |
属性(2) | 定语(第二位置) | 9.1.1.2 |
属性(3) | 定语(第三位置) | 9.1.1.3 |
属性 | 定语补语 | 9.1.2 |
邮政 | 后期修改 | 9.2 |
预测 | 表语 | 9.3 |
6.3.2.12. MOD - 副词的修饰类型
SPECIALIST 词典中会标记副词以表明其修饰类型。此字段的可能值为:
Code | See "The SPECIALIST Lexicon" Section |
---|---|
intensifier | 11.2 |
particle | 11.1 |
sentence_modifier; TYPE | 11.3 |
verb_modifier; TYPE | 11.4 |
代码 | 请参阅“专家词典”部分 |
---|---|
增强器 | 11.2 |
粒子 | 11.1 |
句子修饰语;类型 | 11.3 |
动词修饰语;类型 | 11.4 |
类型是位置、时间或方式之一。请参阅“SPECIALIST 词典”技术报告的第 11.5 节。
6.3.2.13. GEN - 商标的通用名称
GEN 字段表示商标所指事物的通用名称或公共名称。商标“Alphalin”的通用术语为“维生素 A”。
6.3.3. 入口关系
6.3.3.1. ABR-缩写或缩写
此字段指示首字母缩略词表 (lrabr) 中列出的术语是首字母缩略词还是缩写。它包含以下任一内容:
“abbreviation_of” 或 “acronym_of”。
6.3.3.2. SPV - 拼写变体
SPECIALIST 词典中的基本形式可能有一个或多个拼写变体,但遵循相同的屈折模式。此字段包含特定拼写变体的引用形式。请参阅“SPECIALIST 词典”技术报告第 2 部分。
6.3.4. 数据描述
数据元素描述关系表文件或为词典提供索引条目。
6.3.4.1. WRD-字
每个字符串被分解为“单词”并在 lrwd 中编入索引。单词是长度超过一个字符的字母数字字符串,以空格或标点符号分隔。
6.3.4.2. DES-描述
文件或字段的简短定义。这是自由文本。
6.3.4.3. FMT-格式
文件中出现的以逗号分隔的有序字段名称列表。
6.3.4.4. RWS - 行数
文件中的行数(行或记录数)。
6.3.4.5. FIL——文件名
一个或多个文件名,表示包含关系表的文件。
6.3.4.6. BTS-大小(字节)
文件的大小(以字节(字符)为单位)。
6.3.4.7. CLS - 列数
表中记录(或行)的列数(字段数)。与文件中的行数相同。
6.3.4.8. COL – 三字母字段名称
字段的三个字母的标识符。
6.3.4.9. REF-文档交叉引用
对本文档某个部分的交叉引用。
前往:6.4. 词典关系表
6.4.1. 简介
在这种格式中,每个词汇条目中的数据都以文件中的十个不同的“关系”或“表”来表示。
词典关系格式并非完全规范化。根据设计,不同关系之间以及某些关系内存在重复数据。开发人员需要自行决定针对其特定应用程序应在多大程度上保留、减少或增加这种冗余。
6.4.2. 关系格式的一般描述
与 Metathesaurus ASCII 关系格式一样,每个关系或数据值表按定义都有固定数量的列;行数取决于词典特定版本的内容。列是给定数据元素或逻辑子元素中所有值的序列。通常,较长的可变长度数据元素的列将出现在较短和/或固定长度数据元素的列的右侧。一行包含一个词典条目或字符串的一个或多个数据元素或逻辑子元素的值。根据所涉及的数据元素的性质,每个词典条目或字符串在给定文件中可能有一行或多行。行中表示的不同数据元素或逻辑子元素的值由竖线 (|) 分隔。如果可选元素为空,则仍使用竖线来保持后续元素的正确定位。每行以竖线和回车符结尾,后跟换行符。(|
6.4.3. 各关系文件内容摘要
在以下描述中,每个元素旁边括号中的数字指的是本文档中描述该元素内容的部分。
6.4.3.1. - 一致和变格 (文件 = lragr)
一致性表的行有六个字段。lragr 中每个拼写变体的每个变格形式都有一行。此表将这些形式与其引用形式和基本形式联系起来。它提供了有关主语(名词和代词)与动词之间以及限定词与名词之间的一致性的信息。
EUI | The Entry Unique ID Number (6.3.2.1) |
STR | String (6.3.1.1) |
SCA | Syntactic Category (6.3.2.4) |
AGR | Agreement/Inflection Code (6.3.1.2) |
BAS | Base Form (6.3.2.3) |
CIT | Citation Form (6.3.2.2) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
强度 | 字符串(6.3.1.1) |
细胞因子 | 句法类别(6.3.2.4) |
平均生长率 | 一致/词形变化代码(6.3.1.2) |
基础服务 | 基本形式(6.3.2.3) |
美国税务局 | 引文表格(6.3.2.2) |
6.4.3.2. - 词形变化类型 (File = lrtyp)
lrtyp 表针对每个词汇条目都有一行或多行,指示其所属的屈折模式。
EUI | The Entry Unique ID Number (6.3.2.1) |
CIT | Citation Form (6.3.2.2) |
SCA | Syntactic Category (6.3.2.4) |
TYP | Inflectional Type (6.3.2.7) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
美国税务局 | 引文表格(6.3.2.2) |
细胞因子 | 句法类别(6.3.2.4) |
类型 | 屈折类型(6.3.2.7) |
6.4.3.3. - 补充(文件 = lrcmp)
在 lrcmp 中,每个条目的每个补码都有一行。
EUI | The Entry Unique ID Number (6.3.2.1) |
BAS | The Base Form (6.3.2.3) |
SCA | Syntactic Category (6.3.2.4) |
COM | Complement Code. (6.3.2.6) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
基础服务 | 基本形式(6.3.2.3) |
细胞因子 | 句法类别(6.3.2.4) |
串口 | 补码。(6.3.2.6) |
6.4.3.4. - 代词 (文件 = lrprn)
lrprn 词典中的每个代词条目都有一行或多行。每行有九列。
EUIThe Entry Unique ID Number (6.3.2.1)BASThe Base Form (6.3.2.3)AGRAgreement/Inflection Code (6.3.1.2)
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
基础服务 | 基本形式(6.3.2.3) |
平均生长率 | 一致/词形变化代码(6.3.1.2) |
请参阅“SPECIALIST Lexicon”技术报告的第 14.1 节。
lrprn 中的一致/词形变化字段表示用于照应指代的人称和数字,lragr 中的 AGR 表示用于一致的人称。它们在所有格名词代词的情况下有所不同。所有格名词“mine”在主谓一致方面是“third”,在其照应指代方面是“fst_sing”。
GND | Gender (6.3.1.4) |
CAS | Case (6.3.1.3) |
POS | Possession (6.3.2.8) |
QNT | Quantification (6.3.2.9) |
FEA | Other Features (for pronouns) (6.3.2.10) |
地线 | 性别(6.3.1.4) |
中科院 | 案例(6.3.1.3) |
销售点 | 占有(6.3.2.8) |
量子点 | 量化(6.3.2.9) |
有限元分析 | 其他功能(针对代词)(6.3.2.10) |
6.4.3.5. 修改器 (file = lrmod)
修饰语表包括形容词的位置信息和副词的修饰类型信息,以及各种特征。
EUI | The Entry Unique ID Number (6.3.2.1) |
BAS | The Base Form (6.3.2.3) |
SCA | Syntactic Category (6.3.2.4) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
基础服务 | 基本形式(6.3.2.3) |
细胞因子 | 句法类别(6.3.2.4) |
此表中的所有条目都具有类别“adj”或“adv”,分别表示形容词或副词。lrmod 的第四个字段可能是 PSN 或 MOD,具体取决于该术语是形容词还是副词。
PSN/MOD | Position (6.3.2.11) - for adjectives / Modification Types (6.3.2.12) - for adverbs |
FEA | Features (6.3.2.10) |
PSN/修改版 | 位置 ( 6.3.2.11 ) - 形容词 / 修饰类型 ( 6.3.2.12 ) - 副词 |
有限元分析 | 功能(6.3.2.10) |
6.4.3.6. - 属性(文件 = lrprp)
lrprp 表示不同类别术语的属性。
EUI | The Entry Unique ID Number (6.3.2.1) |
BAS | The Base Form (6.3.2.3) |
STR | String (6.3.1.1) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
基础服务 | 基本形式(6.3.2.3) |
强度 | 字符串(6.3.1.1) |
仅当某个特征适用于条目生成的字符串中的单个字符串时,才会在 lrprp 中指示 STR,如负收缩一样。
SCA | Syntactic Category (6.3.2.4) |
FEA | Features (6.3.2.10) |
细胞因子 | 句法类别(6.3.2.4) |
有限元分析 | 功能(6.3.2.10) |
6.4.3.7. - 缩写和首字母缩略词 (file = lrabr)
该文件将首字母缩略词和缩写与其扩展名链接起来。
EUI | The Entry Unique ID Number (6.3.2.1) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
该字段包含首字母缩略词或缩写的 EUI。
BAS The Base Form (6.3.2.3)
基础服务 | 基本形式(6.3.2.3) |
该字段包含首字母缩略词或缩写的基本形式。
ABR | Acronym or Abbreviation (6.3.3.1) |
BAS | The Base Form (6.3.2.3) |
急性淋巴细胞白血病 | 首字母缩略词或缩写(6.3.3.1) |
基础服务 | 基本形式(6.3.2.3) |
该字段包含首字母缩略词或缩写的扩展的基本形式。
EUI | The Entry Unique ID Number (6.3.2.1) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
该字段包含缩写或首字母缩略词的扩展的 EUI。
6.4.3.8. - 拼写变体 (file = lrspl)
EUI | The Entry Unique ID Number (6.3.2.1) |
SPV | Spelling Variant (6.3.3.2) |
BAS | The Base Form (6.3.2.3) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
特殊目的公司 | 拼写变体(6.3.3.2) |
基础服务 | 基本形式(6.3.2.3) |
6.4.3.9. - 名词化 (file = lrnom)
EUI | The Entry Unique ID Number (6.3.2.1) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
该字段包含名词化的 EUI。
BAS The Base Form (6.3.2.3)
基础服务 | 基本形式(6.3.2.3) |
该字段包含名词化的基本形式。
SCA | Syntactic Category (6.3.2.4) |
细胞因子 | 句法类别(6.3.2.4) |
该字段包含名词化的类别。
EUI | The Entry Unique ID Number (6.3.2.1) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
该字段包含名词作为名词化的动词或形容词的 EUI。
BAS | The Base Form (6.3.2.3) |
基础服务 | 基本形式(6.3.2.3) |
该字段包含名词作为名词化的动词或形容词的基本形式。
SCA | Syntactic Category (6.3.2.4) |
细胞因子 | 句法类别(6.3.2.4) |
该字段包含形容词或动词的句法类别(形容词或动词)。
6.4.3.10. - 商标 (file = lrtrm)
EUI | The Entry Unique ID Number (6.3.2.1) |
BAS | Base (6.3.2.3) |
GEN | Generic Term (6.3.2.13) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
基础服务 | 基础(6.3.2.3) |
GEN | 通用术语(6.3.2.13) |
表单在 lrtrm 表中的出现表明它是一个商标。它可能有或没有与之相关的通用术语。
6.4.3.11. - 文件(file = lrfil)
lrfil 表以词典的 ASCII 关系形式描述每个文件。
FIL | File Name(s) (6.3.4.5) |
DES | Description (6.3.4.2) |
FMT | Format (6.3.4.3) |
CLS | Number of Columns (6.3.4.7) |
RWS | Number of Rows (6.3.4.4) |
BTS | Size in Bytes (6.3.4.6) |
外国投资局 | 文件名 ( 6.3.4.5 ) |
数据加密标准 | 描述 ( 6.3.4.2 ) |
裂解酶 | 格式(6.3.4.3) |
中立证券 | 列数(6.3.4.7) |
远程工作站 | 行数(6.3.4.4) |
防弹少年团 | 字节大小(6.3.4.6) |
6.4.3.12. - 单词索引. (file = lrwrd)
WRD | Word (6.3.4.1) |
EUI | The Entry Unique ID Number (6.3.2.1) |
韦德 | 字(6.3.4.1) |
欧盟用户接口 | 条目唯一 ID 号(6.3.2.1) |
6.4.3.13. - 字段(文件 = lrfld)
COL | Three Letter Field Name (6.3.4.8) |
DES | Description (6.3.4.2) |
REF | Cross Reference to Document (6.3.4.9) |
FIL | File Name(s) (6.3.4.5) |
科尔 | 三字母字段名称(6.3.4.8) |
数据加密标准 | 描述 ( 6.3.4.2 ) |
参考 | 交叉引用文档(6.3.4.9) |
外国投资局 | 文件名 ( 6.3.4.5 ) |
6.5. SPECIALIST 词汇单元记录
单位词汇记录是一个由槽位和填充符组成的框架结构。每个词汇记录都有一个 base= 槽位,其填充符表示基本形式,以及可选的一组 spliting_variants= 槽位,用于表示拼写变体。词汇条目由 entry= 槽位分隔,该槽位由条目的 EUI 编号填充。EUI 编号是七位数字,前面有一个“E”。每个条目都有一个 cat= 槽位,表示词性。词汇记录由括号 ({...}) 分隔。
下面给出的“麻醉”单元词汇记录说明了 SPECIALIST 单元词汇记录的一些特征:
{base=anesthetic 拼写变体=anaesthetic entry=E0354094 cat=noun variants=reg variants=uncount} {base=anesthetic 拼写变体=anaesthetic entry=E0330019 cat=adj variants=inv position=attrib(3) position=pred stative}
基本形式“anesthetic”及其拼写变体“anaesthetic”出现在两个包含名词和动词条目的词汇记录中。variants= 槽包含一个代码,表示条目的屈折形态;名词条目中的填充 reg 表示名词“anaesthetic”是可数名词,其采用常规英语复数构成(“anaesthetics”);形容词条目 variants= 槽中的 inv 表示形容词“anesthetic”不构成比较级或最高级。position= 槽表示形容词“anaesthetic”是定语,并按正常形容词顺序出现在颜色形容词之后。
SPECIALIST 技术报告“SPECIALIST 词典”以单位格式对词典进行了完整的描述。
前往:6.6. 词汇数据库介绍
词汇数据库包含我们发现对自然语言处理有用的词汇信息。它们尚未完成,但仍在不断开发中。
6.6.1. 语义相关术语 SM.DB
该数据库(SM.DB)包含语义相关的术语对。数据库的每一行都具有以下形式。
索引字符串|BAS1|SCA1|BAS2|SCA2|SRC(同义词来源)
这样的行表示句法类别 SCA1 中的 BAS1 与句法类别 SCA2 中的 BAS2 在语义上相关。两个术语均以基本形式给出。
例子:
能够|能够|1|能力|128|E0006510
翼状|翼状|1|翼|128|NLP_LVG
眼睛|眼睛|128|眼睛|128|C0015392
听觉区|听觉区|128|听觉皮层|128|C0004302
呕吐|呕吐|128|催吐|128|NLP_LVG
呕吐|呕吐|1|催吐|1|NLP_LVG
彩虹病毒|彩虹病毒|128|虹彩病毒|128|NLP_LVG
盲肠炎|盲肠炎|128|盲肠炎|128|NLP_LVG
Examples:
able|able|1|ability|128|E0006510
alar|alar|1|wing|128|NLP_LVG
ocular|ocular|128|eye|128|C0015392
auditory area|auditory area|128|auditory cortex|128|C0004302
vomitive|vomitive|128|emetic|128|NLP_LVG
vomitive|vomitive|1|emetic|1|NLP_LVG
iridescent virus|iridescent virus|128|iridovirus|128|NLP_LVG
typhloteritis|typhloteritis|128|cecitis|128|NLP_LVG
6.6.2. 衍生相关术语:DM.DB
该数据库 (DM.DB) 包含与派生形态相关的术语对。两个术语均以基本形式给出。
BAS1|SCA1|EUI1|BAS2|SCA2|EUI2|negation|Type|Prefix|
Examples:
abase|verb|E0006432|abasement|noun|E0006433|O|S|None
abdominal|adj|E0006444|abdominal|noun|E0554771|O|Z|None
acrosome|noun|E0007035|acrosomeless|adj|E0237024|N|S|None
adenohypophyseal|adj|E0007295|adenohypophysis|noun|E0007296|O|S|None
arithmetician|noun|E0359753|arithmetic|noun|E0010398|O|S|None
bone|noun|E0013675|boneless|adj|E0359802|N|S|None
immobilize|verb|E0033519|immobilizer|noun|E0408339|O|S|None
pretest|noun|E0312255|test|noun|E0060348|O|P|pre
unburden|verb|E0062940|burden|verb|E0014409|N|P|un
DM.DB is derived from the morphological fact files (derivation.data) used in lvg (See Lexical Variant Generation section in Section 6.8).
BAS1|SCA1|EUI1|BAS2|SCA2|EUI2|否定|类型|前缀|
例子:
贬低|动词|E0006432|贬低|名词|E0006433|O|S|无
腹部的|adj|E0006444|腹部的|名词|E0554771|O|Z|无
顶体|名词|E0007035|无顶体|adj|E0237024|N|S|无
腺垂体|adj|E0007295|腺垂体|名词|E0007296|O|S|无
算术家|名词|E0359753|算术|名词|E0010398|O|S|无
骨头|名词|E0013675|无骨|形容词|E0359802|N|S|无
固定|动词|E0033519|固定器|名词|E0408339|O|S|无
预测试|名词|E0312255|测试|名词|E0060348|O|P|预
卸下负担|动词|E0062940|负担|动词|E0014409|N|P|un
DM.DB 源自 lvg 中使用的形态事实文件 (derivation.data)(参见第 6.8 节中的词汇变体生成部分)。
6.6.3. 新古典组合形式 NC.DB
本数据库 (NC.DB) 包含用于形成新古典复合词的词素。数据库的每一行均具有以下形式。
词素|含义|类型
词素可以有括号中所示的可选连接元音。类型包括:前缀、词根和终端。
Examples:
abdomin(o)|abdomen|root
ab|away from|prefix
acou(o)|hearing|root
cardi(o)|heart|root
cele|swelling|terminal
desis|binding|terminal
de|negate|prefix
例子:
腹部(o)|腹部|词根
ab|远离|前缀
acou(o)|听觉|词根
cardi(o)|心脏|词根
cele|肿胀|终端
desis|结合|终端
de|否定|前缀
我们对组合形式的分析将其分为词根和词尾,与前缀和后缀不同。新古典复合词可以由任意数量的以词尾或后缀结尾的词根组成。前缀通常必须位于词根之前,不能直接附加到词尾。对后缀规则和事实感兴趣的用户应查阅 lvg 中包含的 dm.rul 和 dm.fct 文件。
有关进一步的讨论,请参阅 McCray 等人于 1988 年撰写的《新古典复合词的语义结构》,载于华盛顿特区举行的第十二届医疗保健计算机应用年度研讨会论文集。
前往:6.7. 样本记录
:::::::::::::::
lragr.sam
:::::::::::::::
E0007127|acute|adj|positive;periph|acute|acute|
E0014875|cans|noun|count(thr_plur)|can|can|
E0014875|can|noun|count(thr_sing)|can|can|
E0014876|canned|verb|past_part|can|can|
E0014876|canned|verb|past|can|can|
E0014876|canning|verb|pres_part|can|can|
E0014876|cans|verb|pres(thr_sing)|can|can|
E0014876|can|verb|infinitive|can|can|
E0014876|can|动词|pres(fst_sing,fst_plur,thr_plur,second)|can|can|
E0014877|can't|模态|pres:负|can|can|
E0014877|cannot|模态|pres:负|can|can|
E0014877|can|模态|pres|can|can|
E0014877|couldn't|模态|过去:负|can|can| E0014877
|could|模态|过去|can|can|
E0014937|犬齿|名词|count(thr_plur)|犬齿|犬齿|
E0014937|犬齿|名词|count(thr_sing)|犬齿|犬齿|
E0017902|colors|名词|count(thr_plur)|color|color| E0017902 |color|名词|
count(thr_sing)|color|color| E0017902|color|名词|uncount(thr_sing)|color|color| E0017903|colored|动词|past_part|color|color| E0017903|colored|动词|past|color|color| E0017903|coloring|动词|pres_part|color|color| E0017903|colors|动词|pres(thr_sing)|color|color| E0017903|color|动词|不定式|color|color| E0017903|color|动词|pres(fst_sing,fst_plur,thr_plur,second)|color|color| E0051632|快速|adv|积极;periph|快速|快速| E0055585|她|pron|thr_sing|她|她| :::::::::::::: lrcmp.sam :::::::::::::: E0014876|can|verb|tran=np| E0017903|color|verb|cplxtran=np,adj| E0017903|color|verb|cplxtran=np,np| E0017903|color|verb|intran;部分(in)| E0017903|color|verb|intran;部分(up)| E0017903|color|verb|intran| E0017903|color|verb|tran=np;部分(in)| E0017903|color|verb|tran=np| :::::::::::::: lrmod.sam :::::::::::::: E0007127|acute|adj|attrib(1),attrib(3),pred|stative| E0051632|quickly|adv|verb_modifier;manner|| :::::::::::::: lrnom.sam :::::::::::::: E0007121|acuity|noun|E0007127|acute|adj| E0021126|deduction|noun|E0021123|deduce|verb| E0021126|deduction|noun|E0021124|deduct|verb| E0061851|运输|名词|E0061850|运输|动词| :::::::::::::: lrprn.sam :::::::::::::: E0030918|他|thr_sing|pers(阳性)|subj|||| E0036100|it|thr_sing|neut|subj,obj|||| E0055585|她|thr_sing|pers(fem)|subj|||| :::::::::::::: lrprp.sam :::::::::::::: E0007127|acute|acute|adj|静态|
E0004825|帕金森|帕金森|名词|适当|
E0014877|可以|不能|模态|负面|
E0014877|可以|不能|模态|负面| E0014877|可以|不能|模态|负面
|
::::::::::::::
lrspl.sam
:::::::::::::::
E0017902|颜色|
E0017903|颜色|颜色|
E0330019|麻醉剂|麻醉剂|
E0354094|麻醉剂|麻醉剂|
::::::::::::::
lrtrm.sam
::::::::::::::
E0412633|Actinex|内消旋-去甲二氢愈创木酸|
E0302749|Halcion|三唑仑|
E0302640|Tespamin|噻替派|
E0523571|Somavert|pegvisomant|
::::::::::::::
lrtyp.sam
::::::::::::::
E0007127|acute|adj|inv;periph|
E0014875|可以|名词|注册|
E0014876|can|动词|regd|
E0014937|犬齿|名词|不规则(犬齿,犬齿)|
E0017902|颜色|名词|reg|
E0017902|颜色|名词|不可数|
E0017903|颜色|动词|reg|
E0051632|快速|adv|inv;periph|
::::::::::::::
lrwd.sam
:::::::::::::::
颜色|E0017902|
颜色|E0017903|
颜色|E0017913|
颜色|E0017914|
颜色|E0017915|
颜色|E0017916|
颜色|E0017917|
颜色|E0017918|
颜色|E0065135|
颜色|E0205800|
颜色|E0215092|
颜色|E0220891|
颜色|E0220892|
颜色|E0220987|
颜色|E0237464|
颜色|E0321442|
颜色|E0322071|
颜色|E0330531|
颜色|E0339331|
颜色|E0339717|
颜色|E0374934|
颜色|E0418710|
颜色|E0420428|
颜色|E0428116|
颜色|E0430071|
颜色|E0431208|
颜色|E0504891|
颜色|E0509680|
颜色|E0516052|
颜色|E0519343|
颜色|E0523712|
颜色|E0533351|
颜色|E0552362|
颜色|E0568432|
颜色|E0572664|
颜色|E0572665|
颜色|E0579060|
颜色|E0580178|
颜色|E0582267|
颜色|E0582516|
颜色|E0582518|
颜色|E0582525|
颜色|E0582528|
颜色|E0582540|
颜色|E0583066|
颜色|E0586414|
颜色|E0586415|
颜色|E0587163|
颜色|E0587164|
颜色|E0587511|
颜色|E0587953|
颜色|E0588132|
颜色|E0588134|
颜色|E0588135|
颜色|E0603013|
颜色|E0610103|
颜色|E0610104|
颜色|E0618392|
颜色|E0624624|
颜色|E0627004|
颜色|E0631243|
颜色|E0634071|
颜色|E0635238|
颜色|E0637227|
颜色|E0669219|
颜色|E0669361|
颜色|E0669362|
颜色|E0669363|
颜色|E0670608|
颜色|E0670610|
颜色|E0675138|
可以|E0014875|
可以|E0014876|
可以|E0014877|
可以|E0562457|
前往:6.8. SPECIALIST 词汇工具
SPECIALIST 词汇工具包由三个主要程序组成:一个规范化器、一个词索引生成器和一个词汇变体生成器,以及一组用于规范化的辅助程序。此工具包是用 Java 实现的。
SPECIALIST 词汇工具和 SPECIALIST 词汇表作为 UMLS 知识源之一进行分发,并与SPECIALIST NLP 工具一起作为开源资源进行分发,但须遵守这些条款和条件。
您可以在下载词汇工具网页的发行说明中找到更新和错误修复。
发行版附带安装程序(适用于 Solaris、Linux 和 Window)和一个 ReadMe.txt 文件,该文件描述了如何安装和配置词汇工具并提供每个程序的简要说明。
docs目录包含用户指南、Java API 文档和详细描述词汇工具使用的设计文档。本文档是对词汇变体生成包中程序的一般介绍。
压缩的词汇工具如下*:
lvg2008.tgz
- lvg 的官方发行版。其中包括程序的源代码、程序使用的纯 Java 嵌入式数据库 (Instant DB) 中的数据和表、完整文档、安装说明以及程序的 jar 文件。请参阅此发行版中包含的文档,了解该产品的更完整描述。
*显示 2008 年发布的文件名。
规范化(norm)
词汇程序norm生成用于规范化字符串索引 MRXNS 的规范化字符串。因此,必须先使用 norm,然后才能搜索 MRXNS。
规范化过程包括删除所有格、用空格替换标点符号、删除停用词、将每个单词小写、将字符串拆分成组成单词以及按字母顺序对单词进行排序。如果单词出现在词典中,则使用 SPECIALIST 词典生成无变位形式,否则通过算法生成。当一种形式可能是多种基本形式的变位时,新的规范化过程将返回多种无变位形式。如果要规范化的字符串包含多种歧义形式,并且这些歧义形式的排列提供超过 10 种输出形式,则返回小写、标点符号替换、单词顺序排序但不无变位的输入形式。可以通过修改配置文件来配置排列数的上限(10)。程序luiNorm具有前几年规范化的行为,并分发给需要它的人。
Norm 读取其标准输入并写入标准输出。它期望输入行是分隔成字段的记录。字段分隔符是| 。使用-t选项将要规范化的字符串标识给 norm。-t采用数字参数,表示要在其中找到输入字符串的字段。如果没有出现-t选项,norm 假定输入字符串位于第一个字段 ( -t:1 )。不需要有多个字段,因此仅由输入字符串组成的行就可以正确理解。
规范输出记录包括输入记录的所有字段,右侧还有一个附加字段,其中包含输入字符串的规范化形式。
例如,如果用户有一个要通过名为term的文件中规范化字符串索引查找的术语列表,则他或她可以使用norm -i:terms -o:terms.nrm来获取每个术语的规范化形式。如果输入文件term包含以下内容:
2,4-二氯苯氧乙酸
综合征,前部,隔室
异常,体重增加贫血,难治性,伴有左心房
原始细胞过多
文件term.nrm将包含:
2,4-二氯苯氧乙酸|2,4-二氯苯氧乙酸
综合征,前部,间隔|前部间隔综合征
异常,体重增加|体重异常增加
贫血,难治性,伴有原始细胞过多|贫血原始细胞过多难治性
左心房|左心房
左左心房|左心房
现在,terms.nrm 每行第二个字段中的字符串适合与 MRXNS 匹配。
单词索引 (wordInd)
词汇程序wordInd将字符串分解为单词,以便与 MRXW 中的单词索引一起使用。单词索引的用户应先使用 wordInd 将字符串分解为单词,然后再在单词索引中搜索。这可确保要查找的单词与单词索引一致。
为此,单词被定义为仅包含长度为 1 或更大的字母数字字符的标记。wordInd 程序将输出单词小写。
wordInd 程序读取其标准输入并写入其标准输出。与 norm 和 lvg 一样,它期望每个输入行都是一个由|分隔成字段的记录。使用-t选项标识包含输入字符串的字段。 -t的数值参数表示可以在其中找到输入字符串的字段。如果没有给出-t选项,则输入字符串应该位于第一个字段 ( -t:1 )。不需要有多个字段,因此仅由输入字符串组成的行就可以正确理解。
wordInd 程序针对输入字符串中的每个单词输出一行输出。除非在-F选项中指定,否则输入字段不会在输出中重复。将 wordInd 应用于输入字符串Heart Disease, Acute将产生三行输出:
心脏病
急性
-F的数值参数表示要在输出中重复的输入字段。每个要重复的输入字段都需要一个-F选项的数值参数。字段按-F选项的数值参数出现的顺序重复。输出单词始终显示为任何重复输入字段右侧的附加字段。例如,将wordInd -t:2 -F:2:1应用于形式为UI23456|tooth, canine|definition.....的记录;将产生以下输出:
牙齿,犬齿|UI23456|牙齿 牙齿
,犬齿|UI23456|犬齿
每个记录的第三个字段包含从第一个字段中的输入术语中提取的一个单词(-t:2、-F:2)。-F:1选项重复第一个输入字段中的 UI 编号。-F:2:1将 UI 编号(字段 1)放在输入字符串(字段 2)之后。
词汇变体生成(lvg)
lvg 程序生成输入词的词汇变体。它由几个不同的流组件组成,这些组件可以以各种方式组合以产生词汇变体。lvg 的用户选择流组件的组合并将它们组合成流。(规范化程序 norm 本质上是带有预选流选项的 lvg 程序:lvg -f:N 。) -f标志的参数用于指定流。每个流都可以被认为是一个管道,每个流组件都为下一个流组件提供信息。例如,流-f:i仅生成屈折变体,而-f:l:i生成小写屈折变体。每个流组件选项都在 lvg 的文档中进行了讨论。
lvg 程序从其标准输入读取并写入其标准输出。输入记录可以在命令行上输入命令后在键盘上输入(lvg -f:i),也可以从文件读取输入行(lvg -f:i -i:file)或从另一个命令(COMMAND|lvg -f:i)通过管道传输到 lvg 。输出记录可以定向到屏幕(默认),发送到文件(lvg -f:i -i:INFILE -o:OUTFILE)或通过管道传输到另一个命令(lvg -f:i -i:infile | COMMAND)。
输入
lvg 程序设计用于处理分为多个字段的单行输入记录。默认字段分隔符为|。可以使用-s选项更改字段分隔符。可以使用-t选项指定要生成变体的输入项所在的字段。如果没有-t标志,则假定输入项位于输入的第一个字段中。因此dog和dog|canine|UI4567都会生成dog的变体。将-t标志设置为2 时,dog|canine|UI4567将生成canine的变体。在单字段输入( dog )的情况下,无论-t的设置如何,lvg 都会从唯一字段生成变体。
lvg 程序可以从输入记录中读取类别(词性)和词形变化信息。-cf选项的数值参数表示类别信息所在的字段。在输入记录中,类别信息需要根据 lvg 文档中描述的方案编码为数字。-if 选项的数值参数表示词形变化信息所在的字段。在输入记录中,词形变化信息需要根据 Lexical Tools 文档中描述的方案编码为数字。
输出
lvg 程序向输入记录添加了五个新字段,并为生成的每个变体输出一条记录。例如,如果将dog|canine|UI4567提供给lvg -f:i的标准输入,则发送到标准输出的输出将是:
狗|犬科动物|UI4567|狗|128|1|i|1| 狗|犬科动物|UI4567|狗|128|512|i|1| 狗|犬科动物|UI4567|狗|128|8|i|1| 狗|犬科动物|UI4567|狗|1024|1|i|1| 狗|犬科动物|UI4567|狗|1024|262144|i|1| 狗|犬科动物|UI4567|狗|1024|1024|i|1| 狗|犬科动物|UI4567|狗|1024|128|i|1| 狗|犬科动物|UI4567|狗咬狗|1024|64|i|1| 狗|犬科动物|UI4567|狗咬狗|1024|32|i|1|狗|犬科动物|UI4567|跟踪|1024|16|i|1|
上述每个记录的前三个字段与输入记录相同,其余字段由 lvg 提供。第一个附加字段是 lvg 生成的变体形式。第二个附加字段是编码为数字的变体的句法类别。第三个附加字段是编码为数字的变体的词形变化。第四个附加字段指示所选的流。第五个字段是生成此变体的流的编号。输出类别(词性)和词形变化信息采用与输入类别和词形变化信息相同的方案进行编码。
有关 SPECIALIST Lexical Tools 的进一步描述,请参阅 SPECIALIST Lexical Tools 网站:https://lhncbc.nlm.nih.gov/LSG/。
7使用 UMLS 术语服务 (UTS)Using the UMLS Terminology Services (UTS)
最后更新:2021 年 8 月 20 日。
预计阅读时间:2 分钟
UMLS 术语服务 (UTS) 通过 Web 浏览器或应用程序编程接口 (API) 提供对 UMLS 知识源的访问。
鼓励用户查阅 UTS 以查找 API 文档和有关下载 UMLS 发布文件的信息。
前往:7.1 下载 UMLS 知识源
UMLS 许可证持有者可以访问 UTS 并使用他们选择的身份提供商创建帐户。许可证持有者可以下载最新的 UMLS 知识源。UMLS 版本的档案会保留,并可查阅前几年的版本。有关详细的技术规格和安装说明,请参阅 UMLS 版本文件中提供的 README.TXT 文件。
前往:7.2. 系统架构
UTS 于 2010 年 12 月推出,取代了 UMLS 知识源服务器 (UMLSKS)。UTS 通过基于浏览器的应用程序和 Web 服务客户端提供对 UMLS 知识源的访问。UTS 具有以下增强功能:
- 高度响应的搜索引擎,可快速检索
- 容量提高了一个数量级
- 通过共置冗余实现高可用性
- 更直观的图形用户界面
- 实时监控和收集统计数据
- 许可和报告要求的整合
7.3. 查询UTS
7.3.1. 元同义词库浏览器
UTS 允许用户请求有关特定元词库概念的信息,包括概念的定义、语义类型以及与其相关的概念等属性。
基本概念信息包括概念的 Metathesaurus 唯一标识符、概念的首选名称以及构成该概念的所有术语的名称和来源。附加概念信息通常包括定义和该定义的来源。还包括语义类型信息。系统中随时提供有关 Metathesaurus 概念的层次结构上下文的信息。相关概念很容易找到。
元词库的一个重要方面是特定源数据。可以通过将查询限制到特定词汇表来查询服务器。用户可能希望只查看特定词汇表中某个术语的祖先或后代,或者用户可能希望只查看特定词汇表中某个术语的同义词。
7.3.2. 语义网络浏览器
语义网络包含有关语义类型及其关系的信息。网络模块的实现使用网络类型层次结构的继承属性来计算语义类型之间的关系。可以浏览语义网络中的信息以获取语义类型及其之间的关系。
可以检索一对类型之间的所有关系。例如,“治疗”、“预防”和“复杂化”等将被列为药物和疾病之间的潜在关系。还可以检索网络中所有相关类型的详尽列表。可以查询语义类型或关系的定义、唯一标识符、树编号、祖先、父级、子级和后代。
前往:7.4. 获取 UTS 访问权限
任何签署了 UMLS Metathesaurus 许可协议并激活了 UTS 帐户的人都可以访问 UTS。首次使用的用户应单击UTS 主页上的“注册”以开始许可请求和 UTS 帐户激活过程。如有任何问题或问题,请通过电子邮件联系NLM 客户支持。
前往:7.5. 悉尼科技大学
UTS 提供以下内容:
- UMLS 许可
- UTS简介
- API 文档
- 数据浏览器和工具
- 文件下载
- 帮助信息
8 MetamorphoSys - UMLS 安装和定制程序
最后更新:2021 年 8 月 20 日。
预计阅读时间:2 分钟
MetamorphoSys 是每个 UMLS 版本中包含的 UMLS 安装向导和 Metathesaurus 自定义工具。它会安装一个或多个 UMLS 知识源。选择 Metathesaurus 后,它可让您创建自定义 Metathesaurus 子集。请仅使用随版本分发的 MetamorphoSys 版本。
用户定制他们的元词库子集主要有两个目的:
1.从输出中排除本地应用程序不需要或未授权使用的词汇。
元词库由许多文件组成,其中一些文件非常大;排除来源可以显著减少输出子集的大小。鉴于元词库中反映的词汇数量和种类,任何用户都不太可能需要其 100 多个词汇中的全部或大部分。此外,一些来源需要针对特定用途的单独许可协议,而 UMLS 用户可能不希望获得这些许可协议。这些在许可协议中有明确说明。
2.使用各种数据输出选项和过滤器定制子集。
要识别自定义子集中可能不需要的词汇,请阅读许可协议,并参考当前 UMLS 发布文档的UMLS 源词汇文档页面。
RRF浏览器也包含在 MetamorphoSys 中,它允许用户在定制的 Metathesaurus 子集或 RRF 格式的任何词汇表中查找术语。
MetamorphoSys 代码没有许可证限制。我们希望用户能够遵循GNU 公共许可证 (GPL)的精神,承认 NLM 源代码。
前往:8.1. MetamorphoSys 要求
MetamorphoSys 与 Mac、Linux 和 Windows 操作系统兼容。它以 Java 实现,需要发行版中包含的运行时 JRE 版本(Macintosh 除外,它授权使用自己的 JRE)。
**Macintosh 注意事项:MetamorphoSys 需要 Java 1.6。
您可以使用高速互联网连接从UMLS 网站下载页面下载 UMLS 文件。为确保功能正常,用户应将所有 UMLS 数据和 zip 文件下载并解压到同一目录中。
要使用 MetamorphoSys,您必须拥有至少 50 GB 的可用磁盘空间。多次运行会创建 Metathesaurus 的多个子集,因此需要更多空间。
验证分发选项允许用户验证从 UMLS 网站下载的 .nlm 文件的完整性。它将特殊 MD5 签名与发布 .MD5 文件中的签名进行比较。CHK 文件,当 UMLS 安装出现问题时,这是解决问题的第一步。
图 1显示了解压后的完整 UMLS 版本。显示了 2021AA 版本的文件名。
图 1.
解压后为完整的 UMLS 版本。显示 2021AA 版本的文件名。
前往:8.2. 启动 MetamorphoSys
打开终端窗口并输入适合您平台的命令:
- ./run_mac.sh(或单击 run_mac.command 文件)
- 运行
按回车键。
会出现一个新窗口。这可能需要几分钟,因为在欢迎屏幕出现之前必须加载大量软件。
- Windows 运行64.bat
8.3. MetamorphoSys 帮助
UMLS 网站可提供帮助。用户还可以从视频教程和UMLS Listserv获得帮助。我们正在根据用户输入开发其他 Web 资源。