关于元数据
元数据(Metadata),主要是描述数据属性(property)的信息,是关于数据的数据(data about data),是对数据的说明,提供的是理解和精确解释数据所需要的信息。 元数据也是数据,在一定的语境中(特定环境下、特定目或特定角度)被使用时,数据可以被称为元数据。我国卫生信息源数据标准项类型包括:数据元、值域、数据集、统计指标。
数据元:
数据元是有一组属性规定其定义、标识、表示和允许值的数据单元,也称为数据元素。在一定语境下,构建一个语义正确、独立且无歧义的特定概念语义的信息单元,同时可理解为数据的基本单元。一个数据元由数据元概念和表示组成。
数据元概念:数据概念是能以一个数据元的形式表示的概念,其描述与任何特定表示法无关。一个数据元概念由以下两部分组成:
― 对象类:可以对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合;
― 特性:一个对象类所有成员所共有的特性,
表示:由值域、数据类型、计量单位(如果需要)、表示类型(可选)组成,详见下图。
完整的数据元名称=对象类术语+特征类术语+表示类术语+(限定类术语),其中:
― 一个数据元有且仅有一个对象类术语。
― 一个数据元有且仅有一个特征类术语。特征类术语是任何一个数据元名称所必须的成分,在数据元概念可完整、准确、无歧义表达的情况下,其他术语可以酌情简略。
― 一个数据元有且仅有一个表示类术语。当表示类术语与特征类术语有重复或部分重复时,可从名称中将冗余词删除。
― 限定类术语由专业领域给定,限定类术语是可选的。
值域
值域是数据元允许值的集合,是具有某种共同属性(或特征)的事物(或概念)的集合。数据元值域代码是在特定使用领域内具有唯一标识符的编码,用来识别表示数据元相关值域。一个允许值是由某个值和该值的含义组合,当数据元值域的取值范围过多时:数据元允许值可以以列表形式展开;或引用外部标准,规范定义数据元值域的允许值范围。
数据集
数据集是具有一定主题,可以标识并被计算机处理的数据集合:
― 主题:围绕着某一项特定任务或活动进行数据规划和设计时,对其内容进行的系统归纳和描述。通常数据集主题应具有划分性和层级性。划分性是指主题间可通过不同的命名,将相同属性的主题归并在一起形成相同的类,将不同属性的主题区分开形成不同的类;层级性是指主题可被划分成若干子主题或子子主题。
― 可标识:指能通过规范的名称和标识符等对数据集进行标记,以供识别。标识与名称的取值需要通过具体的命名或编码规则来规范。
― 能被计算机处理:指可以通过计算机技术(软硬件、网络),对数据集内容进行发布、交换、管理和算机系统中以数值、日期、字符、图像等不同的类型表达。
― 数据集合:指由按照数据元所形成的若干数据记录所构成的集合。例如,病案首页数据集由主索引、入院出出院转院、诊疗、护理、手术、费用等不同数据组成。
卫生信息基本数据集是在特定主题下,为了满足业务信息系统规范化建设和领域内部以及领域间数据交换与共享需求,设计归纳的各个子系统(或者功能模块)所包含的最小数据元素的集合。目前,卫生信息基本数据集分为基本信息、卫生服务、卫生管理、卫生综合四大类,其中卫生服务又分为儿童保健、妇女保健、疾病控制、疾病管理、医疗服务五小类;每个分类下包括多个数据集,如卫生综合分类下包括1份居民健康档案数据集和17份电子病历数据集。
统计指标
卫生统计指标(indicators of health statistics ,IHS)反映一定时期、一定地区居民健康状况、健康影响因素、公共卫生服务、医疗服务、药品与材料供 应保障、医疗保障、卫生资源和计划生育的统计指标。