随着当今医学统计学的发展, 各种数据挖掘技术 越来越多的应用于中医药的研究之中, 对于继承和发 展中医先贤以及当代中医大家的学术思想起到了巨大 的促进作用, 也是中医药现代化过程中的重要环 节 [1 -3 ] 。 冠心病全称冠状动脉粥样硬化性心脏病, 是最常 见心血管病类型之一, 也是最常见的心脏病, 可引发心 力衰竭、 心肌梗死等严重并发症, 是人类死亡主要病因 之一 [4 ] 。我国冠心病发病率高达 0. 5% ~ 1. 5% , 冠心 病已成为公共卫生问题 [5 -6 ] , 成为我国居民主要疾病 负担来源之一 [7 ] 。但中医药对于提高患者的生存质量 有良好的作用, 故应用数据挖掘方法研究中医药防治 冠心病的规律和特点对于临床防治冠心病有十分重要 的意义 [8 ] 。本文通过对现代文献中中医药防治冠心病 相关数据挖掘进行分析整理, 对进一步应用数据挖掘 技术研究中医药防治冠心病提供助力。 1 资料与方法 1. 1 文献来源 计算机检索中文期刊全文数据库 (CNKI)、 万 方、 维 普、 中 国 生 物 医 学 文 献 数 据 库 (CBM), 运用其数据库中的专业检索功能, 运用以下 检索式依次进行检索。检索式一为:主题 :(‘冠心病’ +‘胸痹’+‘心痛’+‘胸痹心痛’ )AND (‘数据挖掘’ +‘关联分析’+‘聚类分析’+‘因子分析’+‘频数 分析’ )。 1. 2 纳入标准 ①有关中医冠心病的各类数据挖掘 研究文献, 其中包括频数分析、 关联分析、 聚类分析、 因 子分析等数据挖掘方法;②文献中所提 “胸痹 ” “心痛” “胸痹心痛” 等须归为现代医学中的 “冠心病” 。 1. 3 排除标准 ①文献综述;②重复发表的文献, 只 取一篇;③虽中医病名为“胸痹心痛” 等, 但现代疾病 非 “冠心病” 者。 1. 4 名称规范 参照全国中医药行业高等教育“十 二五” 规划教材 《中医药统计学与软件应用》 [9 ] 对统计 方法等进行规范。如频数挖掘、 频数分析、 频数统计等 统称为频数分析。 1. 5 数据库建立及数据核对 将上述所纳入文献数 据中作者、 文章名称、 出处、 出版日期、 文献类型、 软件、 数理统计方法、 资料来源、 挖掘方面等各种信息依次录 入 Microsoft Excel 中, 建立 Excel 数据库。在上述数据 录入之后, 由双人共同审核数据以确保数据的准确性 及可靠性。 1. 6 数据分析 采用频数、 频率等分析, 通过对作者、 文章名称、 出处、 出版日期、 文献类型、 软件、 数理统计 方法、 资料来源、 挖掘方面等的频率和频率统计, 进而 分析利用数据挖掘技术对冠心病中医研究的研究进 展, 为进一步利用数据挖掘技术对研究冠心病提供借 鉴和依据。 2 结果 2. 1 文献概况 按照检索策略进行文献检索, 通过阅 读摘要得到 137 篇文献, 再经过阅读全文, 结合纳入标 准、 排除标准, 最终得出文献 50 篇关于冠心病数据挖 掘类文献。 2. 2 文献类别分析 通过对文献类别进行数据整理 发现, 共分为三大类:学术期刊、 硕博学位毕业论文和 会议论文。频数分析其中学术期刊有 25 篇, 占总文献 的 50% ;硕博学位毕业论文, 占总文献的 44% , 会议论 文最少, 仅有 3 篇。具体分布见表 1。 表 1 冠心病相关数据挖掘文献类别频数频率分析 文献类别 频数 频率(%) 学术期刊 25 50 硕博士学位论文 22 44 会议论文 3 6 2. 3 文献发表时间分析 通过对文献发表时间进行 频数分析, 可以发现冠心病相关数据挖掘的文献最早 发表于 2003 年, 到 2008 年呈现一个小高峰, 至 2013 年又呈现一个高峰, 但总体来看, 基本的趋势是呈逐年 递增的。具体分布见表 2、 图 1。 2. 4 冠心病相关数据挖掘软件应用分析 在进行数据 挖掘过程中, 必不可少的便是各种统计软件的应用。其 一是构建数据库的过程中所需的软件, 其二便是各种数 理统计所需要的挖掘软件。通过对所纳入的 50 篇文献 进行分析发现, Microsoft office excel 成为构建数据库的 主要软件, 占 19. 61%;而对于分析软件而言, 共出现 64 种统计分析软件, 其中 SPSS 系列(SPSS 和 SPSS Clem- ent)实用率最高。具体分布见表 3 ~ 表 4。 表 2 冠心病相关数据挖掘文献发表时间频数频率分析 出版日期 发表时间频数 频率(%) 2003 1 2 2005 1 2 2006 1 2 2008 4 8 2009 1 2 2010 2 4 2011 2 4 2012 6 12 2013 13 26 2014 5 10 2015 8 16 2016 6 12 表 3 冠心病相关数据挖掘所用数据库软件频数频率分析 数据库软件 频数 频率(%) Microsoft office excel 10 19. 61 中医传承辅助平台 9 17. 65 未提及 7 13. 73 Access 5 9. 80 Epidata 2 3. 92 临床科研信息共享系统冠心病科研病历数据库 2 3. 92 Delphi 1 1. 96 My Server 1 1. 96 Note Express 1 1. 96 SPSS 1 1. 96 SQL Server 1 1. 96 方剂分析系统 1 1. 96 冠心病临床科研一体化平台收集 1 1. 96 冠心病中医临床信息采集系统 1 1. 96 科研结构化电子病历 1 1. 96 验案分析系统 1 1. 96 中国中医科学院广安门医院门诊病历系统 1 1. 96 中国中医科学院西苑医院心血管诊疗 中心数据库管理系统 1 1. 96 中医临床科研信息一体化技术平台 1 1. 96 中医临床数据采集系统 1 1. 96 中医门诊电子病历系统 1 1. 96 中医医案信息采集系统 1 1. 96 但是我们在分析上述所需软件发现, 中医传承辅 助平台 [10 ] 、 中医验方分析系统、 方剂分析系统、 方剂智 能分析软件、 针灸处方分析软件、 针灸数据挖掘系统和 中医验案分析系统等值得关注, 其均是为中医药的研 究所自主研发的数据分析系统, 具有专门针对中医中 药以及针灸等的特点, 是传承和发展中医药的一个创 新 [11 -12 ] 。 表 4 冠心病相关数据挖掘所用分析软件频数频率分析 分析软件 频数 频率(%) SPSS 14 21. 88 中医传承辅助系统软件 9 14. 06 未提及 6 9. 38 SAS 5 7. 81 SQL Server 工具 5 7. 81 SPSS Clementine 4 6. 25 WEKA 3 4. 69 Cytoscape 软件 2 3. 13 Microsoft office excel 2 3. 13 PLSQ 数据库 2 3. 13 ORACLE 2 3. 13 中医验方分析系统 1 1. 56 ETL 工具 1 1. 56 liquorice 软件 1 1. 56 Pajek 软件 1 1. 56 R 统计软件 1 1. 56 方剂分析系统 1 1. 56 方剂智能分析软件 1 1. 56 针灸处方分析软件 1 1. 56 针灸数据挖掘系统 1 1. 56 中医验案分析系统 1 1. 56 图 1 冠心病相关数据挖掘文献发表时间频数分析柱状图 2. 5 冠心病相关数据挖掘方法的分析 通过对发表 文献中, 所采用的数据挖掘方法进行频数频率统计, 发 现频数频率分析以 36. 21% 的使用率占据第一位, 说 明应用频数频率分析中医药防治冠心病占重要地位; 其次, 聚类分析和关联分析也占重要地位, 至于其他的 因子分析、 相关分析、 复杂网络分析等则相对应用的较 少。见表 5。 2. 6 冠心病相关数据挖掘资料来源的分析 所纳入 的 50 篇文献有不同的来源。通过对上述纳入文献中 资料来源进行分析整理发现, 文献来源主要分为临床 病案记录(门诊及病房)、 现代期刊硕博文献、 中医文 献(古籍、 方书、 医经)和调查问卷等。具体的分布情 况见表 6。 表 5 冠心病相关数据挖掘方法频数频率分析 统计方法 频数 频率(%) 频数频次分析 42 36. 21 聚类分析 21 18. 10 关联分析 20 17. 24 相关分析 7 6. 03 复杂网络分析 5 4. 31 多因子降维法 4 3. 45 互信息分析 4 3. 45 回归分析 3 2. 59 决策树 3 2. 59 定向文本挖掘 1 0. 86 多维数据分析 1 0. 86 概率转移矩阵 1 0. 86 神经网络 1 0. 86 数据分层算法 1 0. 86 无尺度网络方法 1 0. 86 主成分分析 1 0. 86 表 6 冠心病相关数据挖掘的资料来源频数频率分析 资料来源 频数 频率(%) 临床病案记录(门诊及病房) 35 70 现代期刊硕博文献 9 18 中医文献(古籍、 医经、 方书) 5 10 调查问卷 1 2 表 7 冠心病相关数据挖掘方面频数频率分析 挖掘方面 频数 频率(%) 选方用药规律 29 25. 44 证型 20 17. 54 症状 18 15. 79 证候要素 10 8. 77 治法 10 8. 77 证素 5 4. 39 选穴规律 4 3. 51 病因 3 2. 63 证 - 药 3 2. 63 药 - 证 - 症 2 1. 75 证候要素 - 黏附因子 2 1. 75 病机 1 0. 88 病机 - 治法 1 0. 88 关键词 1 0. 88 养生方法 1 0. 88 证候要素 - 理化指标 1 0. 88 证型 - 生化指标 1 0. 88 症 - 证 1 0. 88 中医诊断标准 1 0. 88 2. 7 冠心病相关数据挖掘方面的分析 中医药关于 冠心病的方面很多, 包括病因、 病机、 证型、 用药规律以 及症状、 证 - 药(表示证与药物之间的关系) 等等方 面。通过对上述纳入文献来看, 有关冠心病数据挖掘 的方面主要集中于选方用药规律方面, 关于证型及症 状等方面也较多。同时, 在关于证 - 药、 药 - 证 - 症、 证候要素 - 黏附因子等两者或者三者之间关系的文献 也为数不少。见表 7。 3 讨论与展望 从所纳入的中医药防治冠心病相关数据挖掘文献 情况来看, 虽然早在 90 年代数据挖掘技术就已经诞 生, 但是将其应用于中医药防治冠心病领域则是 20 世 纪以后的事情 [13 -14 ] , 近 5 年内才呈现快速增长趋势。 统计发现, 中医药数据挖掘研究及应用已经由导入及 尝试阶段到发展成熟的跨越 [15 ] 。相较于中医药数据 挖掘研究整体情况而言, 中医药防治冠心病的研究则 起步较晚, 研究深度及广度不足, 只有进一步加大研究 力度病充分利用数据挖掘的优势, 才能有效推动中医 药防治冠心病的研究。研究不够深入, 在未来的有很 大的研究前景, 期待数据挖掘技术能在未来的冠心病 的研究中大放光彩 [16 ] 。 来源:辽宁中医杂志 作者:滑振 张哲 杨关林 |