安全管理网

基于潜语义模型的电网信息作业实施方案风险评估方法

文档作者: 张希翔 梁彪        文档来源: 广西电网有限责任公司
点 击 数:
更新时间: 2020年11月23日
下载地址: 点击这里
文件大小: 441.61 KB 共4页
文档格式: PDF       
下载点数: 1 点(VIP免费)
理论研究电工技术 基于潜语义模型的电网信息作业实施方案 风险评估方法 张希翔,梁彪 (广西电网有限责任公司,广西南宁530000 摘要:电网企业级信息系统每次进行增量升级、消缺等作业时会严格按照实施方案进行,实施方案步骤不严谨、 对风险的疏忽会带来巨大的安全隐患。针对现阶段人为对实施方案进行评估存在的管控力度不够、风险细节易疏漏等 问题,提出基于潜语义模型的变更作业实施方案风险分析方法。试验证明了本文方法可有效发现电网信息作业实施过 程中潜在的风险,可在电网实际信息作业中推广应用。 关键词:风险评估;文本分析;潜语义模型;词语相似度 中图分类号:TM76 Risk Assessment Method of Power Grid IT Job Implementation Scheme Based on Latent Semantic Model ZHANG Xixiang, LIANG Biao (Guangxi Power Grid Co., Ltd.. Nanning 530000, China) Abstract: The power grid enterprise-level information system will be carried out in strict accordance with the implementa- tion plan when performing incremental upgrades and eliminating shortages. The inadequate steps of the implementation program and the negligence of risk can bring great security risks. At present, the artificial evaluation of the implementa- tion plan has insufficient control, risk details being easy to be omitted and other issues. In view of these problems, this paper proposes a risk analysis method for changing job implementation plan based on the latent semantic model. Experi- ments show that this method can effectively detect the potential risks in the implementation of power grid information op- eration, and can be popularized and applied in the actual IT job of power gird. Key words: risk assessment; text analysis latent semantic model; word similarity o:10.19768/jcnki.dgjs.2019.09.01 0引言 题。在电网企业信息作业实施方案风险评估的实际问 题中,首先需明确信息作业的分类情况,其次检测实施方 随着信息化技术的发展,企业级信息系统的建设为提案内容的潜在风险。为此本文通过建立潜语义模型得出一 高电网公司经营生产水平、支撑日常运作、促进集约化管项信息作业实施方案最相关分类主题,基于分词技术对实 理发挥了重要作用。基于业务需求及自身特点,电网企业施方案中的文字信息进行分词处理,根据不同分类中定义 级信息系统会有较频繁的增量升级、消缺、配置变更等作风险项对实施方案进行风险检测,得出潜在风险报表。 业计划,而信息变更作业的开展会严格按照实施方案执 行,这意味着实施方案具体步骤的疏忽和不足将会给电网1文本内容分析步骤 企业级信息系统的安全运行带来巨大的风险隐患。传统的 对电网信息作业实施方案进行风险评估时,首先需提 人为对信息作业实施方案进行审核、风险评估,由于信息 取和分析实施方案的文本内容。实施方案内容是根据信息 系统作业分类多且步骤繁琐,易缺漏相关操作步骤,且过 作业具体需求撰写,并以中文文本形式保存的,因此对中 于依赖编制人员、审核人员的经验,因此提出电网企业信 文文本分析的首要任务是分词。现有的分词算法可分为基 息作业实施方案风险评估方法有着现实意义 针对这类问题,一般可通过自然语言理解技术解决。 于字符串匹配的分词方法、基于理解的分词方法和基于统 现阶段有学者基于文本内容来解决其它领域的风险评估问计的分词方法;按照是否与词性标注过程相结合,又可分 为单纯分词方法和分词与标注相结合的一体化方法。一 收稿日期:2018-12-08 般中文分词的步骤为:基于Trie树结构实现高效的词图 作者简介:张希翔(1986一),博士,从事信息化项目管理、大数据扫描,生成句子中汉字所有可能成词情所构成的有向无 分析工作;梁彪(1983-),硕士,从事信息项目化管理工作。 环图;采用了动态规划查找最大概率路径,找出基于词频 20199期37 电工技术理论研究 的最大切分组合;对于未登录词,采用了基于汉字成词能施风险项清单主要用于后文基于词语相似度的风险项检测 力的隐马尔可夫模型和 Viterbi算法。 方法。本文定义信息作业变更实施风险项分为常规风险项 分词后,还需进一步处理信息作业实施方案中的停用和关联匹配风险项。用于本文检测时,常规风险项只检测 词。解析的文本中有很多无效的词,这些停用词会对文本单一项;关联匹配风险项则在检测到单一项后,会继续往 分析的结果产生噪音,因此需要去掉。 前文和后文查找匹配项。 在文本分析挖掘时,同时需用到特征处理方法。最常 用的文本特征处理方法为T-iF(Term Frequency-Inverse- 表2信息作业变更实施风险项 Document Frequency),即“词频逆文本频率”TF是词 Tab. 2 Risk items of IT job changing implementation 频,例如信息作业实施方案文本中各词的出现频率统计, 信息作别 并作为文本特征;IDF反映了一个词在所有文本中出现的 系软前准备工作不完备 规应用系统软件明作HAC维安全审计系统账户 频率,如果一个词在很多的文本中出现,那么它的IDF值 风险项 应低,反之则高。 周原统软件应程序更新→备份应程序 应原统软QL本数 2基于文本内容分析的风险评估方法 应系统软件负节点更新未进行级本一致性检查 应用院件应程序系统一表进行功能验证 本文的主要工作包括以下两方面。一是提出一种基于 数数糖变史→未进行功能验证 潜语义模型的实施方案所属类别评定方法。由于不同信息 关联匹配中间件中间件史→未进行功能验证 作业分类下,会对作业有不同的风险评估策略,因此需根 风除项应用软件业信息统应用程序变更一来停备用系统 同步策略 据一份实施方案的内容自动化评估这份实施方案所属的分 据信息系统据变更一关修备用统同 类类别。二是提出基于词语相似度的风险项检测方法。得 步策略 到实施方案所属分类后,根据该类定义的信息作业风险项 网络与安全设备网配更操件一米进行功能验 检测实施方案步骤是否包含相应信息,得出潜在风险 报表。 2.1电网信息作业实施方案风险项 2.2基于潜语义模型的方案所属类别评定方法 电网企业的信息作业计划包括对网络设备、安全设 实施方案分类所属类别判定需用到潜语义分析(Latent 备、信息系统等进行计划性维护的日程安排,分为年度作 semantic analysis,LSA)LSA可通过检测两个词多次出 现在同一文档来评定两词在语义上的相似性10LSA基 业计划、月度作业计划、临时作业计划。作业性质包括定 检作业、消缺作业、应急抢修、项目建设、专项工作、其 于大量的文本构建一个矩阵,这个矩阵的一行代表一个 它。作业类型包括机房环境设备、非机房环境设备(网络 词,一列代表一个文档,矩阵元素代表该词在该文档中出 与安全设备、服务器、存储设备、应用系统软件数据现的次数;然后在此矩阵上使用奇异值分解(SVD)来保 留列信息的情况下减少矩阵行数;之后每两个词语的相似 库、中间件等),信息作业分类见表1 性则可通过其行向量的cos值来进行标示,此值越接近于 表1电网信息类作业分类 1则说明两个词语越相似,越接近于0则说明越不相似。 Tab, Classification of power grid IT johs LSA采用向量空间模型将文档映射成矩阵,使用SVD分 一级分类 二级分类 解矩阵: 空调系统 (1) 楼电 电机 其中的矩阵U和V是正交矩阵,矩阵∑是包含文档矩 机房环境设备 s系 阵的奇异值组成的对角阵。矩阵∑中的奇异值大小代表了 消防系 矩阵在该维度的变化大小,且奇异值在矩阵∑中是按照从 安防系 大到小的顺序排列的。当矩阵∑中的前k个奇异值较大 其它 网络全设备 时,取前k个奇异值可看作是对原来矩阵的近似。通过词 务器 频计算表计算表中每篇文档中每个词的TF-1DF权值 存储设备 华机砖环境设备 表,并用权值表进行奇异值分解: 应用系统软件 数据 SVD(TFIDF =U..V. (2) 中间 对矩阵U和V分别取奇异值的前t维,即可在t个维 度上很好地区分不同实施方案的分类类别。 针对上述信息作业分类的类别情况,依据信息作业实 本文设计的实施方案所属类别评定方法的步骤为:将 施方案编制、评经验及遇到的实际风险,本文定义了信收集的历史信息作业实施方案作为计算字典(dictionary)导 息作业变更实施风险项清单,见表2。该信息作业变更实入模型;建立信息作业实施方案语料库( corpus)利用字 38www. 38 Iwww.chinaet.net中国电工网 理论研究电工技术 典计算出语料库;利用信息作业实施方案语料库训练和计 算TF-DF模型;设定信息作业常用类别数 topic-num,并 098 09 根据TF-IDF模型和字典训练LSA模型;设定信息作业常 094 092 用类别识别关键词数 wordnum,对文档用LSA模型分类 并建立索引;利用已建立的LSA模型识别新信息作业实 086 084 施方案的分类 082 08 由此可得出基于潜语义模型的实施方案所属类别评定 l交验证 方法。 图1信息作业实施方案分类验证结果图 2.3基于词语相似度的风险项检测方法 Fig. I Classification validation results of IT job implementation scheme 经实施方案所属类别判定处理后,有了实施方案所属 类别(应用系统软件、数据库、中间件、网络与安全设备 得到信息作业实施方案的分类后,进一步利用提出的 等),将表2中定义的每个风险项划分为多元词组形式, 基于词语相似度的风险项检测方法进行风险项检测,结果 并将特定信息系统定义为企业级信息系统 KeySys一{如图2所示。在测试数据集中检测到存在潜在风险项13 产,项目管理,投资计划,生产,物资,基建,财务,营项,其中主要包括“topic nor[应用系统软件]实施前准备 销,人资,4A},企业级信息系统有相应同步备用系统工作不完备”,在实施方案中未明确使用运维审计账号 topic表示第i类信息作业分类,nor,表示 topic下常规这对后继问题追查复核带来阻碍;“topic nor[应用系统软 风险项第j项,mul,表示 topic,下的关联匹配风险项第件]未明确操作的HAC账户”,同样为此问题:“top 项,则有: 住”个业信就 ic mul[应用系统软件]”企业级信息系统应用程序做变更 [应用系统软件]实施前准备工作不完备 topic nor=操作时,未进行关停备用系统同步策略操作;topic mul 编制,审核,工作票运维审计账号工作方案} [数据库]”企业级信息系统数据库变更时,未进行关停备 [应用系统软件]告知调度作业开始 topic nor2={编用系统同步策略操作。由此可见在实施方案中存在较多 制,审核,工作票,运维审计账号,工作方案}应用系统软的人工未能检查及复核出的风险隐患,通过本文方法能较 件应用程序更新未备份应用程序 好地发现这些信息作业实施方案风险项问题。 topic mul={应用程序,更新}应用程序,备份} 进行多元组检测时,设定检测窗长 winlen=m,即检 测窗长内的m个词。对窗内的分词检测时,由于文字描述 会存在差异性,如“退出系统”和“登出系统”,因此多元组 内每个分词检测时采用词语相似度匹配。词语相似度 ( similarity)由词向量计算得出,准确的词向量一般由海量 的数据集支撑求出,可用开源的word 2vector2求取相 3 存在风险项数量 似度。 图2信息作业实施方案风险项检测结果图 3试验结果与分析 Fig.2 Risk item test results of IT job implementation scheme 本文通过采集某电网公司IT服务管理系统“变更管4结语 理”模块中5~6月的94项信息作业实施方案作为测试数 据集;分词采用 python jieba0.38,精确模式;语言模型 本文针对电网信息作业实施方案步骤人工评估时存在 建模采用 gensim2.2.0;信息作业常用类别数 topic-num=的管控力度不够、风险细节易疏漏等问题,提出一种基于 15;信息作业常用类别识别关键词数wordnum=8;检测潜语义模型的电网信息作业实施方案风险评估方法。在对 窗长 winlen=10。利用提出的基于潜语义模型的实施方案实施方案文本进行中文分词的基础上,定义了信息作业变 所属类别评定方法对测试数据集进行建模,得到LA模更实施风险项清单,利用潜语义模型提出信息作业实施方 型。由此可知,目前抽取的实施方案中,涉及应用系统软案所属类别评定方法,并提出基于词语相似度的风险项检 件的信息作业较多,其次是涉及存储设备的信息作业。 测方法,实现对实施方案中潜在风险项的自动化检测。在 利用测试数据集进行1fold交叉验证( cross-valida真实电网信息作业实施方案数据中的试验表明,本文方法 tion),结果如图1所示。由此可知信息作业实施方案分类能较好地检测出信息作业类别,并发现潜在的风险项。在 判定具有较高的分类性能,平均 Precision为94.00%,下一步工作中,将继续扩展信息作业变更实施风险项清 Recall为94.11%,f -Measure-为94.0%,能较好地将信单,使其能发现更多信息作业风险问题。 息作业实施方案进行归类。 (下转第42页) 20199期39 电工技术理论研究 入条件时,开展不停电作业可避免用户停电,并在短时停4.2推广应用策略 电作业的基础上新增30%以上的多供电量,在减少用户停 为有效推广零计划停电影响策略,构建了关键指标监 电时间和停电次数方面具有极大的优势。由此可知,作业控机制,持续跟进指标改善情况。首先,通过成果提炼出 点是否具备不停电作业快速接入条件是实现全面不停电作适应消除计划停电需求的网架、技术建设标准,融入规划 业的关键影响因素。目前的区内开关站房、配电房等设备源头;其次,充分把握以网格为单元的推广理念,制定适 基本未配置不停电作业快速接口,因此计划对研究范围内应成熟网格、快速发展网格、发展不确定网格的差异化推 不具备不停电作业快速接入条件的站房和变压器分2年逐广应用策略。 步安装不停电作业快速接口,支撑不停电作业。 3.3优化提升策略小结 5结语 针对影响计划停电时间的9项关键因素,设计了相应 本文基于 DMAIC模型零计划停电影响策略研究,识 的改进方案,分类整合为4项改进举措,见表2。 别零计划影响因素,制定了优化方案,项目的实施在提供 表2零计划停电影响优化提升策略 经济、社会效益的同时,更为深圳供电局实现目标提供 Tab.2 timized strategies for zero planned power interruption effeet支撑。 进举 可行性 实拖成效 参考文献 提高配网可转候电率 ★ ★★☆ 减少特楼电操竹停电时间 ★★☆ ★★★ [1]姜在兴,谷哲飞配电网停电计划的全过程精益化管理[ 全果不停电业 ★★☆★★ 缩不电作业设备接入,出间 ★★★ 电气时代,2017(2):61-62. [2]于利国,全华电网检修精益管理研究[D]北京:华北电力大 学,2016. 4成果提炼与推广应用(C阶段) [3]佳六西格玛质量体系在输变电系统设计项目中的应用 [D].天津:天津大学,2016. 4.1现阶段及预期成效 [4]刘伟基于 DMAIC方法的企业生产成本控制研究[D]天 策略实施后,研究范围内客户平均停电时间降至津:天津科技大学,2015. 0.39h,其中计划停电0.07h,计划停电占比(Y)降至[5]宁志刚六西格玛DMAC改进模式在DF公司成本改进中 17.6%,目标达成。 的应用[D]北京:中国科学院大学,2014 (上接第39页) (2):165-173. [6]韩冬煦,常宝宝中文分词模型的领域适应性方法J].计算 参考文献 机学报,2015,38(2):272-281 [1]徐静婷基于文本挖掘技术的创业板股票招股说明书风险分[7]牛萍,黄德根TFIDF与规则相结合的中文关键词自动抽取 [D]上海:上海师范大学2015. 研究[J]小型微型计算机系统,2016,37(4):711-715 2NASSIRTOUSSI AGHABOZORGI WAH,et[8]广西电网公司广西电网有限责任公司信息作业管理业务指 al. Text mining for market prediction: A systematic review 导书[Z]南宁:广西电网公司,2017 ]. Expert Systems with Applications. 2014, 41 (16) [9]Li C. Yang C. Jiang Q. The research on text clustering based 7653-7670. on LDA joint model[J]. Journal of Intelligent & Fuzzy Sys [3]WANG K. WU Q. MAO H. et al. Intelligent text mining tems, 2017,32(5) 3655-3667. based financial risk carly warning system[c/IEEE Interna-[10]黄育,张鸿基于潜语义主题加强的跨媒体检索算法[]计 tional Conference on 2nd Information Science and Control En- 算机应用201737(4):1061-1064 gineering. Shanghai: China, 2015. [I1]Hu Y H. Chen Y, Chou H L. Opinion mining from online [4]蒙杰,杨生举,施招亭,基于文本挖掘的科研项目管理辅助决 hotel reviews A text summarization approach[]. Informa- 策系统研究与实现[]计算机应用与软件,2016.33(9): tion Processing & Management, 2017, 53(2): 436-449. 24-26 12]刘彼洋,孙锐,姬东鸿基于矩阵分解和子模最大化的微博 [5]Shu X. Wang J, Shen X, et al. Word segmentation in Chinese 新闻摘要方法[J]计算机应用研究,2017,34(10): language processingJ]. Statistics and its Interface, 2017. 10 2892-2896. 42www. 42 Iwww.chinaet.net.net中国电工网
内容预览 [文件共4页]
本文件共4页, 如需编辑使用,请下载
注:预览效果可能会出现部分文字乱码(如口口口)、内容显示不全等问题,下载是正常的。
文件大小:441.61 KB 共4页      文件格式:PDF
下载点数:1 点(VIP会员免费)
收藏本页到会员中心
网友评论 more
创想安科网站简介会员服务广告服务业务合作提交需求会员中心在线投稿版权声明友情链接联系我们