数据管理系统五篇

#数据管理系统五篇| 来源: 网络整理| 查看: 265

数据管理系统篇1

关系数据库系统作为软件企业核心的数据处理系统，不仅在我国取得了十分广泛的应用，而且对我国信息化建设发展具有重要的作用与意义。而数据字典系统作为保证关系数据库系统正常运行的最基础软件，在很大程度上影响着关系数据库系统的运行状况具有重要影响。而本文笔者将对关系数据库系统的数据字典系统进行深入的分析与研究。

【关键词】关系数据库管理系统数据字典研究

作为关系数据库系统功能实现的最核心软件，数据字典系统的设计与实现是十分重要的。只有做好数据字典系统的设计，才能有效的保障关系数据库系统的正常、稳定运行。本文将对关系数据库系统中的数据字典系统进行分析与研究。

1 数据字典物理存储

1.1 数据字典的定义

数据字典的一个重要作用就是提供最终用户数据库所有的信息，在物理存储上就采用跟其他用户表一样的实现，提供统一的接口。而数据字典的主要作用还是提供给DBMS自身使用，在实现上还跟整个数据库的结构功能相关。

1.2 数据字典的逻辑功能

具体来说，关系数据库中的所有数据信息与关联都与数据字典有着十分紧密的联系。数据字典具有着对关系数据库中的所有对象进行定义的逻辑功能，除此之外，数据字典还可以对关系数据库中的序列值进行默认、对数据库中的各种信息进行约束、对数据库中的用户信息进行存储和统计、对数据库中的用户权限进行分辨，并且还可以对数据库中的各种信息的定义以及它们之间的关联进行操作与辨别。

由于关系数据库之中的各个对象之间存在着较强的关联性，当用户对某一对象进行删除操作时，往往会由于该对象与其它对象之间的关联程度与类型不同而产生一定的影响。例如数据库用户在PRLMARY KEY上建立起一个unique index文件，而这个unique index文件的主要功能就是帮助PRLMARY KEY实现其自身的功能任务。而由于PRLMARY KEY是依附在一个数据表中的，当删除表或是表中的相关信息有所变动时，依附于这个表存在的PRLMARY KEY中的unique index里的信息也会相应的被删除或有所变动。而数据字典负责的功能就是将关系数据库中发生的这些关联信息与操作完整的记录和保存下来。通常来说，关系数据库中的所有这些关联对数据库的用户都是公开透明的，而另一种情况就是数据库用户为了方便自己的操作或是其它因素，在对数据库中的对象进行删除操作时需要加上由用户自己设定的关系语句才能实现删除操作，当此删除操作实现时，与该对象有着密切关联的其它信息也会一并被删除。

1.3 物理记录的存储格式

关系数据库中的数据字典与用户数据都是以表的形式被记录保存在关系数据库的物理文件中的，并且关系数据库管理系统中有着多种物理存储格式，每一种物理存储格式都有着各自不同的特点，相互之间具有较大的差别，而这都是由于关系数据库管理系统中并发模式类型的不同造成的。现阶段，我国的数据库管理系统将加锁模型与多版本模型作为最为主要的两种并发模型。其中加锁式并发模型的特点是记录格式简单、无需版本信息就能实现，如SQL Server并发模型。而多版本并发模型主要有Oracle数据块并发模型。该种并发模型不仅需要用到物理记录来对数据库中的版本信息进行记录，而且还需要物理格式的帮助来实现对数据库系统的并发控制及相关的事务处理，比较复杂。

2 数据字典内存表示

2.1 CACHE作用

关系数据库管理系统能够通过对数据字典中的信息数据进行读取来获得数据用户以及数据库中的对象与存储信息，当数据库用户需要对某些数据进行查询和相关的操作时都需要利用其所发出的SQL语句来对数据字典中的信息进行查询，查询频率非常高。现阶段，我国的数据库管理系统主要由两部分组成，即CACHE与RELCACHE。其中CACHE主要负责的是对数据库管理系统中的表进行存放。在该部分中，一个系统表能够利用ID查询、NAME查询与主键查询中的任意一种方式进行查询，除此之外，用户也可以通过部分键对该系统表进行查询。当查询操作完成后，关系数据库系统会根据数据字典的分析最终弹出用户需要寻找的表格。

而RELCACHE部分的每一项都是一个RELATION结构，该结构对此结构中的所有数据信息与关联进行了记录与保存。并且此结构能够将关系数据库系统中的所有与需要查询事件相关联的描述信息进行联合构造，以更好的满足数据库用户的需求，提高关系数据库管理的质量与水平。

2.2 数据库的启动与CACHE的初始化

使关系数据库能够启动并发挥其应有的作用，操作人员至少要做好以下三个步骤，即将一个实例启动，之后对数据库系统进行装配操作，第三，将数据库系统打开。使数据库的CACHE系统得以初始化的方式有两种：第一种，在数据库系统建立时进行CACHE的初始化，主要负责对数据库系统的内存进行分配；第二种，数据库系统已经建立完成后在启动时进行初始化操作，此时，内存已经分配完毕，用户只要正常进行启动操作就可以完成CACHE的初始化。

3 结束语

本文主要对关系数据库管理系统的数据字典程序进行了分析介绍与研究，希望能够进一步推动我国关系数据库系统的管理质量，促进关系数据库系统的进步。

参考文献

[1] 程阳.关系数据库管理系统的一种简易的数据存储与查询模块的设计与实现[D].华中科技大学（硕士学位论文），2012.

[2] 冯玉才，李东，王元珍，曹忠升.一种移动数据库管理系统的体系结构[J].计算机研究与发展，2011，38（5）： 620-625.

[3]何新贵，唐常杰，李霖.特种数据库技术――数据库技术丛书之一[M].北京：科学出版社，2010.

数据管理系统篇2

1.1MVC模式

1.1.1MVC结构MVC模式主要包含模型(Model)、视图(View)和控制器(Controller)等三个部分内容，它明确规定了三个对象怎样迸行交互。其中模型的作用是存储内容，视图的作用是显示内容，控制器的作用是处理用户输入。下面简述MVC体系各部分作用：1）模型(Model)模型表示业务规则的制定、业务流程及状态的处理。模型的功能是维护数据，一般给出访问与修改数据的方法，当模型发生变化时，模型将事件发送到已登记的视图，而视图按照模型的改变来调整自己。模型层是MVC模式的关键之处，属于企业应用中的业务层。模型层一般先处理源数据，然后把处理后的信息传递给视图层呈现，并往往使用封装对数据库中的相关信息执行查询，体现了运用抽象数据库类的优势。2）视图(View)视图表示用户与系统的交互界面，对于Web应用系统，视图能够包含HTML页面、JSP、XML等内容。Web系统能够按照需要选用不同的视图，MVC模式对于视图的操作仅限于对数据的输入与输出处理，而不包含业务流程的处理。3）控制器(Controller)控制器的本质属于分发器，它不对数据进行任何的操作，是连接视图层和模型层之间的桥梁。控制器接收到用户的操作请求后，会选用合适的业务模型，决定调用合适的视图，显示模型层返回的执行结果数据。1.1.2MVC优点MVC的优点体现在以下几方面：1）能够为一个模型在运行的同时创建与运用多个视图。变化传播机制能够保证所有相关的视图及时获得模型数据变化，因而做到所有关联的视图与控制器行为保持同步。2）持有多个视图对应一个模型的能力。由于用户需求不断调整，可能有多种措施访问应用系统的要求。一个模型能够对多个视图进行操作，这样减少了程序代码的维护量，如果模型发生调整，也便于维护。3）一个企业应用被分割成三层，所以有时只修改其中一层就能应对应用的变化。4）模型返回的数据不附带显示方面的要求，从而模型能直接应用在接口。5）模型便于移植。模型独立于视图，所以能够将一个模型单独安装、配置到新的平台进行工作。6）有助于软件工程化管理。因为模型、视图、控制器等三层各司其职，每一层组件具备一些共同的特点，有助于利用工程化、工具化创建业务组件代码。总之，MVC模式利用对应用系统的分层，使得在应用系统研发时结构清晰，缩短了系统研发的周期，提升了系统的可维护性及可扩展性。

1.2J2EE平台

J2EE是一种运用JAVA2平台来精简企业应用系统的研发、安装与管理有关较为复杂问题的体系结构，最终目的就是降低系统开发人员的负担，削减系统开发所需时间。J2EE运用多层次的分布式应用模型，应用逻辑根据功能的不同，划分成不同的组件，每个应用组件按照它们所在的层部署在不同的机器上。J2EE的多层次模型克服了传统的C／S两层模型(Client／Server)的缺陷，即客户端由于承担了太多的角色而显得相对臃肿，系统难以扩展、维护，业务组件不便于复用。J2EE把两层模型划分为多层，系统中每一项服务对应一个单独的层，J2EE的经典四层模型，由客户端、表示层、业务逻辑层及企业信息系统层构成。下面分别简述各层结构：1.2.1客户端(Client)客户端部分用于完成企业级应用系统的操作界面及显示层,它能够是基于Web应用的，也能够是基于传统措施的。基于传统措施的客户端是独立的应用程序，直接同业务逻辑层进行交互。在通常的Web应用中，典型的客户端就是IE、Firefox等浏览器。对于基于Web的J2EE应用，用户的浏览器是在客户层上运行，并从Web服务器中下载静态HTML页面或者由JSP、Servlet产生的动态HTML页面。不管访问是来自因特网的Web浏览器，还是来自企业局域网运行的瘦客户端，J2EE都具备了良好的支持。1.2.2表示层(PresentationLogic)表示层为企业给出Web服务，主要实现同用户交互的功能，表示层生成表示逻辑，并且接受来自客户端的用户反馈。在一个典型J2EE的Web应用中，表示层主要利用JSP或Servlet组件。表示层可能包含一个JavaBeans类来管理用户的输入内容，并把输入传递给业务逻辑层EnterpriseBeans类处理。运行在表示层的Web组件凭借容器来支持譬如客户请求与响应以及EnterpriseBeans查询等。1.2.3业务逻辑层(BusinessLogic)业务逻辑层也叫EJB（EnterpriseJavaBean）层或应用层，它由EJB服务器与EJB组件构成，用于处理关键业务逻辑。通常情况下，许多开发商将Web服务器同EJB服务器产品绑定在一起，称作应用服务器。业务逻辑层用于实施具体的业务逻辑，这是企业级应用的关键，由运行于业务层上EJB类来承担。一个Bean类对象从客户端接收数据、执行处理，而后将数据送给企业信息系统层保存起来。同样，一个Bean类对象也能够从企业信息系统数据库取出数据，发送给客户端。业务逻辑层给出了事务处理、资源连接、安全性等多方面服务，该层创建在一个功能非常强大的计算模式上，而且属于分布式计算模式。为了实现企业计算，运用该模式进行研发时，EJB把商务逻辑进行封装，所以该模式研发EJB时仅需要关注商务逻辑的实施上，不需思考数据库底层工作，譬如组件通信、事务处理等技术。1.2.4企业信息系统层(EnterpriseInformationSystem，EIS)企业信息系统层为企业应用系统提供服务，包含数据库系统、事务处理系统、企业资源计划系统、企业应用遗留系统等。EIS层是J2EE企业应用同非J2EE企业应用或遗留系统集成的连接点。大多企业都有部分已存在的系统、数据库系统、文件系统等，通常这些系统会包括在企业信息系统层中，J2EE对这些系统的访问也是有多种措施能够利用的，譬如对数据库的访问利用JDBC技术等。J2EE给出了中间层框架来实现企业应用的易扩展性、易维护性、高可用性等需求。借助标准统一的研发平台，J2EE简化了在研发多层企业应用的开发步骤，并非常支持EJB，与现有的企业应用程序能够很好的集成。在实际研发中，能够按照实际应用灵活使用J2EE定义的四层模型。在通常的Web应用中，往往利用四层模型。基于桌面应用通常利用三层模型，不需要表示层。多层次的企业应用便于业务组件按照所在的层分布在不同的机器上，确保软件研发、维护和扩展的简易与可行。

1.3Struts2框架

MVC设计模式非常明了的划定了程序员和设计者的角色界限，也就是讲，从商业逻辑角度划分了数据逻辑。该模式有助于设计人员集中于考虑企业应用程序的展现内容，而开发人员则专注于编写企业应用的功能部件。MVC模式在J2EE机制中有几种表现，但是它们都是基于同样的基础结构，企业应用的数据模型、内容显示与程序控制逻辑等三方面是相互分离的，然而这些部件可进行相互通信，Struts2则是基于MVC模式一个坚固、成熟的框架。Struts2是在Struts与WebWork的技术基础上合并而来的全新框架。Struts2的体系结构同Strutsl的体系结构的差别巨大，由于Struts2运用了WebWork的设计精髓，而不是Strutsl的设计精髓。Struts2以WebWork框架为核心，利用拦截器的机制执行用户请求，这种设计便于业务逻辑控制器同ServletAPI完全脱离开，因此Struts2能够理解成WebWork的升级产品。由于Struts2与Strutsl有着太多的变化，然而与WebWork比较，Struts2仅有较少的变化。Struts2框架主要由核心控制器FilterDispatcher、业务控制器与用户实施的业务组件等三个部分构成，它给出了核心控制器部分的功能，而业务控制器与业务组件则需要程序开发者完成。Struts2中大量运用拦截器执行用户请求，因而有利于业务逻辑控制器同ServletAPI分离。

2总结

数据管理系统篇3

科学工作流中的任务之间的依赖既包含控制依赖，也包含数据依赖。连接两个任务(t1－t2)的边表示任务t1的输出作为任务t2的输入，工作流中的每个任务可能读入一个或多个输入文件，然后写入一个或多个输出文件。在工作流层，文件可以分为3种类型:输入文件、中间文件和输出文件。不同类型的文件具有不同的生命周期。(1)输入文件。输入文件不由工作流中的任务产生，文件通常驻留在用户存储服务器上。在运行时，可以从一个存储服务器传送到另一个存储服务器，然后在这里被检索，也可以在存储服务器上直接检索。图1中的F-input就是一个输入文件［10］。(2)中间文件。在工作流运行过程中产生但无需长期保存的文件称为中间文件，将在所有使用它的任务结束后被立即删除。图1中的f－t1－o1、f－t1－o2、f－t2－o1、f－t2－o2都是中间文件。(3)输出文件，由工作流产生，对用户有用并且在工作流结束后需要永久保存的文件。在工作流执行过程中，这些文件通常被转移到常驻存储中。图1中的F-output就是工作流的输出文件。值得注意的是，输出文件不一定必须是工作流中最后任务的输出，也可能是中间环节任务的输出数据。

2云计算环境下工作流执行模型

科学工作流由工作流管理系统提交和管理，工作流管理系统驻留在提交主机，协调调度工作的流执行。工作流管理系统将工作流中的任务分配到虚拟机的工作节点，任务的执行所需要的数据可以从一个或多个输入数据存储点输入。中间文件在工作流执行期间驻留在数据暂存站点。当工作流结束时，工作流管理系统删除中间数据，同时将输出文件从暂存站点转存到输出站点，然后永久性保存。根据工作流管理系统和目标执行环境的不同，多个数据站点可以协同工作。例如，在输入数据已经驻留在计算节点的情况下，该计算节点和输入点是相同的。图2显示了具有两个任务的工作流，来说明工作流所需的文件是如何在逻辑上独立的站点之间移动的。

3对象存储应用于科学工作流中的数据管理

对象存储系统主要包括存储服务器、元数据服务器、客户端等组成部分，其核心思想是将数据的读和写与元数据存储分离，如图3所示。存储服务器主要负责数据存储、智能的数据分布以及每个对象元数据的管理;元数据服务器主要提供对象存储访问、文件和目录访问管理以及客户端缓存的一致性管理等功能。为了提供可扩展的可靠服务，对象存储器的内部结构非常复杂。例如，亚马逊的简单存储服务(S3)［12］通过REST(RepresentationalStateTransfer)、SOAP(SimpleObjectAccessProtocol)和APIs(ApplicationProgrammingInterfaces)提供检索和删除操作;它将一个对象的多个副本布局在存储服务器上以提供错误情况下的冗余。很多网格存储服务和为数据密集型应用设计的协议可以认为是对象存储，这种架构对构建来自不同的执行环境的数据管理模式而言具有重要的借鉴意义。针对面向大数据工作流，利用对象存储的优点，本文提出两个方案:一是工作流中的3类数据文件都使用远程的对象存储;二是在计算节点上使用共享文件系统作为数据暂存点来存储中间数据。

3.1单独使用对象存储

在这种情况下，所有的数据都存储在对象存储系统中，工作流管理系统需要从对象存储中无缝检索数据，为本地工作流任务使用。在这样的设置中，工作流管理系统从对象存储中检索输入文件和中间文件，然后，工作流中的任务对本地的POSIX文件系统做必要的输入/输出设置，任务完成时，工作流管理系统能够将中间数据和输出数据存储到对象存储中。这样，即使工作流被部署在分布的资源上，科学应用只需要对POSIX做常规的输入/输出设置，就能完成工作流的执行。工作流管理系统与对象存储的多次交互增加了工作流执行的开销，而该开销与分布资源上的计算相比并不算大。对象存储中既有输入数据也有中间数据，只要工作流系统与对象存储能够无缝检索和存储，那么任务执行可以在任何地方。如图4中，任务t1可以在校园计算机集群上完成，而属于同一工作流的任务t2可以在亚马逊的EC2上完成，t1、t2使用亚马逊的S3对象存储作为中间数据文件的暂存。总之，数据存储和执行环境的分离，使得工作流在分布资源上的执行更为容易。一个常见的情况是，当计算需求超过本地或校园计算所提供的资源时，将使用云资源。图4也说明了工作流的数据移动情况。在这里，文件F-i被传送到云中的高性能计算集群工作节点的本地文件系统。任务t1从该节点开始，读入输入文件F-i，然后写入本地文件系统的中间文件F-t，F-t被传回到作为数据暂存点的对象存储中。F-t文件将从对象存储中被检索进入到EC2节点的本地文件系统。任务t2启动后读取F-t文件(该文件是由t1创建)，然后将F-o写到本地磁盘，再传送到对象存储中。以上所有的数据传输工作都由工作流管理系统完成。科学工作流中单独使用对象存储的明显不足之处是，数据重复传输会引起在大数据处理过程中的延迟。工作流中的多个任务使用相同的文件，所以重复传输是显而易见的［13］［14］。对象存储将对同一资源的重复请求认为是不同的请求，对象存储通常以其良好的扩展性减轻这种重复对工作流性能造成的影响。另外，工作流系统可能在本地节点选择缓存文件，或者利用集群中的共享文件系统来减轻此问题。延迟是整个工作流性能应该关注的问题，云对象存储的设计提供了很高的带宽，但对单个检索或对象操作可能需要数秒钟的延迟。对具有大量文件的数据密集型的科学工作流而言，这种延迟显著增加了工作流运行的时间开销。大型工作流中的另一个问题是多数中间文件需要被传输到对象存储中由相关后续任务检索并使用。由于商业对象存储提供以GB为单位的存储，并按迁移、存储和检索的请求数付费，所以重复传输也就意味着费用的增加。

3.2共享文件系统作为数据暂存

解决由数据重复迁移造成的延迟问题的方法之一，是工作流管理系统将中间文件暂存在POSIX兼容系统中，由多个计算节点文件系统共享，然后在一个资源节点上运行所有的计算。文件共享系统保存了工作流管理系统中所有任务的中间数据，在这种情况下，只有输入输出文件存储在对象存储中。由于中间文件不需要在对象存储与计算节点之间传送，从而可降低使用商业云对象存储的费用。如图5所示，是一个具有文件共享系统的高性能计算环境下具有2个任务的简单工作流。文件F-i被工作流管理系统传送到集群文件共享文件系统。任务t1在计算节点1上启动，从共享文件系统中读入文件F-i，然后将中间文件F-i-t写入到共享文件系统中，任务t2在计算节点2上启动，从文件共享系统中读入F-i-t(由任务t1创建)，然后将其输出写入到F-o，F-o由工作流管理系统送到对象存储中，这种方法的优点在传统的有高速并行超级计算环境中尤为显著。例如，XSEDE(ExtremeScienceandEngineeringDiscoveryEnvironment)节点对多数科学工作流点有极大扩展性［15］。值得注意的是，如果第一个计算节点忙而需要将计算溢出到另一个节点时，这种随数据布局任务的方法，损失了布局计算的灵活性。以上两种方法各有所长，选择使用哪种方法取决于工作流的类型和工作流执行的目标环境，这就要求工作流管理系统的开发具有弹性的数据管理方案，允许科学家有效使用对他们有用的基础设施。工作流中的数据管理方案应该具有如下特征:首先，科学工作流管理系统允许任务和数据后绑定，任务依据资源的可用性映射到计算资源上，任务在执行时能够发现资源，并从众多存储中选择数据暂存位置;其次，在科学家只有一个计算资源可用的情况下，允许任务和数据的静态绑定;再次，支持使用不同协议和不同安全机制访问对象存储。

4相关工作

工作流管理系统处理数据的方法很多，Swift［16］采用与本文所描述的第二种模式类似，使用本地文件系统或共享文件系统作为数据缓存，提交主机扮演数据暂存的角色。系统首先选择一个计算站点来运行一个任务，然后将数据从提交主机推向该站点的文件系统，任务执行后，输入的文件被回传给提交主机，中间文件被留在共享文件系统中以便后续任务的执行。相对而言，本文将数据文件(包括输入、输出、中间文件)与提交主机分离，并使用不同的协议，具有更好的灵活性。其他工作流管理系统如Kepler［17］，Triana［18］和Taverna［19］关注的是流式工作流中任务的调度和其他Web资源的调用，这些工作流具有图形化的用户界面，允许用户搭建具有不同部件的工作流，但通常没有涉及访问大量数据集的问题。这些工作流中的数据管理很大程度上依赖于用户，数据管理自动化非常有限。Kepler［20］引入了一个MapReduce执行器，允许执行采用MapReduce算法的混合工作流。Hadoop平台通常用来运行数据密集型的科学应用，它所提供的文件操作与POSIX类似，允许随机读，但不允许随机写。在这种情况下，Hadoop平台负责将输入文件切片并分布在各个数据节点。而本文提出的方法主要针对工作流运行在多个不同的执行环境中，代码不能MapReduce的情况。在XSEDE中，任务利用分布式文件系统如GPFS-WAN［21］(GeneralParallelFileSystem-WAN)来访问数据，分布式文件系统支持POSIX操作，可以对输入和输出文件进行远程访问。研究表明［22］，将大型数据集布局在本地计算节点会更好，但这一策略也会带来新的问题，如不同类型工作流的融合以及数据布局策略算法等。

5总结

数据管理系统篇4

关键词：；SCADA；模板；数据管理系统；WEB

目前，华东成品油管网已运行的成品油管道有3条，包括苏北管道、苏南管道和浙苏管道，这3条管道共有3个首站、13个中间站和末站，总长1205km，其自控系统采用先进的SCADA系统和罗克韦尔PLC控制器，用于全线的生产调度及主要参数（包括管道流量、压力、温度、密度和罐液位等）的监控。SCADA系统不仅可以用于生产调度，还可以实时保存生产中的数据，以供各部门调用。各部门管理员通过对SCADA所保存的数据进行统计和分析，最终形成各类报表，以改进成品油管输的生产工艺，优化工艺安排，从而有效地降低运营成本并大大降低运行风险。但是，SCADA系统的监控数据非常多，管理员所需要的数据只是其中的一小部分，因此，如何从大量数据中提取所需的数据，怎么对这些数据进行统计分析，以及如何设计网页并将这些数据到网页上就成为成品油管网生产数据管理系统研发的难点。

1国内外研究现状

由于成品油管输的特殊性，其生产数据的统计分析大都依托人工处理，至今还没有有效的WEB管理系统。人工处理不仅费时费力，还经常会出现一些错误，包括：①人工统计工作量大，容易产生误差，有时甚至会造成错误；②公司多个部门重复提取报表，可能由于提取路径不一致而出现数据偏差；③对生产数据的管理水平较低；④对数据缺乏分析，不能有效服务生产[1]。为了有效解决以上问题，通过开发SCADA自带的模板功能实时获取所需的数据，利用软件对这些数据进行统计和分析，并根据用户的需求将这些数据呈现于WEB网页上，以供用户浏览和下载，方便管理人员查询生产经营的情况。该系统具有信息量大，数据全面、准确等优点，大大减轻了人工统计的工作量。该系统提供了大量的数据分析，有助于管理人员改进生产工艺、优化运营方式、提高管理水平和降低运营成本[2-3]。

2系统架构及组成

华东成品油管网生产系统需要有极高的稳定性，以保证生产运行不受影响，因此，在生产网和其他网络之间设置了单向网闸，数据的传输只出不进，这样才能有效地阻止病毒的入侵，保证生产运行的安全。因此，该系统需在SCADA生产服务器上设计模板，以实时获取生产数据，并将数据传输给WEB服务器。客户端通过WEB对WEB服务器进行访问，以读取相关数据或下载报表（图1）[4-5]。该系统包括生产数据统计与分析及管网参数两部分内容，其中，生产数据统计与分析包括日报表、月报表、批次统计表、设备运行时间统计表、混油情况表和输油量同比表等；管网参数包括管道参数、设备参数、联锁保护参数和运行经验参数等。

3报表设计

SCADA系统自带模板使用GetArgValue语句来获取某一个生产数据，其格式如下：GetArgValue（"A.7.1213.170610.PI2112"）。其中，各字段意义如下：字段1：取值的表格，A：秒表；B：分表；C：时表；D：日表；E：自定义表。字段2：取值日期，0：今天；1：昨天；2：前24h；3：本周；4：上周；5：本月；6：上月；7：今年。字段3：当字段2取值为0|1|2时，此字段无意义；当字段2取值为3|4时，此字段取值范围为0～6，分别代表星期日～星期六；当自动2取值为5|6时，此字段1～31，分别代表1号～31号；当字段2取值为7时，此字段为一个4位数，前两位代表月，后两位代表日；如果此字段为3位数，则前一位代表月，后两位代表日。字段4：取值时间，格式为HHMMSS，例如：030905代表03:09:05。字段5：物理量的fieldID。例如：GetArgValue（"C.0.0.060000.C2SNX012FT511MTL93"）代表的意义为：获取今天早上06:00:00时刻93#汽油流量计的读数[4-5]。

3.1综合日报表设计

日报表是各类报表的基础，其可以为月报表、年报表提供基础数据，因此，日报表数据的准确性在该系统中显得尤为重要。当日下载量、当日库存量、当日空容量及混油量均是成品油管输的重要数据，而各个下载站的这些数据又可以为统计和分析提供重要的依据，因此，日报表必须包含各个站场的这些主要数据。综合日报表单元格需要进行计算公式编写，且须与本站场对应的油品数值一致。例如：由于该SCADA系统开发时苏南还是下载90#和93#汽油，后续90#和93#汽油均改成92#汽油，因此南京站92#汽油当日下载量应该是当天早上06:00:00时3路流量计所下载的93#和90#汽油总量与昨天上午06:00:00时3路流量计所下载的93#和90#汽油总量之差。

3.2综合月报表设计

综合月报表数据来源于综合日报表，但又不局限于日报表的数据。对经营管理者来说，当月输油量是其做月末盘点的主要数据；但是对于生产管理者来说，除了当月输油量之外，还必须了解当月混油切割量及回掺量，以便优化下个月的生产工艺，避免由于混油过多而影响生产。3.3批次统计表批次运行表将每个批次运行的相关数据均统计到表里，以供管理人员对这些数据进行对比。包括：批次号、启输时间、停输时间、输送时长，各站场下载油品质量、耗电量和各站混油切割量等。通过对比这些数据，管理人员就可以了解近期生产存在的问题，然后制定相关对策，优化运行方案。

3.4设备运行时间统计表

对长输管道来说，最重要的设备就是输油泵，输油泵的好坏与维护保养有一定的相关性，而泵的维护保养又与其运行情况相关，因此分析泵的运行时间和使用率，就可以制定相应的维护保养方案。设备运行时间统计表主要是对泵的运行时间和使用率进行统计分析，以供管理人员做好泵的维护保养方案。

3.5混油情况表

当前对混油的处理方式主要有回炼和回掺。回掺需要及时掌握混油的切割量、回掺量及混油罐的库存液位，否则，很容易因为混油罐库存液位较高，导致无法切割。混油情况表主要对每个月每个站的混油切割量、回掺量及库存液位进行统计，包括：年度混油累计、富柴富汽切割回掺情况、各管道切割回掺情况和百吨回掺情况。3.6输油量同比表输油量是衡量一条管道运行情况及效益情况的一项重要指标。该系统将每条管道每个月的输油量统计到一张表中（表1），并用图表的形式将各月管输量表示出来，这样，管理人员就可以清楚地看出各管道各月的输油量情况。

4WEB设计及开发

该系统采用（基于C#）软件进行WEB设计。生产数据管理系统主要是对数据进行统计和分析，因此，对Gridview控件进行开发，以便将所统计和分析的数据结果显示到WEB网页上。该系统设计了一个Calendar日历控件，以供用户能够直观地选择所需要的日期，以调取其对应的数据。为了方便用户的使用，该系统还专门利用.NET的母版页功能，使用户在任何时候均能轻松地点击所需要的链接。对于Button的设计，该系统专门利用Photoshop软件对几个Button进行了艺术设计，以增强网页的艺术效果（图2）[6-8]。在WEB系统中，最大的难点就是下载功能的实现。如何才能使文件下载完整、如何防止出现乱码的问题，以及如何在下载过程中让用户直观看到下载的进程等均是设计难点，而其中最重要的是数据下载的完整性和准确性。程序的开发过程中，对下载数据长度与缓冲区大小进行对比，如果两者相等，则直接将缓冲区数据写入，如果数据长度小于缓冲区大小，则重新定义缓冲区大小[9-10]。

5调试及结果

系统的调试所占用的时间可能比设计开发的时间还长，特别是对于程序量大的系统。该系统也不例外，由于每张报表所涉及的数据量特别大，调试时也就出现了各种各样的问题，如数据的问题、功能模块的问题或者系统问题。通过长时间的调试及修改，该系统最终顺利通过并应用于实际生产当中（表2、图3）。

6结束语

数据管理系统篇5

构件仓库；

数据挖掘；

反馈；

决策树作者简介：陈文，23岁，男，四川南充人，软件工程师，重庆西南大学计算机与信息科学学院2005级硕士研究生，研究方向：软件测试，软件复用。 1 引言软件构件技术是软件复用的一种重要手段，是近年来软件复用研究的热点，目前出现了大量的基于构件的应用软件开发，取得了良好的效果。要使用基于构件的软件开发技术，发挥构件在软件重用方面的优势，就必须要有支持整个软件生命周期并包含有大量可用构件的构件库系统，有效的构件管理和高效的构件查询是构件库系统成功的关键。本文研究的重点是将数据仓库，数据挖掘技术应用到构件库系统中，为构件库管理员提供切实有效的构件管理方法和为用户提供高效的构件查找方法和构件选择的辅助决策支持。2 数据仓库与数据挖掘技术2.1 数据仓库技术著名的数据仓库专家W.H.Inmo在其著作《Building Data WareHouse》一书中给出了如下的数据仓库的定义：数据仓库是面向主题的（Subject-Oriented）,集成的（Interated），时变的（Time-Variant），非违约的（Non-volatile）一系列用于管理和决策制定的数据集。面向主题是数据仓的重要特征，这是与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准。基于主题组织的数据，被划分为各自独立的领域，每一个领域有自己的逻辑内涵，互不交叉，数据只是为具体处理而组织在一起。传统的E-R型数据模式能较好的执行联机事务处理（OLTP），但不适应决策支持分析，而数据仓库则是为决策管理提供支持信息，根据业务需求从用户的角度基于主题来组织数据，并形成相应的数据视图，汇总表等，因此适于联机分析处理（OLAP）。数据仓库的第二个特点是集成化，数据从面向应用的操作环境中，提取到数据仓库中时，都要经过集成化，统一原始数据中的所有矛盾如命名冲突，数据结构转换等，最终达到：一致的命名，变量度量，编码结构，物理属性等。数据仓库的另一个特点是非违约性。因为数据仓库中的数据是历史数据，数据经集成进入数据仓库后，一般不需要改变。针对数据进行的基本操作只是装数据和访问数据，因此不存在传统数据库中的数据恢复，数据同步，修复死锁等复杂问题.2.2 数据挖掘技术概述数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的非平凡过程，这些信息的表现形式为：规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。3 当前构件库系统应用中的困难随着构件库系统的发展，当构件数目逐渐增多时，用户在查询和选取构件时会碰到以下一些困难：（1）在查询的过程中，可能有多个满足用户查询条件的构件，如何快速有效地从众多的候选构件中，准确的判断并选取所需的构件，这是一个复杂的决策过程，一般都依赖于用户的复用经验，以及对构件的理解和主观判断。（2）通常用户都是通过刻面、属性、关键词、关系等表达式，根据所需构件的特征，进行构件的查询。然而访问构件的用户具有不同的层次，可能不熟悉构件的刻面分类模式，对构件的理解比较困难。（3）用户查询前并没有一个明确的目标，只是想通过查询构件库，找到能够利用和复用的构件，因而，如何通过构件的复用历史和其它用户的览胜经验，为用户提供一定程度的复用帮助是很必要的。（4）对需求规约、设计、模式、测试计划等文档知识的构件复用属于间接复用，需要复用者首先进行分析和理解。在大多数复用情况下，对构件的复用是白盒复用，也是就根据构件复用者的反馈，对构件进行适应性修改。如何跟踪软件复用的经验和构件的使用历史，辅助用户选取相应的分析，设计及改动最小的构件是关键。综上所述，由于当前的构件描述多是基于构件某一方面特征，如构件接口、构件属性、运行环境等进行描述，而缺乏对构件的功能及非功能属性的精确的，形式化的语义描述，这将导致某一候选构件与需求构件在构件的描述匹配中完全一致，但该构件并不一定能完成需求的功能。例如，用户试图寻找一个计算两数相加输出和的加法构件，但候选的是一个计算两相乘输出积的乘法构件，需求构件与候构件在构件接口参数描述、环境依赖等方面完全匹配，但功能上却大相径庭。因为缺乏非功能属性上描述，当前的构件匹配也存在着即使候选构件与需求构件在功能上一致但由于在非功能属性上不合要求仍不能完成用户需求的问题。特别是当用户应用程序在总体的非功能属性上，例如用户界面、程序安全性、适时性、可靠性等，有特殊要求时，构件的非功能属性一致性就更加重要。构件描述必须具有完全性、完备性、易解理性。构件描述完全性指能够描述构件各个方面的特性，不存在构件的某一特性不能描述的情况，完备性是指所有的构件都能描述，不存在某一构件不能描述的情况。理论的构件描述方法是语义描述，即以形式化手段描述构件的功能或行为语义，系统可以通过定理证明及基于知识的推理过程来寻找语义上等价或相近的构件。遗憾的是这种基于语义的描述方法涉及许多人工智能难题，目前难于支持大型构件库工程实现。当前基于不同构件模型的较为成功的构件描述语言CORBA IDL,DCOM IDL和EJB IDL以及被认为是最好的通用构件描述语言XML，它们都能够描述构件多方面的特性,并且具备编译和浏览工具的支持，但是在描述构件接口语义和构件间复杂的交互协议方面缺乏进一步的支持，因此都不能很好的满足构件描述的完全性、完备性、易理解性三个方面的要求。例如CORBA IDL不能描述符合CORBA标准以外的构件，也不能精确的描述构件的功能及非功能性特点。因此基于当前的各类构件描述语言，它们的描述只能让用户获得构件某些方面的，抽象的认识，尚不能让用户对整个构件有全面清楚的认识，故势必影响构件选取，构件复用。而构件的复用历史，早期用户对构件的使用结果，使用评价，修改意件等复用经验会对后期用户对构件的认识，选取决策起到重要的辅助作用。因此有效的管理构件的复用历史记录，先期用户的复用反馈信息非常重要。4 基于数据仓库技术的构件管理传统的基于联机事处理理（OLTP）的E-R数据库并不适于历史数据的长期存放与管理，而数据仓库技术正是用于存放历史数据信息，并对用户提供决策支持的系统，适宜于联机事务分析(OLAP)，故建立基于数据仓库技术的用户反馈信息库以支持构件的存储和检索是可行的。在用户反馈信息库中，对反馈信息进行一定程序的量化处理，主要包括七个维度：时间维度Time，制作者维度Provider，用户维Userinfo，组装维Compositeinfo，测试维Testinfo，描述维Descripinfo，评价维Valuatinoinfo；

两类反馈事实：细节事实Freedbackfact，聚集事实AggregrateFact。其多维模式如图1所示： Feedback Fact 图1 用户反馈为数据模式用户反馈通过收集工具捕获用户提交的反馈信息，并对用户反馈信息进行筛选、分类，集成存入数据仓库。由于用户反馈库采用多维数据模式，当需要查询和分析的主题不断增加时，可以通过为新增的主题建立相应的事实表和维表（可以共享原来的很多维表），数据库结构不变，集成到原来的信息库中，逐步完善软件企业信息仓库。这是符合数据仓库开发的原则，即先从某一主题入手不断加以完善。5 基于决策树的分类发现在软件构件查询中的应用数据挖掘所能发现的知识有如下几种:广义型知识，反映同类事物共同性质的知识；

特征型知识，反映事物各方面的特征知识；

差异型知识，反映不同事物之间属性差别的知识；

关联型知识，反映事物之间依赖或关联的知识；

预测型知识，根据历史的和当前的数据推测未来数据；

偏离型知识，揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现，随着概念树的提升，从微观到中观再到宏观，以满足不同用户、不同层次决策的需要。至于发现工具和方法，常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。本文在基于前述建立的构件仓库上，使用决策树分类法对构件进行检索。

5.1 决策树分类方法分类在数据挖掘中是一项非常重要的任务，目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器)，该模型能把数据库中的数据项映射到给定类别中的某一个。给出一个数据集中的一些属性，分类器可以预测出某一个特定的属性。被预测的属性叫做标签（label），用于预测的其他属性叫做描述属性（descriptive attributes）。在生成分类器后，则可以利用它来对数据集中不包含标签属性的记录进行分类，标签的值可以用分类器来预测。要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征)值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可为:(v1，v2，...，vn；

c)；

vi表示字段值，c表示类别。从训练集中自动地构造出分类器的算法叫做生成器（inducer），在生成分类器后，可以利用它来对数据集中不包含标签属性的记录进行分类，标签属性的值也可以用分类器来预测。决策树分类方法属于分类方法的一种，该方法的输入是一组带有类别标记的数据，构造的结果是一棵二叉树或多叉树。二叉树的内部节点（非叶子节点）一般表示为一个逻辑判断，如形为（ai=vi），基中ai 是属性，vi是该属性的某个属性值；

树的边是逻辑判断的分支结果；

多叉树（ID3）的内部节结点是属性，边是该属性的所有取值，有几个属性值，就有几条边，树的叶子节点都是类别标记。5.2 决策树方法与构件分类检索决策树分类算法通常包括两部分：一是树的生成，开始时所有数据都在根结点，然后根据设定的标准选择测试属性，用不同的测试属性递归的进行数据分割；

二是树的修剪，就是去掉一些可能是噪音或者异常的数据。构造一棵决策树就是形成一个训练集的分类，在分类过程中完成对目标的获取策略与规则提取。构件仓库中构件信息包构件描述信息，复用历史信息及用户反馈信息。构件描述信息如下表1所示，复用历史信息如表2所示，用户反馈信息如表3所示。表1 构件描述信息表构件号入库时间提供者功能描述非功能描述应用领域其它0012006-1-1微软XP升级视窗界面PC用户。。。0022006-1-2瑞星杀毒安全性好PC用户。。。0032006-1-2金算盘财务结算计算精度高金融领域。。。0042006-1-5创业软件CT机控制适时性好医疗领域。。。。。。。。。。。。。。。。。。。。。。。。表2 复用历史信息表构件号复用时间复用者复用结果复用领域其它0012006-11-7张三成功PC用户。。。0012006-10-2李四成功PC用户。。。0032006-7-2金软d 411 金达软件失败财务软件公司。。。0042006-9-19创业软件部分成功医疗软件公司。。。。。。。。。。。。。。。。。。。。。表3用户反馈信息表构件号反馈时间反馈者复用结果复用评价修改意件其它0012006-11-9张三成功良好需要更好的易操作性。。。0012006-10-3李四成功优升级时间更短。。。0032006-7-12金软d 411 金达软件失败差需更高计算精度及安全性。。。0042006-9-20创业软件部分成功一般更快的响应时间。。。。。。。。。。。。。。。。。。。。。。。。构件分类模型

图2 分类模型

【本文地址】

数据管理系统五篇

数据管理系统五篇

今日新闻

推荐新闻