基于学习曲线的油田数据服务分析

发布时间：2015-09-02 09:04

摘　要：摘要：本文对油田常用数据进行归类，并将数据服务的时间按照P（Plan）、D（Do Experiment）、S（Study）、A（Action）四个阶段进行量化统计并绘制数据服务的学习曲线，进而通过曲线的链图分析，帕累托分析确定影响服务效率的关键因素并给出初步解决方案。

关键词：关键词：油田数据服务，学习曲线，效率

中图分类号：T311    文献标识码：    文章编号
    0 引言
    在信息服务体系的演化与发展过程中,都遵循“面向信息源→面向信息交流→面向信息用户”这一共同的发展演化轨迹。
    “面向信息源头”的信息服务是各种信息服务体系发展必须经历的第一个阶段，是以信息资源建设为中心,其重点是占有文献，系统重心在寻找信源。 “十一五”期间，A1等项目的成功实施，大庆等油田均形成了集地震、测井、勘探开发综合数据管理与服务的技术体系和专业化队伍，建成了规模庞大的勘探与生产技术数据资产库，数据管理技术能力和水平有了很大提高，主库数据的完整性、及时性、准确性有了较大提高，“信源”问题基本都得以解决。
    “面向信息交流”的信息服务是各种信息服务体系发展的第二个阶段，是以信息资源传递为中心,其重点是信息集成和传递，系统重心在改善信道。“十一五”期间，伴随A1等项目的实施，各油田均建立了针对主库的数据提供系统，如A1系统自带的PE、WOW，大庆油田的勘探开发数据服务系统等，并且为了更好的满足专业人员不断提高的数据需求，大庆油田数据中心增加了数据提供模式、数据加工模式、项目环境模式及资料包提供模式以进一步完善信息服务体系，“信道”得到较大改善。
    “面向信息应用”的信息服务是各种信息服务体系发展的第三个阶段，是以信息资源利用为中心为用户，重点是围绕用户信息活动来组织、集成数字信息资源和信息服务, 提供适时的、个性化的服务,系统重心在满足信宿（即用户）信息需求。大庆油田数据中心数据服务体系目前处于第二阶段向第三阶段的过渡阶段，能否准确的把握“信宿”的信息需求，能否准确的定位影响当前数据服务的不利因素是能否解决“信宿”问题的关键所在。大庆油田数据中心信息研究室借鉴运营管理的基本原理，运用“六西格玛”问题发现方法，定位影响数据服务的因素，并对关键问题的解决提出初步方案。
    1 油田数据服务学习曲线模型
    1.1 学习曲线效应
    学习曲线效应（Learning Curve Effect）又称经验曲线效应，或者改善曲线效应，它是用来描述单位生产成本与连续累计产量之间关系的曲线。学习曲线可以应用于个体和组织。当人们重复同一过程并从他们自己的经历中获得技能和提高效率时，个体学习能力将得到提高，即所谓的“熟能生巧”。组织的学习能力同样源于实践，但它也来源于管理、技术、产品设计等方面的变化，我们通常用一条学习曲线同时描述个体学习和组织学习相结合的结果。
    学习曲线理论基于以下三条假设：（1）每次完成给定的任务或单位产品后，下一次完成该任务或单位产品的时间将减少；（2）单位产品完成时间将以一种递减的速率下降；（3）单位产品完成时间的减少将遵循一个可预测的模式。学习曲线方程的一般形式为：，
    Ct/Qt=AQ-bt-1             （1）
    式（1）中qt表示t时期产出，Qt指累计至t时期的产量（自该产品投放开始）；Ct表示在t时期所负担的总成本，通常为可变成本。不变百分比学习曲线假设平均可变成本（或平均成本），即Ct/Qt以一个不变速率即指数下降。
    1.2 油田数据服务学习曲线模型构建
    源于对知识本质的探索，休哈特与戴明建立了学习和过程改进的流程图，即PDCA循环。休哈特认为知识始于实验数据，终于实验数据，但它所终于的数据并非其开始时的数据。休哈特认为，知识有三个重要的组成部分：（1）学习过程开始时的实验数据；（2）对将来进行某些实验时，希望能得到的数据的预测；（3）以原始数据和一些结论为依据的所得到的预测的可信度。休哈特将这种思想用于很多方面，例如，在制造业中，他认为质量控制的流程分为规范制定-生产-质量检查三个步骤，分别相当于知识模型中得制定假设、进行实验、检验假设三个阶段，这三个步骤组成了获得知识的科学的动态过程。在哲学家的影响下，休哈特和戴明对上述模型进行了进一步的修改，形成了计划（Plan）-做（Do）-学习（Study）-实时（Action）循环，即PDSA环。
    PDSA环描述了在一个稳定均衡或近似稳定均衡的环境中计划和学习过程，其核心是通过研究计划实施的结果并不断对计划进行调整，从而使计划得到持续改进。油田的数据服务过程也是一个类似的不断积累、不断改进的过程。基于PDSA原理，笔者将油田数据服务工作细分为数据服务计划制定（P）、数据服务实验（D）、经验积累（S）、服务实施（A）四个阶段，其中P、D、S三个阶段与数据服务量相关性基本可忽略，A阶段与数据服务量息息相关，即：
    T总=tp+td+ts+1000*（ta/q）            (2)
    其中tp表示数据服务计划制定阶段耗时，td表示数据服务实验阶段耗时，ts表示经验积累阶段耗时，ta表示数据服务实施阶段耗时，q表示数据服务井数。
    利用上述公式，笔者对2011年大庆油田信息研究室新开展的部分数据服务时间进行了标准化，以测井曲线标准化处理为例，2011年5月9日-2011年5月24日，信息研究室共计提供测井数据标准化服务25次，共计处理测井数据13000余井次，每1000口井的数据处理时间由最初的105.65分钟降低到50分钟左右。通过利用MATLAB软件进行拟合，得到该服务学习曲线模型：
    Y=97.926x-0.2329            (3)
    b=2-0.2329=0.85             (4)
    其中，y表示服务时间，x表示服务次数，b表示学习效率。

                                                    图1 测井数据处理学习曲线
    2 油田数据服务学习曲线模型分析
   正确的答案源于合适的问题。在油田之前的数据服务中，信息人员往往仅采用问卷调查等简单的方式进行数据服务低效原因的分析，所得原因略显粗放，笔者在一个简单的层次上利用时间序列分析，通过时间序列上的数据链的模式分析，对影响数据服务的因素进行了较为深入的研究。
    2.1 学习曲线模型稳定性分析
    链图是时间序列上得数据点所构成的数据表。分析链图的目的是为了确认所出现的模式是由于变差的正常原因所引起的，还是因为存在变差的特殊原因引起的。通过链图分析，我们可以确定对于所观察的时间段，过程是否处于统计控制状态，如果是，那么我们可以运用过程能力分析方法进一步估计过程的长期表现，如果否，则可进一步确定典型数据点进行变差原因分析。

                                                    图2 测井曲线处理中位线
   对于中位数的链是指一组在中位数同一侧的连续点序列。一般说来（α=0.05），在数据点（观测点）的个数介于20与30之间时，链长度不超过7，链数目介于6-15之间，倾向点数不超过5。在本例中，从第6点开始（数据服务趋于稳定后），最大链长度为4，链数目为12，最大倾向点数为3，由此可见，虽然该模型处于统计控制状态，但该模型的链数目较多。统计学认为，过多的链经常表明样本中混杂多个引起变差的原因，也就是说，即使该模型在统计控制状态下，依然存在多个影响数据服务效率的不利因素。
    为了确定上述不利因素，笔者对模型中的每一个异常点（标准服务时间明显上升/下降点）进行了分析。以第四点为例，该次服务共计处理测井数据433个，实际耗时37分钟，标准耗时约90分钟，超出正常耗时约20分钟。通过查阅服务报告，笔者发现，在该次数据服务过程中，由于数据文件中有27口井的测井数据文件中出现汉字，数据转换后无法使用。为了解决该问题，笔者与用户就汉字处理问题进行了近20分钟的沟通，影响了该次数据服务的效率。
    重复利用上述方法，笔者对每一次数据服务中的低效原因进行了记录，并形成了高效数据服务鱼骨图：
                                                                                                                      图3 数据服务低效鱼骨图
2.2 学习曲线模型帕累托分析
每一项影响数据服务效率的不利因素同时也是一个潜在的提高数据服务效率的机会。为了决定在众多潜在的机会的优先顺序，即“从许多琐碎的因素中分离出最关键的少数几个”。笔者采用了帕累托分析对影响数据服务的不利因素进行进一步分析。
帕累托分析法（Pareto analysis）是制定决策的统计方法，用于从众多任务中选择有限数量的任务以取得显著的整体效果。帕累托分析法使用了帕累托法则，关于做20%的事可以产生整个工作80%的效果的法则。其原型是19世纪意大利经济学家帕累托所创的库存理论。帕累托运用大量的统计资料分析当时的一些社会现象，概括出一种关键的少数和将要的多数的理论，并根据统计数字画成排列图，后人把它称为“帕累托曲线图”。这种排列图把累积百分数在0～80%之间那些称为A类因素，是主要因素；累积百分数在80%～90%之间的因素被称为B类因素，是次要因素；累积百分数在90%～100%之间的因素为C类因素，在这一区域内的因素是最次要因素。
利用上述方法，笔者对影响数据服务的因素进行了归类，并统计了各类不利因素累计出现的次数，并确定了其中最为常见的8类因素。

                                   图4：数据服务缺陷帕累托分析图
    3. 油田数据服务改进
    针对上述因素，笔者制定了由四部分组成的油田数据服务的改进方案。
    3.1 主库数据源集成部分
    “十一五”期间，A1项目在各个油田的成功实施，各油田均形成了地震、测井数据与勘探开发综合数据综合管理与服务的技术体系，数据管理的水平和能力均有了较大的提高。然而，多库与多模型共存的数据管理体系导致了库与库之间数据的交叉、重复存储，并且不同数据库之间的数据壁垒也直接导致了数据服务效率的提高。针对这一部分的问题，笔者建议通过对各油田各数据管理系统（如OpenWorks、PetroBank、Recall等）底层数据模型及数据管理机制的剖析，扩充并完善EPDM数据模型，实现以EPDM为核心的大块数据和其他数据的一体化管理，从而打通底层各数据管理系统之间的壁垒，为数据服务效率的提高奠定基础。
    3.2 数据服务平台部分
    随着多学科协同研究和勘探开发一体化管理的发展，专业人员对在单一访问界面下数据的综合查询、可视化浏览及批量下载的需求越来越高，原有的不同系统不同访问界面的方式难以满足用户的需要，数据应用的差距主要表现在：（1）单一访问界面中大块数据的查询、展示及下载功能；（2）面向区域的数据综合查询功能；（3）多数据源的数据三维可视化展示功能。
    针对这一部分的问题，笔者建议各油田通过对相应数据管理系统数据访问机制的剖析，开发基于集成后EPDM的各类数据访问适配器，从而实现主库数据的单一访问入口。以当前各油田常用的Recall测井数据管理系统为例，可通过对该系统jjUtil模块调用机制以及vrn配置文件语法规则的解析，利用shell脚本模拟实现Recall测井数据下载等功能，并用WebService将该脚本封装后提供其他系统调用，从而解决之前测井数据只能通过PE等系统访问的问题，实现测井数据与其他数据的单一访问入口。
    3.3 用户中间成果数据集成部分
    上述工作完成后，可在一个统一的数据服务平台上实现对存储在主库中各类数据的集成访问。然而对于用户来说，在项目研究过程中，除了要解决主库原始数据的收集外，还要解决中间成果数据在不同应用软件之间的数据传输问题。以2011年大庆油田勘探开发研究院地震解释二室某区块研究为例，该区块研究全年共经历数据传输30次，其中原始数据的传输11次，中间成果数据传输15次，成果数据传输4次。由此可见，中间成果数据的传输也应该是数据服务中的重要组成部分。针对这一问题，笔者建议，可通过对各应用软件底层数据模型及数据访问机制的剖析，开发中间成果数据访问适配器，从而实现对用户中间成果数据的实时访问，并在同一的数据服务平台上实现对专业人员项目开展全生命周期的数据支持。
    3.4 数据综合查询、展示、传输部分
   主库原始数据及用户中间成果数据访问适配器开发完成后，即形成了可支持专业人员项目开展全生命周期的数据源。如何对这些数据进行更友好的展示、更快捷的查询以及更高效的传输是数据服务人员所需解决的新的问题。针对这一问题，笔者建议可通过开发数据的三维展示模块对数据进行综合展示，尤其是对断层、层位等空间关系相对复杂的数据，更需要三维展示模块的开发以更好的对数据进行描述；在数据快速查询方面，笔者建议可利用Oracle的空间运算功能，实现对各类数据的综合查询；在数据传输方面，可通过对各数据应用系统数据加载机制及底层数据模型的剖析，实现数据的无缝传输，改变之前数据的下载-整理-上传-加载应用模式，提高数据的传输效率。
    4. 结论
    “十一五”期间，A1等项目的成功实施为“十二五”大力全面推进油田信息化建设奠定了基础。随着企业对自身的经营管理水平与业务执行效率的要求越来越高，“十二五”期间我们需要对大量异构的信息系统加以有效整合，提高系统间的数据交互、信息共享水平以及业务处理效率，从而增强信息系统对企业业务与管理的服务、支持能力。本文运用学习曲线进行影响数据服务效率的因素分析并针对其中的关键因素提出初步的解决方案。2011年大庆油田勘探开发研究院信息研究室对该方案进行了初步实现并应用于地震解释二室北三西区块项目研究的数据服务过程中，结果表明，该方案的实施可使专业人员项目研究整体效率提高8%左右，可为专业项目节省约20个工作日/年，有力的促进了油田主营业务的发展。
参考文献：
高凯,林传彬,冯宗凡.信息化建设中异构数据体的整合与集成模式.吐哈油气.2003年第8卷第4期.

上一篇：门诊就诊流程改造及应用效果

下一篇：MAP平台在构建运输生产运营一体化信息系统中的

基于学习曲线的油田数据服务分析

热门论文

热门推荐

推荐问答