科创中国●保定云
首页
需求大厅
成果大厅
科技服务团
专家人才
品牌活动
技术转移
科技普及
科创视野
关于我们
数据中心

一种基于映射归约的分布式数据处理方法

  • 发布时间: 2024-04-08
预算 双方协商
基本信息
成果方:合肥工业大学
合作方式:技术转让
成果类型:发明专利,
行业领域
电子信息技术
成果描述

本发明公开了一种基于映射归约的分布式数据处理方法,其步骤包括:1、对磁盘中的数据进行分片处理,2、在所设置的缓冲区内部,对第一步的处理结果再次进行数据处理,3、通过循环处理,对来自不同磁盘的数据进行规约。本发明通过对磁盘进行分片处理,对磁盘内部数据进行两次排序与合并,从而使得磁盘内部的数据通过映射规约能够有序地排列,高效查询,进而能够降低大规模数据处理时的工作量,提升运行效率。

应用范围

采用集中数据处理的传统数据处理模式中,来自所有终端的计算都由主机完成,这类网络处理速度可能有些慢。另外,如果用户有各种不同的需要,在集中式计算机网络上满足这些需要可能是十分困难的,因为每个用户的应用程序和资源都必须单独设置,而让这些应用程序和资源都在同一台集中式计算机上操作,使得系统效率不高。还有,因为所有用户都必须连接到一台中央计算机,集中连接可能成为集中式网络的一个大问题。集中式数据处理是基于一个大型的中央计算机,所有的数据、运算、处理任务全部在中央计算机系统上完成。中央计算机连接多个终端,终端用来输入和输出,不具有数据处理能力。远程终端通过网络连接到中央计算机,它们得到的信息是一致的。如果终端用户有不同的需要,要对每个用户的程序和资源做单独的配置,在集中式数据处理模式上做起来比较困难,而且效率不高。

传统的分布式数据处理虽然可以避免集中式处理的大部分问题,但是由于自身数据处理的特性,越是处理大规模的数据,对计算机硬件要求就越高。目前真正的电子病历数据还是存储在医疗机构本地的数据库中,现在的病历系统只是一个数据查询系统,无法满足不同医疗机构之间的数据处理问题。


前景分析

与现有技术相比,本发明的有益效果在于:

1、本发明通过设置缓冲区,规定缓冲区溢写比,实时对缓冲区内部进行监控,一旦达到溢写比就进行写入,保证缓冲区始终能够以一个较为高效的状态进行数据处理,通过将处理过的数据生成临时文件再次写入磁盘,降低了磁盘容量消耗,确保中间过渡的数据处理不会造成较大的额外存储消耗。

2、本发明通过对各个磁盘按照各自磁盘大小进行分片处理,定期对分片内部数据处理情况查询,确保能够较为高效地利用系统的处理性能,避免了空闲状态的浪费。

3、本发明通过对磁盘数据的两次排序合并,将存储在不同磁盘的同一病人病历高效地整合起来,降低了具体查询时的工作量,提高了系统性能,通过设置规约任务集合,在数据处理时提前写入对应规约任务,简化了病人病历处理的过程,确保了病人病历能够被高效精准地并行处理,减少了工作量,降低了系统负荷。


联系方式

  • 联系人:

    李磊

  • 联系电话:

    17332257308

  • 通讯地址:

    安徽省合肥市蜀山区丹霞路485号

请填写以下信息

  • *

    联系人:

  • *

    手机号:

  • *

    单位名称:

  •  备注:

  • 取消 确定