大数据 -- Workflow设计模式

工作流系统

将由多个不同的处理模块连接在一起,最后得到一个有向无环图(DAG),称为一个工作流系统(Workflow System)

复制模式 – Copier Pattern

  1. 将单个数据处理模块中的数据,完整地复制到两个或更多的数据处理模块中,然后再由不同的数据处理模块进行处理
  2. 应用场景:需要对同一个数据集采取多种不同的数据处理转换
  3. 样例:Youtube处理视频
    • 依据带宽提供不同分辨率的视频
    • 生成视频的动画缩略图
    • 利用NLP技术分析视频的数据集,自动生成视频字幕
    • 分析视频内容,产生更好的内容推荐
  4. 每个数据处理模块的输入都是相同的,每个数据处理模块可以单独且同时运行处理

过滤模式 – Filter Pattern

  1. 过滤模式:过滤掉不符合特定条件的数据
  2. 应用场景:需要针对一个数据集中某些特定的数据采用数据处理
  3. 样例:电商会员系统
    • 根据用户特征,将用户划分为五星会员(Five Star)、金牌会员(Golden)、钻石会员(Diamond)
    • 通过邮件,针对钻石会员发出活动邀请

分离模式 – Splitter Pattern

  1. 应用场景:处理数据集时,把数据分类成不同的类别分别进行处理
  2. 分离模式不会过滤任何数据,只是将原来的数据集分组
  3. 样例:电商会员系统
    • 通过邮件,针对全部会员发送符合他们身份的活动邀请

合并模式 – Joiner Pattern

合并模式:将多个不同的数据集转换集中到一起,成为一个总数据集,然后将这个总数据集放在一个工作流中进行处理

0%