Luigi:批量作业管理可视化的“黑科技” - 技术教程

你有没有这样的经历，跑 Hadoop 任务还得自己手动串依赖，崩溃到想敲墙？别急，给你安利一个神器——Spotify 出品的 Luigi 。它帮你优雅地管理批量任务流水线，从依赖分析到可视化，一条龙服务，再也不怕任务撞车、半途宕机。

Luigi 是什么
简单说，Luigi 是个 Python 包（支持 3.8~3.12），专门用来构建和管理「一堆要按顺序跑的任务」。每个任务可以是：

它把任务看成节点，自动分析前后依赖，顺序跑，失败还能重试。最重要的是，它不替代 Hive/Pig/Spark，而是帮你把它们串起来。

核心功能

它解决了哪些痛点

1. 链式任务多，写个脚本就像打地鼠，随时漏依赖。
2. Hadoop/Spark 作业管理不透明，失败了也不知道哪环节掐住。
3. 分布式文件操作不原子，数据半路丢失。
4. 缺少统一监控界面，跑了几百个任务，根本看不清进度。

用 Luigi，你只需关注「每个任务该干啥」，剩下的由它自动调度。

快速上手

pip install luigi
# 或者带 TOML 支持
pip install luigi

# 开发中想用最新代码

举个例子，写个简单任务并串联：

import luigi

class TaskA(luigi.Task):
  def output(self):
    return luigi.LocalTarget('a.txt')
  def run(self):
    with self.output().open('w')as f:
      f.write('Hello')

class TaskB(luigi.Task):
  def requires(self):
    return TaskA()
  def output(self):
    return luigi.LocalTarget('b.txt')
  def run(self):
    with self.input().open()as fin, self.output().open('w')as fout:
      fout.write(fin.read()+' World')

if __name__ =='__main__':
  luigi.run(['TaskB','--local-scheduler'])

一条命令，自动跑完 A 再跑 B，DAG 自动解析，结束还给你个可爱的小图。

优缺点对比表

优点	缺点
DAG 自动依赖解析	Python 为主，其他语言整合稍麻烦
内置可视化 Web 界面	对超实时任务（秒级）场景支持不足
支持 HDFS/S3 原子操作	入门有学习成本，要理解 Task/Target 概念
灵活扩展插件生态	默认调度没集群版，生产常配合 Kubernetes/YARN
失败自动重试，日志清晰	调度性能对数千任务以上场景有瓶颈

小结
总的来说，Luigi 是个面向批量数据流水线的全能「黏合剂」，把各种任务、各种引擎无缝串起来，还给你可视化、重试、原子操作这些护体技能。适合：

如果你还在用纯 shell 脚本或手动管依赖，强烈建议试试。虽然学起来有点门槛，但一旦上手，就能让你省下无数排队、调度、排查的螺丝钉时间。