Google Cloud Dataflow Python，检索作业ID

您可以通过dataflow.projects().locations().jobs().list在管道中进行调用来实现（请参见下面的完整代码）。一种可能性是始终使用相同的作业名称来调用模板，这很有意义，否则可以将作业前缀作为运行时参数传递。使用正则表达式解析作业列表，以查看该作业是否包含名称前缀，如果包含名称前缀，则返回该作业ID。如果有多个，它将??仅返回最新的一个（当前正在运行的一个）。

在定义PROJECT和BUCKET变量之后，使用以下命令暂存该模板：

python script.py \
    --runner DataflowRunner \
    --project $PROJECT \
    --staging_location gs://$BUCKET/staging \
    --temp_location gs://$BUCKET/temp \
    --template_location gs://$BUCKET/templates/retrieve_job_id

然后，myjobprefix在执行模板化作业时指定所需的作业名称（在我的情况下）：

gcloud dataflow jobs run myjobprefix \
   --gcs-location gs://$BUCKET/templates/retrieve_job_id

该retrieve_job_id函数将从作业中返回作业ID，将更job_prefix改为与给定名称匹配。

import argparse, logging, re
from googleapiclient.discovery import build
from oauth2client.client import GoogleCredentials
import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions
from apache_beam.options.pipeline_options import SetupOptions


def retrieve_job_id(element):
  project = 'PROJECT_ID'
  job_prefix = "myjobprefix"
  location = 'us-central1'

  logging.info("Looking for jobs with prefix {} in region {}...".format(job_prefix, location))

  try:
    credentials = GoogleCredentials.get_application_default()
    dataflow = build('dataflow', 'v1b3', credentials=credentials)

    result = dataflow.projects().locations().jobs().list(
      projectId=project,
      location=location,
    ).execute()

    job_id = "none"

    for job in result['jobs']:
      if re.findall(r'' + re.escape(job_prefix) + '', job['name']):
        job_id = job['id']
        break

    logging.info("Job ID: {}".format(job_id))
    return job_id

  except Exception as e:
    logging.info("Error retrieving Job ID")
    raise KeyError(e)


def run(argv=None):
  parser = argparse.ArgumentParser()
  kNown_args, pipeline_args = parser.parse_kNown_args(argv)

  pipeline_options = PipelineOptions(pipeline_args)
  pipeline_options.view_as(SetupOptions).save_main_session = True

  p = beam.Pipeline(options=pipeline_options)

  init_data = (p
               | 'Start' >> beam.Create(["Init pipeline"])
               | 'Retrieve Job ID' >> beam.FlatMap(retrieve_job_id))

  p.run()


if __name__ == '__main__':
  run()

python 2022/1/1 18:35:33 有231人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

Google Cloud Dataflow Python，检索作业ID

撰写回答

推荐问题

Django-如何使用South重命名模型字段？

Go中的可选参数？

Mongodb，查找集合是否为空，node.js

mgo中的Golang Bson排序参数

Golang文件上传：如果文件太大，则关闭连接

增加此简单的go gui应用程序的默认字体大小

服务应用程序和Google Analytics API V3：服务器到服务器的OAuth2身份验证？

在golang中解析日期

如何使用Golang在SQL中执行IN查找？

具有内联模型形式或表单集的基于django的类的视图

如何用go创建xml的CDATA节点？

Spring数据mongodb：自动装配时找不到mongodb存储库

MongoDB和Mongoose之间的区别

Selenium Webdriver单击Google搜索

使用mgo和mongodb的I / O超时

如何在Golang中执行简单的Windows命令？

Django Shell没有名为设置的模块

覆盖Django管理中的默认查询集

如何获取脱机令牌和刷新令牌以及自动刷新对Google API的访问

在上下文中使用mgo

分类汇总

您的鼓励是对我最大的支持