您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python – apache_beam.transforms.util.Reshuffle()不适用于GCP Dataflow

5b51 2022/1/14 8:21:35 python 字数 2430 阅读 514 来源 www.jb51.cc/python

我已经通过pip install升级到最新的apache_beam [gcp]包--upgrade apache_beam [gcp].但是,我注意到Reshuffle()没有出现在[gcp]发行版中.这是否意味着我将无法在任何数据流管道中使用Reshuffle()?有没有办法解决?或者pip包可能不是最新的,如果Reshuffle()在github上是ma

概述

我已经通过pip install升级到最新的apache_beam [gcp]包–upgrade apache_beam [gcp].但是,我注意到Reshuffle()没有出现在[gcp]发行版中.这是否意味着我将无法在任何数据流管道中使用Reshuffle()?有没有办法解决?或者pip包可能不是最新的,如果Reshuffle()在github上是master,那么它将在数据流上可用吗?

基于对此question的响应,我试图从BigQuery读取数据,然后在将数据写入GCP存储桶中的CSV之前随机化数据.我注意到我用来训练我的GCMLE模型的分片.csv并不是真正随机的.在tensorflow中,我可以随机化批处理,但这只会随机化队列中构建的每个文件中的行,我的问题是当前生成文件在某种程度上存在偏差.如果在数据流中写入CSV之前有任何关于其他方式进行随机播放的建议,那将非常感激.

import random

shuffled_data = (unshuffled_pcoll
        | 'AddRandomKeys' >> Map(lambda t: (random.getrandbits(32),t))
        | 'GroupByKey' >> GroupByKey()
        | 'RemoveRandomKeys' >> FlatMap(lambda t: t[1]))

我剩下的问题是,如果我需要担心code的窗口或ExpandIterable部分

总结

以上是编程之家为你收集整理的python – apache_beam.transforms.util.Reshuffle()不适用于GCP Dataflow全部内容,希望文章能够帮你解决python – apache_beam.transforms.util.Reshuffle()不适用于GCP Dataflow所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶