将时间序列pySpark数据帧拆分为测试和训练，而无需使用随机拆分

您可以pyspark.sql.functions.percent_rank()用来获取按时间戳/日期列排序的DataFrame的百分位排名。然后选择所有列rank <= 0.8作为训练集，其余作为测试集。

例如，如果您具有以下DataFrame：

df.show(truncate=False)
#+---------------------+---+
#|date                 |x  |
#+---------------------+---+
#|2018-01-01 00:00:00.0|0  |
#|2018-01-02 00:00:00.0|1  |
#|2018-01-03 00:00:00.0|2  |
#|2018-01-04 00:00:00.0|3  |
#|2018-01-05 00:00:00.0|4  |
#+---------------------+---+

您需要训练集中的前4行和训练集中的最后一行。首先添加一列rank：

from pyspark.sql.functions import percent_rank
from pyspark.sql import Window

df = df.withColumn("rank", percent_rank().over(Window.partitionBy().orderBy("date")))

现在使用rank将数据拆分为train和test：

train_df = df.where("rank <= .8").drop("rank")
train_df.show()
#+---------------------+---+
#|date                 |x  |
#+---------------------+---+
#|2018-01-01 00:00:00.0|0  |
#|2018-01-02 00:00:00.0|1  |
#|2018-01-03 00:00:00.0|2  |
#|2018-01-04 00:00:00.0|3  |
#+---------------------+---+

test_df = df.where("rank > .8").drop("rank")
test_df.show()
#+---------------------+---+
#|date                 |x  |
#+---------------------+---+
#|2018-01-05 00:00:00.0|4  |
#+---------------------+---+

其他 2022/1/1 18:25:33 有482人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

在Elasticsearch中，如何将时区应用于脚本化日期操作？

在Elasticsearch中，如何将时区应用于脚本化日期操作？

其他 2022-01-01 974
如何使elasticsearch将时间戳字段添加到所有索引中的每个文档？

如何使elasticsearch将时间戳字段添加到所有索引中的每个文档？

其他 2022-01-01 487
从Java用户输入中将时间解析为Date对象的最佳方法是什么？

从Java用户输入中将时间解析为Date对象的最佳方法是什么？

java 2022-01-01 474
Linux将时间（用于不同时区）转换为UTC

Linux将时间（用于不同时区）转换为UTC

其他 2022-01-01 440
将时间序列存储在Redis中

将时间序列存储在Redis中

其他 2022-01-01 532
如何将时间四舍五入到最接近的X分钟？

如何将时间四舍五入到最接近的X分钟？

其他 2022-01-01 602
在Python中将时区感知日期时间转换为本地时间

在Python中将时区感知日期时间转换为本地时间

python 2022-01-01 521
如何将时间四舍五入到最近的15分钟

如何将时间四舍五入到最近的15分钟

其他 2022-01-01 641
将时间序列pySpark数据帧拆分为测试和训练，而无需使用随机拆分

将时间序列pySpark数据帧拆分为测试和训练，而无需使用随机拆分

其他 2022-01-01 482
将时区转换为3个字符的ZoneId

将时区转换为3个字符的ZoneId

其他 2022-01-01 516
如何将时间从java.util.Date存储到java.sql.Date

如何将时间从java.util.Date存储到java.sql.Date

SQLServer 2022-01-01 490
将时序数据馈入有状态LSTM的正确方法？

将时序数据馈入有状态LSTM的正确方法？

其他 2022-01-01 544
SQL-将时间序列事件转换为开/关对（处理可能缺少的“开”或“关”）

SQL-将时间序列事件转换为开/关对（处理可能缺少的“开”或“关”）

SQLServer 2022-01-01 657
将时间量转换为天，小时和分钟

将时间量转换为天，小时和分钟

其他 2022-01-01 516
Python：如何在不知道DST是否生效的情况下将时区感知时间戳转换为UTC

Python：如何在不知道DST是否生效的情况下将时区感知时间戳转换为UTC

python 2022-01-01 503
pandas：将时间戳转换为datetime.date

pandas：将时间戳转换为datetime.date

其他 2022-01-01 519
查询期间将时间戳转换为可读日期

查询期间将时间戳转换为可读日期

其他 2022-01-01 483
如何在Python中将时间格式转换为毫秒并返回？

如何在Python中将时间格式转换为毫秒并返回？

python 2022-01-01 430
将时间字符串转换为 [m | h | d | s | w]在Python中为秒

将时间字符串转换为 [m | h | d | s | w]在Python中为秒

python 2022-01-01 479
如何在查询期间将时间转换为本地时区中的日期

如何在查询期间将时间转换为本地时区中的日期

其他 2022-01-01 718

将时间序列pySpark数据帧拆分为测试和训练，而无需使用随机拆分

撰写回答

推荐问题

在Elasticsearch中，如何将时区应用于脚本化日期操作？

如何使elasticsearch将时间戳字段添加到所有索引中的每个文档？

从Java用户输入中将时间解析为Date对象的最佳方法是什么？

Linux将时间（用于不同时区）转换为UTC

将时间序列存储在Redis中

如何将时间四舍五入到最接近的X分钟？

在Python中将时区感知日期时间转换为本地时间

如何将时间四舍五入到最近的15分钟

将时间序列pySpark数据帧拆分为测试和训练，而无需使用随机拆分

将时区转换为3个字符的ZoneId

如何将时间从java.util.Date存储到java.sql.Date

将时序数据馈入有状态LSTM的正确方法？

SQL-将时间序列事件转换为开/关对（处理可能缺少的“开”或“关”）

将时间量转换为天，小时和分钟

Python：如何在不知道DST是否生效的情况下将时区感知时间戳转换为UTC

pandas：将时间戳转换为datetime.date

查询期间将时间戳转换为可读日期

如何在Python中将时间格式转换为毫秒并返回？

将时间字符串转换为 [m | h | d | s | w]在Python中为秒

如何在查询期间将时间转换为本地时区中的日期

分类汇总

您的鼓励是对我最大的支持