内插（或外推）pandas数据框中的小间隙

因此，这里有一个面具可以解决这个问题。只需interpolate然后应用蒙版将适当的值重置为NaN。老实说，这比我意识到的工作要多得多，因为我不得不遍历每列，但是如果没有我提供一些像“ ones”这样的虚拟列，groupby就无法工作。

无论如何，我可以解释是否有任何不清楚的地方，但实际上只有几行很难理解。有关更多信息，请参此处，以获取更多有关该技巧的解释，df['new']或者仅打印出单独的一行以更好地了解发生了什么。

mask = data.copy()
for i in list('abcdefgh'):
    df = pd.DataFrame( data[i] )
    df['new'] = ((df.notnull() != df.shift().notnull()).cumsum())
    df['ones'] = 1
    mask[i] = (df.groupby('new')['ones'].transform('count') < 5) | data[i].notnull()

In [7]: data
Out[7]: 
                         a      b      c   d       e       f       g       h
2014-02-21 14:50:00  123.5  433.5  123.5 NaN     NaN     NaN  2330.3  2330.3
2014-02-21 14:51:00    NaN  523.2  132.3 NaN     NaN     NaN     NaN     NaN
2014-02-21 14:52:00  136.3  536.3  136.3 NaN     NaN     NaN     NaN     NaN
2014-02-21 14:53:00  164.3  464.3  164.3 NaN     NaN     NaN     NaN     NaN
2014-02-21 14:54:00  213.0  413.0    NaN NaN     NaN  2763.0     NaN     NaN
2014-02-21 14:55:00  164.3  164.3    NaN NaN     NaN  2142.3     NaN     NaN
2014-02-21 14:56:00  213.0  213.0    NaN NaN     NaN  2127.3     NaN     NaN
2014-02-21 14:57:00  221.1  221.1    NaN NaN  2330.3  2330.3     NaN  2777.7

In [8]: mask
Out[8]: 
                        a     b     c      d      e     f      g      h
2014-02-21 14:50:00  True  True  True  False  False  True   True   True
2014-02-21 14:51:00  True  True  True  False  False  True  False  False
2014-02-21 14:52:00  True  True  True  False  False  True  False  False
2014-02-21 14:53:00  True  True  True  False  False  True  False  False
2014-02-21 14:54:00  True  True  True  False  False  True  False  False
2014-02-21 14:55:00  True  True  True  False  False  True  False  False
2014-02-21 14:56:00  True  True  True  False  False  True  False  False
2014-02-21 14:57:00  True  True  True  False   True  True  False   True

如果您对推断没有任何幻想，那么从那里开始很容易：

In [9]: data.interpolate().bfill()[mask]
Out[9]: 
                         a      b      c   d       e       f       g       h
2014-02-21 14:50:00  123.5  433.5  123.5 NaN     NaN  2763.0  2330.3  2330.3
2014-02-21 14:51:00  129.9  523.2  132.3 NaN     NaN  2763.0     NaN     NaN
2014-02-21 14:52:00  136.3  536.3  136.3 NaN     NaN  2763.0     NaN     NaN
2014-02-21 14:53:00  164.3  464.3  164.3 NaN     NaN  2763.0     NaN     NaN
2014-02-21 14:54:00  213.0  413.0  164.3 NaN     NaN  2763.0     NaN     NaN
2014-02-21 14:55:00  164.3  164.3  164.3 NaN     NaN  2142.3     NaN     NaN
2014-02-21 14:56:00  213.0  213.0  164.3 NaN     NaN  2127.3     NaN     NaN
2014-02-21 14:57:00  221.1  221.1  164.3 NaN  2330.3  2330.3     NaN  2777.7

通过将一些内容移出循环，这是一种更快的方法（此示例数据的大约两倍），并且稍微简单一些：

mask = data.copy()
grp = ((mask.notnull() != mask.shift().notnull()).cumsum())
grp['ones'] = 1
for i in list('abcdefgh'):
    mask[i] = (grp.groupby(i)['ones'].transform('count') < 5) | data[i].notnull()

其他 2022/1/1 18:51:00 有556人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

内插（或外推）pandas数据框中的小间隙

撰写回答

推荐问题

在元素内插入一个有角度的js模板字符串

在textarea的占位符属性内插入换行符？

MySQL在给定的日期时间范围内插入随机的日期时间

快速内插网格数据

在pandas表内插入链接

Python会内插字符串吗？

在numpy数组中内插NaN值

从查询表内插数据

Python字符串内插实现

内插（或外推）pandas数据框中的小间隙

如何应用通过jQuery动态加载的内联和/或外部CSS

Pyinstaller无法识别为内部或外部命令

在命令提示符下，PHP不被识别为内部或外部命令

Flutter-更改内部或外部setState的变量？

无法将“ php.exe”识别为内部或外部命令，可操作程序或批处理文件

'pip'不被识别为内部或外部命令

tsc无法识别为内部或外部命令

无法将“ Java”识别为内部或外部命令

javac不被识别为内部或外部命令，可操作程序或批处理文件

Python-“pip”不能识别为内部或外部命令

pyrouge：无法将“ pyrouge_set_rouge_path”识别为内部或外部命令

无法将“ Conda”识别为内部或外部命令

创建新环境后，Conda无法识别为内部或外部

无法将“ python”识别为内部或外部命令

python不被识别为内部或外部命令

内插（或外推）pandas数据框中的小间隙

分类汇总

您的鼓励是对我最大的支持