在熊猫Intervalindex中查找匹配间隔

如果您对性能感兴趣，可以对IntervalIndex进行优化以进行搜索。使用.get_loc或.get_indexer使用内部构建的IntervalTree（如二叉树），该树是在首次使用时构造的。

In [29]: idx = pd.IntervalIndex.from_tuples(data*10000)

In [30]: %timeit -n 1 -r 1 idx.map(lambda x: 900 in x)
92.8 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

In [40]: %timeit -n 1 -r 1 idx.map(lambda x: 900 in x)
42.7 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

# construct tree and search
In [31]: %timeit -n 1 -r 1 idx.get_loc(900)
4.55 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

# subsequently
In [32]: %timeit -n 1 -r 1 idx.get_loc(900)
137 µs ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

# for a single indexer you can do even better (note that this is
# dipping into the impl a bit
In [27]: %timeit np.arange(len(idx))[(900 > idx.left) & (900 <= idx.right)]
203 µs ± 1.55 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

请注意，.get_loc（）返回一个索引器（实际上比布尔数组有用，但它们可以相互转换）。

In [38]: idx.map(lambda x: 900 in x)
    ...: 
Out[38]: 
Index([ True, False, False,  True, False, False,  True, False, False,  True,
       ...
       False,  True, False, False,  True, False, False,  True, False, False], dtype='object', length=30000)

In [39]: idx.get_loc(900)
    ...: 
Out[39]: array([29997,  9987, 10008, ..., 19992, 19989,     0])

返回布尔数组将转换为索引器数组

In [5]: np.arange(len(idx))[idx.map(lambda x: 900 in x).values.astype(bool)]
Out[5]: array([    0,     3,     6, ..., 29991, 29994, 29997])

这是.get_loc（）和.get_indexer（）返回的内容：

In [6]: np.sort(idx.get_loc(900))
Out[6]: array([    0,     3,     6, ..., 29991, 29994, 29997])

其他 2022/1/1 18:32:41 有608人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Python-使用pd.eval（）在熊猫中进行动态表达评估

Python-使用pd.eval（）在熊猫中进行动态表达评估

python 2022-01-01 717
df.reindex（）和df.set_index（）方法在熊猫中的区别

df.reindex（）和df.set_index（）方法在熊猫中的区别

其他 2022-01-01 599
在熊猫中，.iloc方法是否提供副本或视图？

在熊猫中，.iloc方法是否提供副本或视图？

其他 2022-01-01 632
在熊猫的DataFrame上插值

在熊猫的DataFrame上插值

其他 2022-01-01 647
在熊猫中使用read_csv时精度下降

在熊猫中使用read_csv时精度下降

其他 2022-01-01 620
如何在熊猫数据框上将NLTK word_tokenize库应用于Twitter数据？

如何在熊猫数据框上将NLTK word_tokenize库应用于Twitter数据？

其他 2022-01-01 656
像asof一样的KDB +可以在熊猫中加入时间序列数据吗？

像asof一样的KDB +可以在熊猫中加入时间序列数据吗？

其他 2022-01-01 612
替换所有在熊猫数据框中出现的字符串（Python）

替换所有在熊猫数据框中出现的字符串（Python）

python 2022-01-01 576
在熊猫Intervalindex中查找匹配间隔

在熊猫Intervalindex中查找匹配间隔

其他 2022-01-01 608
如何在熊猫中读取带有空格分隔值的文件

如何在熊猫中读取带有空格分隔值的文件

其他 2022-01-01 514
df.head（）有时在熊猫，Python中不起作用

df.head（）有时在熊猫，Python中不起作用

python 2022-01-01 607
根据在熊猫中包含特定字符串的列名称选择列

根据在熊猫中包含特定字符串的列名称选择列

其他 2022-01-01 594
在熊猫数据帧上的向量化查找

在熊猫数据帧上的向量化查找

其他 2022-01-01 577
如何在熊猫中使用基于DataFrame布尔值的条件语句

如何在熊猫中使用基于DataFrame布尔值的条件语句

其他 2022-01-01 670
在熊猫分组之后对每个组进行采样

在熊猫分组之后对每个组进行采样

其他 2022-01-01 594
在熊猫中，如何将日期字符串转换为日期时间对象并将其放入DataFrame中？

在熊猫中，如何将日期字符串转换为日期时间对象并将其放入DataFrame中？

其他 2022-01-01 608
OSError：从文件初始化在熊猫中的csv上失败

OSError：从文件初始化在熊猫中的csv上失败

其他 2022-01-01 625
避免pd.to_datetime在熊猫中出现错误

避免pd.to_datetime在熊猫中出现错误

其他 2022-01-01 651
在熊猫DataFrame中左对齐字符串值

在熊猫DataFrame中左对齐字符串值

其他 2022-01-01 611
如何使用布尔掩码在熊猫DataFrame中用nan替换“任何字符串”？

如何使用布尔掩码在熊猫DataFrame中用nan替换“任何字符串”？

其他 2022-01-01 599

在熊猫Intervalindex中查找匹配间隔

撰写回答

推荐问题

Python-使用pd.eval（）在熊猫中进行动态表达评估

df.reindex（）和df.set_index（）方法在熊猫中的区别

在熊猫中，.iloc方法是否提供副本或视图？

在熊猫的DataFrame上插值

在熊猫中使用read_csv时精度下降

如何在熊猫数据框上将NLTK word_tokenize库应用于Twitter数据？

像asof一样的KDB +可以在熊猫中加入时间序列数据吗？

替换所有在熊猫数据框中出现的字符串（Python）

在熊猫Intervalindex中查找匹配间隔

如何在熊猫中读取带有空格分隔值的文件

df.head（）有时在熊猫，Python中不起作用

根据在熊猫中包含特定字符串的列名称选择列

在熊猫数据帧上的向量化查找

如何在熊猫中使用基于DataFrame布尔值的条件语句

在熊猫分组之后对每个组进行采样

在熊猫中，如何将日期字符串转换为日期时间对象并将其放入DataFrame中？

OSError：从文件初始化在熊猫中的csv上失败

避免pd.to_datetime在熊猫中出现错误

在熊猫DataFrame中左对齐字符串值

如何使用布尔掩码在熊猫DataFrame中用nan替换“任何字符串”？

分类汇总

您的鼓励是对我最大的支持