在担心多个内核之前,我将通过使用字典来消除ismember函数中的线性扫描:
def ismember(a, b):
bind = {}
for i, elt in enumerate(b):
if elt not in bind:
bind[elt] = i
return [bind.get(itm, None) for itm in a] # None can be replaced by any other "not in b" value
您最初的实现需要对B中的元素对A中的每个元素进行全面扫描,使其成为O(len(A)*len(B))
。上面的代码需要对B进行一次完整扫描,以生成dict Bset。通过使用dict,您可以有效地使A中每个元素的B中每个元素的查找常量保持不变,从而使操作成为可能O(len(A)+len(B))
。如果仍然太慢,则担心使上述功能在多个内核上运行。
编辑:我也稍微修改了您的索引。Matlab使用0,因为其所有数组都从索引1开始。Python / numpy从0开始的数组,所以如果您是数据集,则如下所示
A = [2378, 2378, 2378, 2378]
B = [2378, 2379]
并且没有元素返回0,那么您的结果将排除A的所有元素。上面的例程返回None
没有索引而不是0。返回-1是一个选项,但是Python会将其解释为数组中的最后一个元素。None
如果将其用作数组的索引,将引发异常。如果您想要不同的行为,请将Bind.get(item,None)
表达式中的第二个参数更改为要返回的值。