对于第一个问题:float16
典型处理器(至少在GPU外部)不支持硬件。NumPy完全按照您的建议进行float16
操作:将操作数转换为float32
,对float32
值执行标量运算,然后将float32
结果四舍五入到float16
。可以证明结果仍然是正确的四舍五入:的精度float32
足够大(相对于的精度float16
),因此在这里至少考虑了四个基本算术运算和平方根的情况下,双精度舍入不是问题。
在当前的NumPy源码中,这就是float16
标量运算的四个基本算术运算的定义。
#define half_ctype_add(a, b, outp) *(outp) = \
npy_float_to_half(npy_half_to_float(a) + npy_half_to_float(b))
#define half_ctype_subtract(a, b, outp) *(outp) = \
npy_float_to_half(npy_half_to_float(a) - npy_half_to_float(b))
#define half_ctype_multiply(a, b, outp) *(outp) = \
npy_float_to_half(npy_half_to_float(a) * npy_half_to_float(b))
#define half_ctype_divide(a, b, outp) *(outp) = \
npy_float_to_half(npy_half_to_float(a) / npy_half_to_float(b))
上面的代码来自NumPy源码中的scalarmath.c.src。您也可以在loops.c.src中查看数组ufuncs的相应代码。支撑npy_half_to_float
和npy_float_to_half
功能在halffloat.c中定义,以及该float16
类型的各种其他支撑功能。
对于第二个问题:不,float8
NumPy中没有类型。float16
是一种标准类型(在IEEE 754标准中进行了描述),在某些情况下(尤其是GPU)已经广泛使用。没有IEEE 754float8
类型,并且似乎没有明显的“标准”float8
类型候选对象。我还猜想float8
NumPy中对支持的需求并没有那么多。