:
话虽这么说,Spark生态系统中确实存在某些形式的索引结构。最值得注意的是,Databricks在其平台上提供了数据跳过索引。
其他项目,例如Succinct(今天大多处于非活动状态)采用不同的方法,并使用具有随机访问支持的高级压缩技术。
当然,这提出了一个问题-如果您需要有效的随机访问,为什么不从一开始就使用被设计为数据库的系统。那里有很多选择,包括至少一些由Apache Foundation维护的选择。同时,随着项目的发展,Spark也随之发展,并且您使用的报价可能无法完全反映未来的Spark方向。