elasticsearch-按百分比筛选

我怀疑如果a事先不知道的确切值，是否可以在一个查询中执行此操作，尽管我认为一种非常有效的方法是可行的。

我建议做一个 percentiles聚合作为第一查询和第二range查询。

在我的样本索引中，我只有14个文档，因此出于说明性原因，我将尝试查找那些占字段30％到60％的文档，a并按b相反的顺序对它们进行排序（以确保排序有效）。

这是我插入的文档：

{"a":1,"b":101}
{"a":5,"b":105}
{"a":10,"b":110}
{"a":2,"b":102}
{"a":6,"b":106}
{"a":7,"b":107}
{"a":9,"b":109}
{"a":4,"b":104}
{"a":8,"b":108}
{"a":12,"b":256}
{"a":13,"b":230}
{"a":14,"b":215}
{"a":3,"b":103}
{"a":11,"b":205}

让我们找出a介于30％和60％百分位数之间的字段边界：

POST my_percent/doc/_search
{
    "size": 0,
    "aggs" : {
        "percentiles" : {
            "percentiles" : {
                "field" : "a",
                "percents": [ 30, 60, 90 ]
            }
        }
    }
}

用我的样本索引看起来像这样：

{
...
  "hits": {
    "total": 14,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "percentiles": {
      "values": {
        "30.0": 4.9,
        "60.0": 8.8,
        "90.0": 12.700000000000001
      }
    }
  }
}

现在我们可以使用边界进行range查询：

POST my_percent/doc/_search
{
    "query": {
      "range": {
            "a" : {
                "gte" : 4.9,
                "lte" : 8.8
            }
        }
    },
    "sort": {
      "b": "desc"
    }
}

结果是：

{
  "took": 5,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "Failed": 0
  },
  "hits": {
    "total": 4,
    "max_score": null,
    "hits": [
      {
        "_index": "my_percent",
        "_type": "doc",
        "_id": "vkFvYGMB_zM1P5OLcYkS",
        "_score": null,
        "_source": {
          "a": 8,
          "b": 108
        },
        "sort": [
          108
        ]
      },
      {
        "_index": "my_percent",
        "_type": "doc",
        "_id": "vUFvYGMB_zM1P5OLWYkM",
        "_score": null,
        "_source": {
          "a": 7,
          "b": 107
        },
        "sort": [
          107
        ]
      },
      {
        "_index": "my_percent",
        "_type": "doc",
        "_id": "vEFvYGMB_zM1P5OLRok1",
        "_score": null,
        "_source": {
          "a": 6,
          "b": 106
        },
        "sort": [
          106
        ]
      },
      {
        "_index": "my_percent",
        "_type": "doc",
        "_id": "u0FvYGMB_zM1P5OLJImy",
        "_score": null,
        "_source": {
          "a": 5,
          "b": 105
        },
        "sort": [
          105
        ]
      }
    ]
  }
}

注意percentiles聚合的结果是近似的。

通常，这看起来像是通过熊猫或Spark作业可以更好地解决的任务。

希望有帮助！

其他 2022/1/1 18:19:15 有609人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

elasticsearch-按百分比筛选

撰写回答

推荐问题

ESLint-组件应被编写为纯函数（react preferred / stateless function）

在JavaScript中删除数组元素-Delete与Splice

无法在Ubuntu上将ElasticSearch作为服务运行

如何提高Elasticsearch函数得分的字段长度范数？

Laravel 5：通过数据透视同步额外的字段

我如何重新连接使用selenium的webdriver打开的浏览器？

elasticsearch-返回字段的标记

{{}}和{!!有什么区别？!!}在laravel刀片文件中？

什么是selenium，什么是WebDriver？

尝试使用selenium和python登录网页时出错

在移动设备上进行selenium测试值得吗？

无法检查Expect（elm）.not.toBeVisible（）的语义UI反应组件

在服务器上运行selenium浏览器（Flask / Python / Heroku）

Langford序列实现Haskell或C

如何在Laravel中使用多个数据库

Spring Boot和Thymeleaf-再次热插拔模板和资源

如何从javascript中的Razor Model对象获取JSON对象

elasticsearch滚动行为

从Nest客户端elasticsearch2.3序列化查询

elasticsearch-Ubuntu-拒绝连接

分类汇总

您的鼓励是对我最大的支持