Query DSL的分类
Elasticsearch提供了基于JSON的DSL(Domain Specific Language)来定义查询。常见的查询类型包括:
- 查询所有:查询出所有的数据,一般测试用,例如:match_all,但有分页限制,一次20条左右
- 全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。常见的有两种
- match_query
- multi_match_query
- 精确查询:根据精确词条值查找数据,一般查找keyword、数值、日期、boolean等类型字段。(不需要分词,整体做倒排索引)
- ids (按照id查询)
- range (按照数值范围查询)
- term (按照数据的值查询)
- 地理(geo)查询:根据经纬度查询,例如:
- geo_distance
- geo_bounding_box
- 复合(compound)查询:符合查询可以将上述各种查询条件组合起来,合并查询条件
- bool
- function_score
DSL Query基本语法
查询的基本语法如下:
GET /indexName/_search
{"query":{"查询类型":{"查询条件":"条件值"}}
}
查询所有
GET /indexName/_search
{"query":{"match_all":{}}
}
全文检索查询
全文检索查询会对用户输入内容分词,常用于搜索框搜索
- match查询:全文检索查询的一种,会对用户输入内容分词,然后去倒排索引库检索。
语法
GET /indexName/_search
{"query":{"match":{"字段":"搜索的内容"}}
}
实例
GET /es_test/_search
{"query":{"match":{"name.lastName":"张"}}
}
结果
{"took" : 5,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 1,"relation" : "eq"},"max_score" : 0.2876821,"hits" : [{"_index" : "es_test","_type" : "_doc","_id" : "1","_score" : 0.2876821,"_source" : {"info" : "测试es","email" : "xxx@163.com","name" : {"firstName" : "三","lastName" : "张"},"age" : 16}}]}
}
查询所有
GET /es_test/_search
{"query":{"match":{"all":"张"}}
}
- multi_match:与match查询类似,允许同时查询多个字段,即从对应的字段中查询匹配的内容。参与查询字段越多,查询性能越差,建议使用
copy_to
将多个要查的字段copy到一个字段。
语法
GET /indexName/_search
{"query":{"mutil_match":{"query":"要查询的内容","fields":["字段1","字段2"]}}
}
精确查询
精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。
常见的有:
- term:根据词条精确值查询
语法
GET /indexName/_search
{"query":{"term":{"FIELD":{"value":"VALUE"}}}
}
例子
GET /es_test/_search
{"query":{"term":{"age":{"value":"16"}}}
}
- range:根据值的范围查询
语法
GET /indexName/_search
{"query":{"range":{"FIELD":{"gte":10,"lte":20}}}
}
例子
GET /es_test/_search
{"query":{"range":{"age":{"gte":10,"lte": 20}}}
}
地理查询
根据经纬度查询,常见的使用场景:查询附近的酒店,查询附近的出租车,搜索附近的人
- geo_bounding_box:查询geo_point值落在某个矩形范围的所有文档
GET /indexName/_search
{"query": {"geo_bounding_box":{"FIELD1":{"top_left":{"lat":31.1,"lon":121.5}},"FIELD2":{"bottom_right":{"lat":30.9,"lon":121.7}}}}
}
- geo_distance:查询到指定中心点小于某个距离值的所有文档
GET /indexName/_search
{"query": {"geo_distance":{"distance":"15km","FIELD":"31.21,121.5"}}
}
复合查询
复合(compound)查询,可以将其他简单查询组合起来,实现更复杂的搜索逻辑,例如:
- function score:算分函数查询,可以控制文档相关性算分,控制文档排名。例如百度竞价
相关性打分算法
当我们利用match查询时,文档结果会根据与搜索词条的关联度打分(_score),返回结果时按照分值降序排列。
使用function score query,可以修改文档的相关性算分(query score),根据新得到的算分排序。
GET /indexName/_search
{"query": {"function_score": {"query": {"match": {"all": "外滩"} // 原始查询条件,搜索文档并根据相关性打分(query score)},"functions": [{"filter": {"term":{"id": "1"}}, //过滤条件,符合条件的文档才会被重新算分"weight":10 //算分函数,算分函数的结果称为function score,将来会与query score运算,得到新分数,常见的算分函数有:weight:给一个常量值,作为函数结果(function score);field_value_factor:用文档中的某个字段值作为函数结果;random_score:随机生成一个值,作为函数结果;script_score:自定义计算公式,公式结果作为函数结果}]},"boost_mode":"multiply"//加权模式,定义function score与query score的运算方式,包括:multiply:两者相乘,默认就是这个;replace:用function score替换query score;其他:sum,avg,max,min}
}
- 布尔查询,是一个或多个查询子句的组合。子查询的组合方式有:
- must:必须匹配每个子查询,类似"与"
- should:选择性匹配子查询,类似"或"
- must_not:必须不匹配,不参与算分,类似"非"
- filter:必须匹配,不参与算分
例
GET /indexName/_search
{"query": {"bool": {"must": [{"term": {"city": "上海"}}],"should": [{"term": {"brand": "皇冠假日"}},{"term": {"brand": "华美达"}}], "must_not": [{"range": {"price": {"lte": 500}}}],"filter": [{"range": {"score": {"gte": 45}}}]}}
}
Reference
黑马程序员