python操作es条件查询定制body

参考连接：

python操作elasticsearch - 无量python - 博客园

1、切片查询

from elasticsearch import Elasticsearch# 建立连接
es = Elasticsearch( hosts={'192.168.0.120', '192.168.0.153'},  # 地址timeout=3600  # 超时时间
)# body指定查询条件
body = {'from': 0,  # 从0开始'size': 20  # 取20个数据。类似mysql中的limit 0, 20。 注：size可以在es.search中指定，也可以在此指定，默认是10
}# 定义过滤字段，最终只显示此此段信息
filter_path=['hits.hits._source.ziduan1',  # 字段1'hits.hits._source.ziduan2']  # 字段2es.search(index='pv23', filter_path=filter_path, body=body)  # 指定查询条件

2、match，模糊查询

body = {'query': {  # 查询命令'match': {  # 查询方法：模糊查询（会被分词）。比如此代码，会查到只包含：“我爱你”， “中国”的内容'ziduan1': '我爱你中国'}},'size': 20  # 不指定默认是10，最大值不超过10000（可以修改，但是同时会增加数据库压力）
}# size的另一种指定方法
es.search(index='pv23', filter_path=filter_path, body=body, size=200)  # 指定size，默认是10

3、match_phrase，模糊查询

body = {'query': {  # 查询命令'match_phrase': {  # 查询方法：模糊查询（不会被分词）。会查到包含：“我爱你中国”的内容'ziduan1': '我爱你中国'}}
}# 注：内容中的下划线，等标点符号会被忽略，有与没有的效果一样

4、term，精准单值查询

# 注：此方法只能查询一个字段，且只能指定一个值。类似于mysql中的where ziduan='a'
body ={   'query':{'term':{'ziduan1.keyword': '我爱你中国'  # 查询内容等于“我爱你中国的”的数据。查询中文，在字段后面需要加上.keyword# 'ziduan2': 'I love China'}}
}

5、terms，精准多值查询

#此方法只能查询一个字段，但可以同时指定多个值。类似于mysql中的where ziduan in (a, b,c...)
body ={   "query":{"terms":{"ziduan1": ["我爱你中国", "I love China"]  # 查询ziduan1=a或=b...的数据}}
}

6、multi_match，多字段查询

# 查询多个字段中都包含指定内容的数据
body = {"query":{"multi_match":{"query":"我爱你中国",  # 指定查询内容，注意：会被分词"fields":["ziduan1", "ziduan2"]  # 指定字段}}
}

7、prefix，前缀查询

body = {'query': {'prefix': { 'ziduan.keyword': '我爱你'  # 查询前缀是指定字符串的数据}}
}# 注：英文不需要加keyword

8、wildcard，通配符查询

body = {'query': {'wildcard': {'ziduan1.keyword': '?爱你中*'  # ?代表一个字符，*代表0个或多个字符}}
}
# 注：此方法只能查询单一格式的（都是英文字符串，或者都是汉语字符串）。两者混合不能查询出来。

9、regexp，正则查询

body = {'query': {'regexp': {'ziduan1': 'W[0-9].+'   # 使用正则表达式查询}}
}

10、bool，多条件查询

# must：[] 各条件之间是and的关系
body = {"query":{"bool":{'must': [{"term":{'ziduan1.keyword': '我爱你中国'}},{'terms': {'ziduan2': ['I love', 'China']}}]}}}# should: [] 各条件之间是or的关系
body = {"query":{"bool":{'should': [{"term":{'ziduan1.keyword': '我爱你中国'}},{'terms': {'ziduan2': ['I love', 'China']}}]}}}# must_not：[]各条件都不满足
body = {"query":{"bool":{'must_not': [{"term":{'ziduan1.keyword': '我爱你中国'}},{'terms': {'ziduan2': ['I love', 'China']}}]}}}# bool嵌套bool
# ziduan1、ziduan2条件必须满足的前提下，ziduan3、ziduan4满足一个即可
body = {"query":{"bool":{"must":[{"term":{"ziduan1":"China"}},  #  多个条件并列  ，注意：must后面是[{}, {}],[]里面的每个条件外面有个{}{"term":{"ziduan2.keyword": '我爱你中国'}},{'bool': {'should': [{'term': {'ziduan3': 'Love'}},{'term': {'ziduan4': 'Like'}}]}}]}}
}

11、exists，存在字段查询

body = {'query': {'exists': {'field': 'ziduan1'}  # 查询存在ziduan1的数据}
}# exists、bool嵌套查询
# 存在ziduan1的情况下，ziduan2的值必须为指定字段
body = {"query":{"bool":{"must":[{'exists': {'field': 'ziduan1'}},{"term":{"ziduan2.keyword": '我爱你中国'}},]}}
}

12、大于小于查询

body = {"query": {"range": {"ziduan1":{"gte": 3,  # 大于"lt": 20  # 小于}}}}

13、nest，json数据查询

body = {'query': {'nested': {'path': 'ziduan1',  # 指定json数据的字段'query': {  # 指定查询方式'term': {'ziduan1.ziduan2': '我爱你中国'}  # 根据ziduan1里面的ziduan2数据查询}}}
}# nest、bool嵌套查询
body = {'query': {'bool': {'must': [{'term':{"ziduan3" : "I love China"}},{'nested': {  # json查询'path': 'ziduan1','query': {  # 指定查询方式'term': {'ziduan1.ziduan2': '我爱你中国'}  # 根据ziduan1里面的ziduan2数据查询}}}]}}
}

14、排序

body = {"query":{  # 指定条件，可以使用以上的任何条件等查询数据。然后再对符合条件的数据进行排序"match_all":{}},"sort":{  # 对满足条件的数据排序"age":{                 # 根据age字段排序"order":"asc"       # asc升序，desc降序}}
}# 多字段排序，注意顺序！写在前面的优先排序
body = {"query":{"match_all":{}},"sort":[{"age":{"order":"asc"      # 先根据age升序}},{"name":{               # 后根据name字段升序排序"order":"asc"      # asc升序，desc降序}}],
}

15、scroll，翻页查询（数据量小可以使用此方法，数据量大推荐使用search_after方法--见下一个方法）

body={'query':{'match_all': {}},'sort': {'zidan6': 'asc'},  # 翻页需要先使用sort排序，与search_after类似
}# size：设置一页数据量
result = es.search(index='pv91', scroll='1m', size=5, body=body)
# 获取总的数据量，用于得到总的数据页数
total = result['hits']['total']
# 获取初始翻页id
scrid = result['_scroll_id']
# 第一页的数据
result = es.search(index='patent_cn_v71',size=5, body=body, filter_path=['hits.hits._source.ziduan1', 'hits.hits._source.ziduan2.ziduan2_1'])# 开始翻页
for i in range(5):  #翻5页print(result, '\n')print('*' * 50, '第{}页'.format(i), '*' * 50)result = es.scroll(scroll_id=scrid, scroll='1m', filter_path=['hits.hits._source.ziduan1', 'hits.hits._source.ziduan2.ziduan2_1'])

16、search_after，翻页查找（推荐此方法）

content_size = 3000  # 设置一页的数据量
size_cont = content_size
next_id = 0  # 初始化next_id，每次循环是从  此数据 之后的第1个数据开始
while size_cont == content_size:body = {"query": {"range": {"update_time":{"gte": "2019-10-14"}}},'sort': {'ziduan2': 'asc'},  # 以ziduan2为next_id，需要先对其进行排序'search_after': [next_id],  # 从此数据之后的第1个数据开始，但不包含此数据'size': content_size  # 指定当前页数据量}filter_path = ['hits.hits._source.ziduan1','hits.hits._source.ziduan2']rt = es.search(index='pv1', body=body, filter_path=filter_path)['hits']['hits']size_cont = len(rt)  # 更新循环条件：若数据量不等于指定的数据量，说明遍历到最后的一页数据了for result in rt:try:app_date = result['_source']['ziduan1']except:continuetry:ziduan2 = result['_source']['ziduan2']next_id = ziduan2  # 更新next_idexcept:app_text = ''

17、聚合查询

# 统计符合条件的指定字段的数据中，各数据的个数body = {
#     'query': {
#         'match_all': {}
#     },'size': 0,  # 设置0为条件查询后的数据显示条数，默认显示10条'aggs':{'num_ipcr': {  # 自定义buckets'terms': {'field': 'ziduan1',  # 需要查找的字段'size': 10,  # 设置聚合数据显示条数}}},
}# 嵌套聚合：根据聚合后的数据大小再进行聚合
body = {'size': 0,  # 设置0为条件查询后的数据显示条数，默认显示10条"aggs": {"agroup": {"nested": {"path": "ziduan1"},  # 选择ziduan1里面的数据量再进行聚合"aggs": {"de_inventor": {"terms": {"field": "ziduan1.ziduan1_1.keyword", "size": 200000}}},},},
}# 去重统计
body = {'size': 0, 'aggs': {'discount_ipcr': {'cardinality':{  # 去重统计'field': 'ziduan1','precision_threshold': 100 # 保证100个以内准确率接近100%，每个类别会占用100字节的内存},},}
}
# 结果返回值说明
"""
doc_count_error_upper_bound: 表示没有在这次聚合中返回、但是可能存在的潜在聚合结果
sum_other_doc_count：表示这次聚合中没有统计到的文档数
buckets：聚合结果，默认由高到低排列。key表示聚合元素的值，doc_count表示元素出现的次数。注意，这里的doc_count也是不准确的
"""

四、建立es数据

es.indices.create(index='my-index', ignore=400)  # 建立索引（理解为数据库，就是es.search(index='')查找时候用到的index）
es.index(index="my-index", id=0, body={'name': 'jaychou', "age": 30, "sex": 'male'})  # 插入数据：id是唯一标识，body里面是字段以及对应的数据