如何探讨select in 在postgresql的效率问题,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。

在知乎上看到这样一个问题:

MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率?修改

电商网站,一个商品属性表,几十万条记录,80M,索引只有主键id,做这样的查询如何提高效率?

select * from table where id in (几百或几千个id)

这些id没啥规律,分散的。。。。

看了一下答案,感觉有好多不靠谱的,但是口说无凭,所以在我的电脑上写了几个查询测试一下。我用的是Postgresql9.4,但感觉mysql应该也差不多,首先创建一个简单表,只有简单的3列,在这个问题的下面好多人提到了需要看表的大小,其实这个问题和表大小无关,只和index的大小有关,因为是index是建立在int上的,所以只和纪录数目有关。

Table"public.t9"Column|Type|Modifiers--------+----------------+-----------c1|integer|c2|character(100)|c3|character(200)|Indexes:"i1"UNIQUE,btree(c1)insertintot9values(generate_series(1000,500000,1),repeat('a',90),repeat('b',180));

之后生成一些随机数,Mac上用jot,Linux上用shuf

for((i=0;i<100000;i++))dojot-r11000600000>>rand.filedone

然后根据rand.file 生成查询语句:

select*fromt9wherec1in(494613,575087,363588,527650,251670,343456,426858,202886,254037,...1);

分别生成3个sql文件,in内变量的数目分别是100,1000和10000个,执行这3个sql文件,看看时间

trypsqlstudy-ftest_100.sql-o/dev/nullLOG:duration:2.879mstrypsqlstudy-ftest_1000.sql-o/dev/nullLOG:duration:11.974mstrypsqlstudy-ftest_10000.sql-o/dev/nullLOG:duration:355.689ms

可以看到只有在in内数据到了10,000个的时候数据时间会有比较大的变化,但也不过是在300多ms内完成。

那如果按照有些回答那样,先建一个临时表,然后用in subquery,并且希望这时候可以两表join呢?为了简单我直接用两表join了

droptablet_tmp;createtablet_tmp(idint);insertintot_tmp(id)values(494613),(575087),(363588),(345980),...(1);selectt9.*fromt9,t_tmpwheret9.c1=t_tmp.id;

时间如何呢?

trypsqlstudy-ftest_create_10000.sql-o/dev/nullLOG:duration:2.078msLOG:duration:1.233msLOG:duration:224.112msLOG:duration:322.108ms

除去drop和create的时间,依然花费了500+的时间,这里的前提还是我用的ssd盘,所以写LOG的时间会快很多。为什么会这么慢呢?用explain看一下,这时候数据量较大,直接走Merge join 了

那1000行数据的效率如何呢?

trypsqlstudy-ftest_create_1000.sql-oexp.outLOG:duration:2.476msLOG:duration:0.967msLOG:duration:2.391msLOG:duration:8.780ms

100行的数据如下:

trypsqlstudy-ftest_create_100.sql-o/dev/nullLOG:duration:2.020msLOG:duration:1.028msLOG:duration:1.074msLOG:duration:1.912ms

可以看到在100个值和1000个值的情况下create table的方式不会比直接在in里面写所有的变量好多少,explain看的话是在用NLJ了。但在数据量更大(按照原问题,这里in的数量其实无法预知)的情况下效率只会更低,再加上额外的表维护成本和多余的SQL语句,DBA肯定不喜欢的,还是相信数据库,放心大胆直接用in list来搞定这些问题吧。

看完上述内容,你们掌握如何探讨select in 在postgresql的效率问题的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注亿速云行业资讯频道,感谢各位的阅读!