简化了MySQL中的更新/插入(upsert)处理

常见操作是在不存在的情况下插入新行,或更新现有行.不幸的是,插入和更新SQL语句的语法完全不同:Insert采用列列表,后跟相应的值列表,而update采用列=值对列表. MySQL“插入…重复键更新”语句(其upsert语句)不能解决此问题,因为它仍然需要完整的插入列/值列表,后跟完整的更新列/值列表. [更新:来自Wrikken的评论下面指出这两个语句可以共享column = value语法,但其他问题仍然存在.]

与此问题相关的是,如果您使用触发器来检查数据(就像我一样),您需要两个触发器(before-insert和before-update),并且,因为他们必须使用“new”限定符,所以必须编写两次检查代码,每次触发一次,或者将其放入一个程序中.如果使用过程,则必须将每个列作为单独的参数传递,因为该过程不能使用“new”,如果您有很多列,这可能是很容易出错的类型.每列必须在create table语句中具有其类型,然后在检查过程的定义中第二次.一旦出现小错误,你就会创建一个微妙的,难以发现的错误.我不喜欢任何涉及两次编码同一事物的方法. (这相当于非标准化.)

考虑到这个插入/更新问题,我一直在考虑以下想法,我想要一些反馈,特别是如果有人真的尝试过它:

仅对占位符行使用insert,仅保留最少量的数据,以及获取或设置主键.然后,将所有用户输入的数据放入更新语句中.现在,您不需要“插入…重复密钥更新”,因为普通更新会这样做.此外,您需要仅在更新前触发器上检查数据,因为没有任何内容可以检查插入. (条目表中的所有用户提供的数据都由更新处理,而不是由插入处理.)

当然,这种方法的主要缺点是新行有两个操作:insert后跟update,而不是insert.但是,这可能不是一个因素,因为:

>插入物可能相对罕见.例如,在我几年前为理查森(德克萨斯州)学区做过的学生评分申请中,每年只增加了几千名学生,而有成千上万的学生,因为教师使用了整个学年的系统.
>在我建立的其他几个系统中,性能无关紧要.例如,我正在处理的当前系统只有两三个人每周只更新数据库几个小时.负载是如此之小,以至于当只有一个操作就足够时,由两个操作(插入更新)引起的开销是微不足道的. (它只适用于新行,请记住.)

那么,有没有人真正试过这个:插入只是为了创建一个极简主义的占位符行,并对所有用户提供的数据更新使用更新?

最佳答案
如果我需要数据库来强制执行数据有效性的“规则”,我仍然需要INSERT触发器和UPDATE触发器,因为在数据库级别,我无法保证某人不会去执行包含无效数据的INSERT.无论如何,我倾向于同时拥有两个触发器.

插入“占位符”行然后更新的另一个缺点是(对于可变长度记录),存在碎片方面.后续更新几乎可以保证行的长度将会增加,这将导致数据库中碎片的不必要增加(如果您只需要插入行就不会出现这种情况. )

我还需要考虑占位符的INSERT何时成功但UPDATE失败的情况.我必须有一些额外的机制来处理这种情况.

运行单个语句会更有效,只需插入我知道需要的值,而不是运行两个单独的语句(一个用于插入占位符行,然后是第二个语句用于更新它.)

就个人而言,我只是使用INSERT … ON DUPLICATE KEY UPDATE,而不是重复UPDATE部分中的值,我只是引用INSERT语句中为这些列提供的值,例如:

INSERT INTO foo (a,b,c) VALUES (1,'one','won'), (2,'two','too')
   ON DUPLICATE KEY
   UPDATE a = VALUES(a)
        , b = VALUES(b)
        , c = VALUES(c)

注意:此语句的一个副作用是要注意,特别是如果它主要是执行的UPDATE.此语句将为尝试插入的每一行增加AUTO_INCREMENT ID. AUTO_INCREMENT id值基本上会被“浪费”,因为生成的值不会被插入到表中,但它会“消失”. (下一个生成的值将高一个.)

转载注明原文:简化了MySQL中的更新/插入(upsert)处理 - 代码日志