MySQL の 照合順序 utf8_unicode_ci はけっこう遅いのでやめとくべき

(Comments)

まったく定量的な話でないのですが。

某サービスで、MyISAM のテーブルのフィールドにフルテキストインデックスをつけて、バイグラムで検索インデックスを入れてました。20万レコードぐらい。

今までは、そのフィールドの文字コードの照合順序 ( collate ) は utf8_general_ci (デフォルト) だったんですが、日本語でカタカナ平仮名両方マッチさせたいので、collate を utf8_unicode_ci に変えてみたんです。

そうしたら、パフォーマンスが極端に悪くなり全然サービスが動かなくなってしまって。SHOW FULL PROCESSLIST; 見たら検索クエリが詰まってる。

ということで、utf8_unicode_ci やめて元に戻しました。日本語のカタカナ平仮名のゆれは、検索データを入れる際にノーマライズして入れることにしました。

utf8_unicode_ci やめといたほうがいい、という話。というか検索系は MySQL + フルテキストインデックスでやるより、Elasticsearch とか Cloudsearch とか使ったほうが良いですね。

Currently unrated

Comments

Recent Tweets

  • ytyng

    ytyng @ytyng

    apple developer の、テスト用デバイスのUDIDを1年ごとにチェックして、古い端末を消しちゃうやつ チェックボックスを入れたのを残すのか、消すのかの判断まちがって、全部のUDID消えたわ
    1 year, 2 months ago

  • ytyng

    ytyng @ytyng

    うちの会社 TORICO の 代表が今TV出てます #漫画全巻ドットコム #激レアさんを連れてきた
    1 year, 2 months ago

  • ytyng

    ytyng @ytyng

    Proofpoint にブロックされているIPアドレスからでも icloud など Apple メールアドレスにメール送信されてもブロックされてない…?
    1 year, 3 months ago

Recent Posts

Archive

2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011

Categories

Authors

Feeds

RSS / Atom