说明在MySQL5.1中可以为全文索引编写插件。插件的作用是代替MySQL内部的分词模块。我们知道MySQL自带的分词只是通过空格和控制符将词分开,对于英语来说,可以通过这种方式分词,但中文是没有空格的,所以MySQL本身的全文索引不支持中文。我们可以通过全文索引分词插件的方式让MySQL可以对中文分词,从而使得MySQL的全文索引支持中文。设置了MySQL的插件之后,当我们插入或者更新在全文索引中的字段时,MySQL使用插件对字段进行分词。当对这个索引进行检索时,也需要使用插件对检索的关键字进行分词。
安装需要从C或C++编写插件,编译为so文件。编译时需要定义MYSQL_DYNAMIC_PLUGIN。某些平台下的gcc可能还要加上-D_GNU_SOURCE,否则会报错。 gcc -fPIC -DMYSQL_DYNAMIC_PLUGIN -Wall -shared -I /usr/local/mysql-5.1.25/include/ -I /usr/local/mysql-5.1.25-rc/include/ -I /usr/local/mysql-5.1.25-rc/ -o libthunder_ft.so thunder_ft.c 然后放在plugin_dir启动选项定义的目录下,默认是MySQL安装目录下的lib/plugin目录。然后使用 INSTALL PLUGIN plugin_name SONAME 'plugin_library'安装插件。 删除可以使用 UNINSTALL PLUGIN plugin_name 如果删除了一个全文索引插件,那么使用了这个插件的表将不可用,不能对该表做任何操作。
代码每一个插件都要提供一个st_mysql_plugin结构 struct st_mysql_plugin { int type; /* the plugin type (a MYSQL_XXX_PLUGIN value) */ void *info; /* pointer to type-specific plugin descriptor */ const char *name; /* plugin name */ const char *author; /* plugin author (for SHOW PLUGINS) */ const char *descr; /* general descriptive text (for SHOW PLUGINS ) */ int license; /* the plugin license (PLUGIN_LICENSE_XXX) */ int (*init)(void *); /* the function to invoke when plugin is loaded */ int (*deinit)(void *);/* the function to invoke when plugin is unloaded */ unsigned int version; /* plugin version (for SHOW PLUGINS) */ struct st_mysql_show_var *status_vars; void * __reserved1; /* placeholder for system variables */ void * __reserved2; /* placeholder for config options */ };用plugin.h中的宏mysql_declare_plugin定义,如: mysql_declare_plugin(thunder_ft) { MYSQL_FTPARSER_PLUGIN, /* type */ &thunder_ft_descriptor, /* descriptor */ "thunder_ft", /* name */ "Jedy", /* author */ "A fulltext plugin", /* description */ PLUGIN_LICENSE_GPL, thunder_ft_plugin_init, /* init function (when loaded) */ thunder_ft_plugin_deinit, /* deinit function (when unloaded) */ 0x0001, /* version */ thunder_status, /* status variables */ NULL, /* system variables */ NULL } mysql_declare_plugin_end; init和deinit两个函数用于插件的初始化和卸载,在install,uninstall或者server启动停止时执行一次,我们可以用这两个函数分配和收回一些资源。 status_vars是一个st_mysql_show_var结构,定义如下: struct st_mysql_show_var { const char *name; char *value; enum enum_mysql_show_type type; };其中value是一个char指针,MySQL会按照enum_mysql_show_type的类型将这个指针转为符合类型的指针。的元素为
我们还需要申明一个st_mysql_ftparser结构: struct st_mysql_ftparser { int interface_version; int (*parse)(MYSQL_FTPARSER_PARAM *param); int (*init)(MYSQL_FTPARSER_PARAM *param); int (*deinit)(MYSQL_FTPARSER_PARAM *param); };init是初始化函数,在每个使用到parser的语句之前调用,deinit在parser函数之后调用。比如一次insert多行,init调用一次,然后调用多次parser进行分词,每一行都处理完成之后调用deinit。例如: static struct st_mysql_ftparser thunder_ft_descriptor={ MYSQL_FTPARSER_INTERFACE_VERSION, /* interface version */ thunder_ft_parse, /* parsing function */ thunder_ft_init, /* parser init function */ thunder_ft_deinit /* parser deinit function */ }; 传给这三个函数的参数MYSQL_FTPARSER_PARAM定义如下: typedef struct st_mysql_ftparser_param { int (*mysql_parse)(struct st_mysql_ftparser_param *, char *doc, int doc_len); int (*mysql_add_word)(struct st_mysql_ftparser_param *, char *word, int word_len, MYSQL_FTPARSER_BOOLEAN_INFO *boolean_info); void *ftparser_state; void *mysql_ftparam; struct charset_info_st *cs; char *doc; int length; int flags; enum enum_ftparser_mode mode; } MYSQL_FTPARSER_PARAM; 其中mysql_parse是MySQL内部parser的回调函数。mysql_add_word是分词后将词传给MySQL的函数。ftparser_state用于给编写者保存一定的状态信息,可以是任何的指针。 cs是字符集的指针,可以由之得到传入文本的字符信息。doc是需要parser的文本指针,length是其长度。这里的doc不是以\0结尾的字符串,所以一定要通过length处理。flags目前只有MYSQL_FTFLAGS_NEED_COPY这样一个非零值,告诉MySQL mysql_add_word添加的词需要进行拷贝,比如算法是每次parser把doc拷贝到一个buffer中处理,而返回这个buffer中词的指针时需要设置MYSQL_FTFLAGS_NEED_COPY,因为buffer的值在处理过程中会变化的。mode用于区别是普通分词还是boolean的分词。 MYSQL_FTPARSER_FULL_BOOLEAN_INFO的分词只是用于解析boolean检索时的条件,建索引时始终使用的是MYSQL_FTPARSER_SIMPLE_MODE。 MySQL函数实现分词可以使用完全独立的函数也可以使用一些MySQL的函数。MySQL中提供了btree的实现,可以直接使用。另外MySQL分配和释放内存也是使用了自己定义的函数my_malloc和my_free,它们的第二个参数说明了出错的处理,一般设为MYF(MY_WME)即可。 使用get_charset_by_csname可以返回一个charset_info_st结构的指针,三个参数分别为字符集名字的字串,类型和错误处理的flag。 param->cs->cset->ctype(param->cs, &ctype, (uchar*) doc, (uchar*) end)返回对应param->cs字符集的一个字符的长度,ctype的值反映了一些这个字符种类的信息,比如字母,空格或控制符等。在utf8字符集中汉字既是大写字母又是小写字母。
参考
|
|
来自: wellbeing_wang > 《我的图书馆》