Andy's Blog » » Sphinx速成指南

Sphinx速成指南

Sphinx速成指南

版权 © 2008 Dony,tappony(at)gmail.com>,版权所有,转载请声明来源与作者

2008-01-11


目录

1.Sphinx简介
1.1.什么是全文检索
1.2.介绍
1.3.Sphinx的特性
2.Sphinx安装(For MySQL)
2.1.Windows下安装
2.2.Linux下安装
3.实例说明
4.Sphinx配置
5.运行Sphinx
6.搜索(翻译)
6.1.匹配模式
6.2.布尔查询语法(Boolean query syntax)
6.3.扩展查询语法(Extended query syntax)
6.4.权重(匹配度,Weight)
7.如何调用Sphinx
8.SphinxSE的SQL查询例子演练
9.如何自动重建索引
10.相关资源

1.Sphinx简介

1.1.dۀ么是全文检索

全文检索是指以文档的全部文本信息作为检索对象的一种信息检索技术。检索的对象有可能是文章的标题,也有可能是文章的作者,也有可能是文章摘要或内容。

1.2.dۋ绍

Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。

1.3.Sphinx的特性

高速索引 (在新款CPU上,近10 MB/秒);

高速搜索 (2-4G的文本量中平均查询速度不到0.1秒);

高可用性 (单CPU上最大可支持100 GB的文本,100M文档);

提供良好的相关性排名

支持分布式搜索;

提供文档摘要生成;

提供从MySQL内部的插件式存储引擎上搜索

supports boolean, phrase, and word proximity queries;

支持每个文档多个全文检索域(默认最大32个);

支持每个文档多属性;

支持断词;

支持单字节编码与UTF-8编码;

supports English stemming, Russian stemming, and Soundex for morphology;

支持MySQ(MyISAM和InnoDB 表都支持);

支持PostgreSQL.

2.Sphinx安装(For MySQL)

2.1.Windows下安装

从http://dev.mysql.com上下载MySQL5.0.45版安装配置好MySQL,采用utf-8字符集

从Sphinx官网上http://www.sphinxsearch.com/downloads.html下载mysql-5.0.45-sphinxse-r871-win32.zip和sphinx-0.9.8-svn-r985-win32.zip

如果您的MySQL服务已启动请先停止掉

解压mysql-5.0.45-sphinxse-r871-win32.zip,将里面bin与share目录覆盖掉你的mysql安装目录下的相应目录

解压sphinx-0.9.8-svn-r985-win32.zip ,将里面的文件解压到D:\sphinx

sphinx的配置与实际应用是相关的,因此以下我以例子进行说明,至此sphinx安装部分结束

2.2.Linux下安装

下载mysql-5.1.22-rc.tar.gz解压至/root/mysql-5.1.22

下载sphinx-0.9.8-svn-r985.tar.gz,解压至/root/sphinx-0.9.8-svn-r985

将/root/sphinx-0.9.8-svn-r985/mysqlse下的文件复制至/root/mysql-5.1.22/storage/sphinx

在/root/mysql-5.1.22目录下运行

sh BUILD/autorun.sh
./configure --prefix=/usr/local/mysql --with-charset=utf8 --with-extra-charsets=all  \
--enable-thread-safe-client --enable-assembler --with-readline --with-big-tables \
--with-plugins=sphinx
make && make install
groupadd mysql
useradd –g mysql mysql
chown mysql:mysql /usr/local/mysql -R
cd /usr/local/mysql
bin/mysql_install_db –user=mysql
(此时系统可能会提示:
[Warning] Storage engine 'SPHINX' has conflicting typecode. Assigning value 42.
可忽略,不影响使用)
cp /root/mysql-5.1.22/support-files/mysql.server /etc/init.d/mysqld
chmod 700 /etc/init.d/mysqld
cp /root/mysql-5.1.22/support-files/my-medium.cnf /etc/my.cnf
/etc/init.d/mysql start
(至些mysql启动了)

然后进入mysql命令行,运行show
engines,看是不是有一个叫sphinx的engine,有的话就表示sphinxSE(mysql的sphinx引擎)安装正常了

进入/root/sphinx-0.9.8-svn-r985,运行

ldconfig /usr/local/mysql/lib/mysql
ldconfig /usr/local/mysql/include/mysql
./configure --prefix=/usr/local/sphinx --with-mysql=/usr/local/mysql
make && make install

3.eΞ例说明

为更好说明如何应用Sphinx,现结合实例说明,我们以网站的新闻文章表为例。我们想要对新闻文章表进行全文检索(主要是标题与内容),新闻文章表的相关信息如下:

CREATE TABLE `eht_articles` (
`ARTICLESID` int(11) NOT NULL auto_increment,
`TITLE` varchar(100) NOT NULL default '',
`TITLECOLOR` varchar(20) default NULL,
`AUTHOR` varchar(200) default NULL,
`COMEFROM` varchar(200) default NULL,
`KEYWORD` varchar(200) default NULL,
`HTMLURL` varchar(200) default NULL,
`CATALOGID` int(6) default NULL,
`CONTENTS` mediumtext,
`EDITUSERID` int(6) default NULL,
`ADDTIME` int(10) default NULL,
`UPDATETIME` int(10) default NULL,
`HITS` int(6) default NULL,
PRIMARY KEY  (`ARTICLESID`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

在这个表中,我主要想对标题(TITLE)与内容(CONTENTS)字段进行全文检索,在检索过程中可能我会根据文章的栏目(CATALOGID),编辑(EDITUSERID),时间段(ADDTIME)进行条件性的全文检索,然后可能会根据主键ID(ARTICLESID),人气(HITS)进行排序显示,如何配置Sphinx来实现呢?

4.Sphinx配置

sphinx是以sphinx.conf为配置文件,索引与搜索均以这个文件为依据进行,要进行全文检索,首先就要配置好sphinx.conf,告诉sphinx哪些字段需要进行索引,哪些字段需要在where,orderby,groupby中用到。

安装完Sphinx后,在D:/sphinx目录有一个sphinx.conf.in,这个相当于sphinx的配置例子文件,我们以这个文件为蓝本,重新创建一个空白内容的sphinx.conf,存放在d:/sphinx根目录。

sphinx.conf的内容组成

source 源名称1{

}
index 索引名称1{
source=源名称1

}
source 源名称2{

}
index 索引名称2{
source = 源名称2

}
indexer{

}
searchd{

}

提示

从组成我们可以发现sphinx可以定义多个索引与数据源,不同的索引与数据源可以应用到不同表或不同应用的全文检索。

根据前面的实例,我们配置出我们需要的sphinx.conf,如下:

source cgfinal
{
type = mysql
strip_html = 0
index_html_attrs = sql_host = localhost
sql_user = root
sql_pass = admin
sql_db = test
sql_port=