Continuación del articulo sobre las consultas y los índices de texto.
Utilizar el predicado CONTAINS
Puede usar el predicado CONTAINS para buscar una determinada frase en una base de datos. Por supuesto, dicha consulta puede escribirse con el predicado LIKE. Sin embargo, algunas formas de CONTAINS proporcionan mayor variedad de consultas de texto que la que se puede obtener con LIKE. Además, al contrario que cuando se utiliza el predicado LIKE, una búsqueda con CONTAINS no distingue entre mayúsculas y minúsculas.
Suponga que desea buscar en la base de datos Northwind la frase "bean curd". Si usa el predicado CONTAINS, ésta es una consulta bastante fácil.
USE Northwind USE Northwind
O, con CONTAINS:
USE Northwind
GO
SELECT Description
FROM Categories
WHERE Description LIKE '%bean curd%'
GO
GO
SELECT Description
FROM Categories
WHERE CONTAINS(Description, ' "bean curd" ')
GO
El predicado CONTAINS usa una notación funcional en la que el primer parámetro es el nombre de la columna que se está buscando y el segundo parámetro es una condición de búsqueda de texto. La condición de búsqueda, en este caso "bean curd", puede ser bastante compleja y está formada por uno o más elementos, que se describen posteriormente.
El predicado CONTAINS admite una sintaxis compleja para buscar en las columnas basadas en caracteres:
- Una o más palabras y frases específicas (términos simples). Una palabra está compuesta por uno o más caracteres sin espacios ni signos de puntuación. Una frase válida consta de varias palabras con espacios y con o sin signos de puntuación entre ellas. Por ejemplo, croissant es una palabra y café au lait es una frase. Las palabras y frases como éstas se llaman términos simples.
- Forma no flexionada de una palabra determinada (término de generación). Por ejemplo, buscar la forma no flexionada de la palabra "conducir". Si hay varias filas en la tabla que incluyen las palabras "conducir", "conduce", "condujo", "conduciendo" y "conducido", todas estarían en el conjunto de resultados porque cada una de estas palabras se puede generar de forma inflexiva a partir de la palabra "conducir".
- Una palabra o frase en la que las palabras empiezan con un texto determinado (término prefijo). En el caso de una frase, cada palabra de la frase se considera un prefijo. Por ejemplo, el término "tran* auto" coincide con "transmisión automática" y "transductor de automóvil".
- Palabras o frases que usan valores ponderados (término ponderado). Por ejemplo, podría desear encontrar una palabra que tuviera un peso designado superior a otra palabra. Devuelve resultados de consulta clasificados.
- Una palabra o frase que esté cerca de otra palabra o frase (término de proximidad). Por ejemplo, podría desear encontrar las filas en las que la palabra "hielo" aparece cerca de la palabra "hockey" o en las que la frase "patinaje sobre hielo" se encuentra próxima a la frase "hockey sobre hielo".
Cuando use CONTAINS, recuerde que SQL Server rechaza las palabras vacías de los criterios de búsqueda. Las palabras irrelevantes son aquellas como "un", "y", "es" o "el", que aparecen con frecuencia pero que, en realidad, no ayudan en la búsqueda de un texto determinado.
Utilizar el predicado FREETEXT
Con un predicado FREETEXT, puede escribir cualquier conjunto de palabras o frases, e incluso una frase completa. El motor de consultas de texto examina este texto, identifica todas las palabras y frases de nombres significativas y construye internamente una consulta con esos términos. En este ejemplo se usa un predicado FREETEXT en una columna llamada description.FREETEXT (description, ' "The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produced no evidence that any irregularities took place." ')
El motor de búsqueda identifica palabras y frases nominales tales como las siguientes:
Palabras:
Fulton, county, grand, jury, Friday, investigation, Atlanta, recent, primary, election, produce, evidence, irregularities
Frases:
Fulton county grand jury, primary election, grand jury, Atlanta's recent primary election
Las palabras y frases de la cadena FREETEXT (y sus variaciones generadas de forma inflexiva) se combinan internamente en una consulta, ponderada para clasificarla adecuadamente y, a continuación, se realiza la búsqueda real.
Funciones de conjunto de filas CONTAINSTABLE y FREETEXTTABLE
Las funciones CONTAINSTABLE y FREETEXTTABLE se usan para especificar las consultas de texto que devuelve la clasificación por porcentaje de aciertos de cada fila. Estas funciones son muy similares a los predicados de texto CONTAINS y FREETEXT, pero se utilizan de forma diferente.Los predicados de texto de las funciones
Aunque tanto los predicados de texto como las funciones de conjunto de filas de texto se usan para las consultas de texto y la instrucción TRANSACT-SQL usada para especificar la condición de búsqueda de texto es la misma en los predicados y en las funciones, hay importantes diferencias en la forma en la que éstas se usan:
- CONTAINS y FREETEXT devuelven ambos el valor TRUE o FALSE, con lo que normalmente se especifican en la cláusula WHERE de una instrucción SELECT. CONTAINSTABLE y FREETEXTTABLE devuelven ambas una tabla de cero, una o más filas, con lo que deben especificarse siempre en la cláusula FROM.
- CONTAINS y FREETEXT sólo se pueden usar para especificar los criterios de selección, que usa Microsoft® SQL SERVER para determinar la pertenencia al conjunto de resultados. CONTAINSTABLE y FREETEXTTABLE se usan también para especificar los criterios de selección. La tabla devuelta tiene una columna llamada KEY que contiene valores de claves de texto. Cada tabla de texto registrada tiene una columna cuyos valores se garantizan como únicos. Los valores devueltos en la columna KEY de CONTAINSTABLE o FREETEXTTABLE son los valores únicos, procedentes de la tabla de texto registrada, de las filas que coinciden con los criterios de selección en la condición de búsqueda de texto. Además, la tabla que producen CONTAINSTABLE y FREETEXTTABLE tiene una columna denominada RANK, que contiene valores de 0 a 1000. Estos valores se utilizan para ordenar las filas devueltas de acuerdo al nivel de coincidencia con los criterios de selección.
Este ejemplo devuelve la descripción y el nombre de categoría de todas las categorías de alimentos en las que la columna Description contenga las palabras "sweet and savory" cerca de la palabra "sauces" o de la palabra "candies". Todas las filas cuyo nombre de categoría sea "Seafood" no se devuelven. Sólo se devuelven las filas cuyo valor de distancia sea igual o superior a 2.
USE Northwind
GO
SELECT FT_TBL.Description, FT_TBL.CategoryName, KEY_TBL.RANK
FROM Categories AS FT_TBL INNER JOIN
CONTAINSTABLE (Categories, Description,
'("sweet and savory" NEAR sauces) OR
("sweet and savory" NEAR candies)') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK > 2 AND FT_TBL.CategoryName <> 'Seafood'
ORDER BY KEY_TBL.RANK DESC
Este ejemplo devuelve la descripción y el nombre de categoría de las 10 categorías superiores de alimentos donde la columna Description contenga las palabras "sweet and savory" cerca de la palabra "sauces" o de la palabra "candies".
SELECT FT_TBL.Description, FT_TBL.CategoryName, KEY_TBL.RANK
FROM Categories AS FT_TBL INNER JOIN
CONTAINSTABLE (Categories, Description,
'("sweet and savory" NEAR sauces) OR
("sweet and savory" NEAR candies)', 10) AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
Comparación entre CONTAINSTABLE y CONTAINS
La función CONTAINSTABLE y el predicado CONTAINS utilizan condiciones de búsqueda similares.Sin embargo, en CONTAINSTABLE se especifica la tabla en la que tendrá lugar la búsqueda de texto, la columna (o todas las columnas) de la tabla en las que se buscará y la condición de búsqueda. Un cuarto parámetro, opcional, hace posible que el usuario indique que se devuelva sólo el número más alto especificado de coincidencias. Para obtener más información, consulte la sección Limitar los conjuntos de resultados.
CONTAINSTABLE devuelve una tabla que incluye una columna denominada RANK. Esta columna RANK contiene un valor para cada fila que indica el grado de coincidencia de cada fila con los criterios de selección.
En esta consulta se especifica la utilización de CONTAINSTABLE para devolver un valor de clasificación por cada fila.
USE Northwind
GO
SELECT K.RANK, CompanyName, ContactName, Address
FROM Customers AS C
INNER JOIN
CONTAINSTABLE(Customers,Address,
'ISABOUT ("des*", Rue WEIGHT(0.5), Bouchers WEIGHT(0.9))') AS K
ON C.CustomerID = K.[KEY]
Comparación entre FREETEXTTABLE y FREETEXT
En la consulta siguiente se amplía una consulta FREETEXTTABLE para que devuelva primero las filas con clasificación superior y agregue la clasificación de cada fila a la lista de selección. Para especificar la consulta, debe saber que CategoryID es la columna de clave única de la tabla Categories.
USE Northwind
GO
SELECT KEY_TBL.RANK, FT_TBL.Description
FROM Categories AS FT_TBL
INNER JOIN
FREETEXTTABLE(Categories, Description,
'How can I make my own beers and ales?') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
ORDER BY KEY_TBL.RANK DESC
GO
La única diferencia en la sintaxis de FREETEXTTABLE y FREETEXT es la inserción del nombre de la tabla como el primer parámetro.
Esto es una ampliación de la misma consulta que sólo devuelve las filas con un valor de clasificación de 10 o superior:
USE Northwind
GO
SELECT KEY_TBL.RANK, FT_TBL.Description
FROM Categories FT_TBL
INNER JOIN
FREETEXTTABLE (Categories, Description,
'How can I make my own beers and ales?') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK >= 10
ORDER BY KEY_TBL.RANK DESC
GO
Identificación del nombre de la columna de la clave única
Las consultas que usan funciones que toman valores de conjuntos de filas son complicadas porque es necesario saber el nombre de la columna de clave exclusiva. Cada tabla habilitada para texto tiene la propiedad TableFulltextKeyColumn que contiene el número de ID de la columna que ha sido seleccionada para tener filas únicas en la tabla. En este ejemplo se muestra cómo se puede obtener el nombre de la columna de clave y usarse en la programación.
USE Northwind
GO
DECLARE @key_column sysname
SET @key_column = Col_Name(Object_Id('Categories'),
ObjectProperty(Object_id('Categories'),
'TableFulltextKeyColumn')
)
print @key_column
EXECUTE ('SELECT Description, KEY_TBL.RANK
FROM Categories FT_TBL
INNER JOIN
FreetextTable (Categories, Description,
''How can I make my own beers and ales?'') AS KEY_TBL
ON FT_TBL.'
+ @key_column
+' = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK >= 10
ORDER BY KEY_TBL.RANK DESC
')
GO
Puede evitar la complejidad de la utilización de CONTAINSTABLE y FREETEXTTABLE si escribe procedimientos almacenados que acepten unos cuantos supuestos acerca de la consulta y, a continuación, creen y ejecuten la consulta adecuada. A continuación se muestra un procedimiento simplificado que emite una consulta FREETEXTTABLE. La tabla muestra los parámetros del procedimiento (todas las entradas).
Parámetros | Opcional | Descripción |
@additional_predicates | Opcional | Si hay algún predicado adicional, éste se agrega con AND detrás del predicado FREETEXT. KEY_TBL.RANK se puede usar en expresiones. |
@freetext_column | SI | |
@freetext_search | SI | Condición de Búsqueda |
@from_table | SI | |
@order_by_list | Opcional | KEY_TBL.RANK puede ser una de las columnas especificadas. | @select_list | SI | KEY_TBL.RANK puede ser una de las columnas especificadas. |
El código del procedimiento es el siguiente:
CREATE PROCEDURE freetext_rank_proc
-- Get the name of the unique key column for this table.
-- If there is an additional_predicate, put AND() around it.
-- Insert ORDER BY, if needed.
-- Execute the SELECT statement.
@select_list nvarchar(1000),
@from_table nvarchar(517),
@freetext_column sysname,
@freetext_search nvarchar(1000),
@additional_predicates nvarchar(500) = '',
@order_by_list nvarchar(500) = ''
AS
BEGIN
DECLARE @table_id integer,
@unique_key_col_name sysname,
@add_pred_var nvarchar(510),
@order_by_var nvarchar(510)
SET @table_id = Object_Id(@from_table)
SET @unique_key_col_name =
Col_Name( @table_id,
ObjectProperty(@table_id, 'TableFullTextKeyColumn') )
IF @additional_predicates <> ''
SET @add_pred_var = 'AND (' + @additional_predicates + ')'
ELSE
SET @add_pred_var = ''
IF @order_by_list <> ''
SET @order_by_var = 'ORDER BY ' + @order_by_var
ELSE
SET @order_by_var = ''
EXECUTE ( 'SELECT '
+ @select_list
+ ' FROM '
+ @from_table
+ ' AS FT_TBL, FreetextTable('
+ @from_table
+ ','
+ @freetext_column
+ ','''
+ @freetext_search
+ ''') AS KEY_TBL '
+ 'WHERE FT_TBL.'
+ @unique_key_col_name
+ ' = KEY_TBL.[KEY] '
+ @add_pred_var
+ ' '
+ @order_by_var
)
END
Este procedimiento se puede usar para emitir la consulta:
USE Northwind
GO
EXECUTE freetext_rank_proc
'Description, KEY_TBL.RANK', -- Select list
'Categories', -- From
'Description', -- Column
'How can I make my own beers and ales?', -- Freetext search
'KEY_TBL.RANK >= 10', -- Additional predicate
'KEY_TBL.RANK DESC' -- Order by
GO
Limitar los conjuntos de resultados
En muchas consultas de texto, el número de elementos que coinciden con la condición de búsqueda es muy grande. Para evitar que las consultas devuelvan demasiadas coincidencias, utilice el argumento opcional, top_n_by_rank, en CONTAINSTABLE y FREETEXTTABLE para especificar el número de coincidencias, ordenadas, que desea que se devuelvan.Con esta información, Microsoft® SQL SERVER ordena las coincidencias y devuelve sólo hasta completar el número especificado. Esta opción puede aumentar significativamente el rendimiento. Por ejemplo, una consulta que por lo general devolvería 100.000 filas de una tabla de 1 millón se procesará de forma más rápida si sólo se piden las 100 primeras filas.
Si sólo se desea que se devuelvan las 3 coincidencias mayores del ejemplo anterior, mediante CONTAINSTABLE, la consulta tendrá esta forma:
USE Northwind
GO
SELECT K.RANK, CompanyName, ContactName, Address
FROM Customers AS C
INNER JOIN
CONTAINSTABLE(Customers,Address, 'ISABOUT ("des*",
Rue WEIGHT(0.5),
Bouchers WEIGHT(0.9))', 3) AS K
ON C.CustomerID = K.[KEY]
Buscar palabras o frases con valores ponderados (término ponderado)
Puede buscar palabras o frases y especificar un valor ponderado. El peso, un número entre 0,0 y 1,0, indica el grado de importancia de cada palabra o frase en un conjunto de palabras y frases. El valor 0,0 es el peso más pequeño disponible, y el valor 1,0 es el peso más grande. Por ejemplo, en esta consulta se buscan todas las direcciones de los clientes, con valores ponderados, en los que cualquier texto que comience con la cadena "des" esté cerca de Rue o Bouchers. Microsoft® SQL SERVER da una clasificación superior a aquellas filas que contienen la mayor cantidad de palabras especificadas. Por tanto, SQL SERVER da una clasificación superior a una fila que contiene des Rue Bouchers que a una fila que contiene des Rue.
USE Northwind
GO
SELECT CompanyName, ContactName, Address
FROM Customers
WHERE CONTAINS(Address, 'ISABOUT ("*des*",
Rue WEIGHT(0.5),
Bouchers WEIGHT(0.9)
) ' )
GO
Un término ponderado se puede usar en conjunción con cualquiera de los otros cuatro tipos de términos.
Combinar predicados de texto con otros predicados de TRANSACT-SQL
Los predicados CONTAINS y FREETEXT se pueden combinar con el resto de predicados de TRANSACT-SQL, como, por ejemplo, LIKE y BETWEEN; también se pueden usar en una subconsulta. En este ejemplo se buscan descripciones cuya categoría no sea Seafood y que contengan la palabra "sauces" y la palabra "seasonings".
USE Northwind
GO
SELECT Description
FROM Categories
WHERE CategoryName <> 'Seafood' AND
CONTAINS(Description, ' sauces AND seasonings ')
GO
En la siguiente consulta se usa CONTAINS dentro de una subconsulta. Con la base de datos pubs, la consulta obtiene el valor del título de todos los libros de la tabla titles del publicador que se encuentra próximo al platillo volante de Moonbeam, Ontario. (Esta información acerca del publicador se encuentra en la columna pr_info de la tabla pub_info y sólo hay uno de estos publicadores.)
USE pubs
INSERT INTO titles
GO
-- Add some interesting rows to some tables.
INSERT INTO publishers
VALUES ('9970', 'Penumbra Press', 'Moonbeam', 'ON', 'Canada')
INSERT INTO pub_info (pub_id, pr_info)
VALUES ('9970',
'Penumbra press is located in the small village of Moonbeam. Moonbeam is well known as the flying saucer capital of Ontario. You will often find one or more flying saucers docked close to the tourist information centre on the north side of highway 11.')
VALUES ('FP0001', 'Games of the World', 'crafts', '9970', 9.85,
0.00, 20, 213, 'A crafts book! A sports book! A history book! The fun and excitement of a world at play -
beautifully described and lavishly illustrated', '1977/09/15')
GO
-- Given the full-text catalog for these tables is pubs_ft_ctlg,
-- repopulate it so new rows are included in the full-text indexes.
sp_fulltext_catalog 'pubs_ft_ctlg', 'start_full'
WAITFOR DELAY '00:00:30' -- Wait 30 seconds for population.
GO
-- Issue the query.
SELECT T.title, P.pub_name
FROM publishers P,
titles T
WHERE P.pub_id = T.pub_id
AND P.pub_id = (SELECT pub_id
FROM pub_info
WHERE CONTAINS (pr_info,
' moonbeam AND
ontario AND
"flying saucer" '))
GO
Utilizar predicados de texto para consultar columnas de tipo IMAGE
Los predicados CONTAINS y FREETEXT pueden utilizarse para buscar columnas IMAGE indizadas.En una sola columna IMAGE es posible almacenar muchos tipos de documentos. Microsoft® SQL SERVER admite ciertos tipos de documento y proporciona filtros para los mismos. Esta versión proporciona filtros para documentos de Office, archivos de texto y archivos HTML.
Cuando una columna IMAGE participa en un índice de texto, el servicio de texto comprueba las extensiones de los documentos de la columna IMAGE y aplica el filtro correspondiente, para interpretar los datos binarios y extraer la información de texto necesaria para la indización y la consulta.
Así, cuando configure la indización de texto sobre una columna IMAGE de una tabla, deberá crear una columna separada para que contenga la información relativa al documento. Esta columna de tipo debe ser de cualquier tipo de datos basado en caracteres y contendrá la extensión del archivo, como por ejemplo DOC para los documentos de Microsoft Word. Si el tipo de columna es NULL, el servicio de texto asumirá que el documento es un archivo de texto.
- En el Asistente para indización de texto, si selecciona una columna IMAGE para la indización, deberá especificar también una Columna de enlace para que contenga el tipo de documento.
- El procedimiento almacenado sp_fulltext_column acepta también un argumento para la columna que contendrá los tipos de documento.
- El procedimiento almacenado sp_help_fulltext_columns devuelve también el nombre de columna y el Id. de columna de la columna de tipo de documento.
Claudio