> Manuales > Tutorial de SQL

Continuación del articulo sobre las consultas y los índices de texto.

Utilizar el predicado CONTAINS

Puede usar el predicado CONTAINS para buscar una determinada frase en una base de datos. Por supuesto, dicha consulta puede escribirse con el predicado LIKE. Sin embargo, algunas formas de CONTAINS proporcionan mayor variedad de consultas de texto que la que se puede obtener con LIKE. Además, al contrario que cuando se utiliza el predicado LIKE, una búsqueda con CONTAINS no distingue entre mayúsculas y minúsculas.

Nota: Las consultas de búsqueda de texto se comportan de forma que no distinguen entre mayúsculas y minúsculas en aquellos idiomas (mayoritariamente los latinos) en los que tiene sentido distinguir entre mayúsculas y minúsculas. Sin embargo, en japonés, hay muchas ortografías fonéticas en las que el concepto de normalización ortográfica implica no distinguir las mayúsculas de las minúsculas (por ejemplo, las letras kana no tienen mayúsculas y minúsculas). Este tipo de normalización ortográfica no se admite.

Suponga que desea buscar en la base de datos Northwind la frase "bean curd". Si usa el predicado CONTAINS, ésta es una consulta bastante fácil.

USE Northwind USE Northwind
GO
SELECT Description
FROM Categories
WHERE Description LIKE '%bean curd%'
GO

O, con CONTAINS:

USE Northwind
GO
SELECT Description
FROM Categories
WHERE CONTAINS(Description, ' "bean curd" ')
GO

El predicado CONTAINS usa una notación funcional en la que el primer parámetro es el nombre de la columna que se está buscando y el segundo parámetro es una condición de búsqueda de texto. La condición de búsqueda, en este caso "bean curd", puede ser bastante compleja y está formada por uno o más elementos, que se describen posteriormente.

El predicado CONTAINS admite una sintaxis compleja para buscar en las columnas basadas en caracteres:

Un predicado CONTAINS puede combinar varios de estos términos si usa AND y OR, por ejemplo, podría buscar todas las filas con "leche" y "café al estilo de Toledo" en la misma columna de base datos habilitada para texto . Además, los términos se pueden negar con el uso de AND NOT, por ejemplo, "pastel AND NOT queso de untar".

Cuando use CONTAINS, recuerde que SQL Server rechaza las palabras vacías de los criterios de búsqueda. Las palabras irrelevantes son aquellas como "un", "y", "es" o "el", que aparecen con frecuencia pero que, en realidad, no ayudan en la búsqueda de un texto determinado.

Utilizar el predicado FREETEXT

Con un predicado FREETEXT, puede escribir cualquier conjunto de palabras o frases, e incluso una frase completa. El motor de consultas de texto examina este texto, identifica todas las palabras y frases de nombres significativas y construye internamente una consulta con esos términos. En este ejemplo se usa un predicado FREETEXT en una columna llamada description.

FREETEXT (description, ' "The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produced no evidence that any irregularities took place." ')

El motor de búsqueda identifica palabras y frases nominales tales como las siguientes:

Palabras:

   Fulton, county, grand, jury, Friday, investigation, Atlanta, recent, primary, election, produce, evidence, irregularities

Frases:

    Fulton county grand jury, primary election, grand jury, Atlanta's recent primary election

Las palabras y frases de la cadena FREETEXT (y sus variaciones generadas de forma inflexiva) se combinan internamente en una consulta, ponderada para clasificarla adecuadamente y, a continuación, se realiza la búsqueda real.

Funciones de conjunto de filas CONTAINSTABLE y FREETEXTTABLE

Las funciones CONTAINSTABLE y FREETEXTTABLE se usan para especificar las consultas de texto que devuelve la clasificación por porcentaje de aciertos de cada fila. Estas funciones son muy similares a los predicados de texto CONTAINS y FREETEXT, pero se utilizan de forma diferente.

Los predicados de texto de las funciones

Aunque tanto los predicados de texto como las funciones de conjunto de filas de texto se usan para las consultas de texto y la instrucción TRANSACT-SQL usada para especificar la condición de búsqueda de texto es la misma en los predicados y en las funciones, hay importantes diferencias en la forma en la que éstas se usan:

Las consultas que usan las funciones CONTAINSTABLE y FREETEXTTABLE son más complejas que las que usan los predicados CONTAINS y FREETEXT porque las filas que cumplen los criterios y que son devueltas por las funciones deben ser combinadas explícitamente con las filas de la tabla original de SQL SERVER.

Este ejemplo devuelve la descripción y el nombre de categoría de todas las categorías de alimentos en las que la columna Description contenga las palabras "sweet and savory" cerca de la palabra "sauces" o de la palabra "candies". Todas las filas cuyo nombre de categoría sea "Seafood" no se devuelven. Sólo se devuelven las filas cuyo valor de distancia sea igual o superior a 2.

USE Northwind
GO
SELECT FT_TBL.Description, FT_TBL.CategoryName, KEY_TBL.RANK
FROM Categories AS FT_TBL INNER JOIN
CONTAINSTABLE (Categories, Description,
'("sweet and savory" NEAR sauces) OR
("sweet and savory" NEAR candies)') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK > 2 AND FT_TBL.CategoryName <> 'Seafood'
ORDER BY KEY_TBL.RANK DESC

Este ejemplo devuelve la descripción y el nombre de categoría de las 10 categorías superiores de alimentos donde la columna Description contenga las palabras "sweet and savory" cerca de la palabra "sauces" o de la palabra "candies".

SELECT FT_TBL.Description, FT_TBL.CategoryName, KEY_TBL.RANK
FROM Categories AS FT_TBL INNER JOIN
CONTAINSTABLE (Categories, Description,
'("sweet and savory" NEAR sauces) OR
("sweet and savory" NEAR candies)', 10) AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]

Comparación entre CONTAINSTABLE y CONTAINS

La función CONTAINSTABLE y el predicado CONTAINS utilizan condiciones de búsqueda similares.

Sin embargo, en CONTAINSTABLE se especifica la tabla en la que tendrá lugar la búsqueda de texto, la columna (o todas las columnas) de la tabla en las que se buscará y la condición de búsqueda. Un cuarto parámetro, opcional, hace posible que el usuario indique que se devuelva sólo el número más alto especificado de coincidencias. Para obtener más información, consulte la sección Limitar los conjuntos de resultados.

CONTAINSTABLE devuelve una tabla que incluye una columna denominada RANK. Esta columna RANK contiene un valor para cada fila que indica el grado de coincidencia de cada fila con los criterios de selección.

En esta consulta se especifica la utilización de CONTAINSTABLE para devolver un valor de clasificación por cada fila.

USE Northwind
GO
SELECT K.RANK, CompanyName, ContactName, Address
FROM Customers AS C
INNER JOIN
CONTAINSTABLE(Customers,Address,
'ISABOUT ("des*", Rue WEIGHT(0.5), Bouchers WEIGHT(0.9))') AS K
ON C.CustomerID = K.[KEY]

Comparación entre FREETEXTTABLE y FREETEXT

En la consulta siguiente se amplía una consulta FREETEXTTABLE para que devuelva primero las filas con clasificación superior y agregue la clasificación de cada fila a la lista de selección. Para especificar la consulta, debe saber que CategoryID es la columna de clave única de la tabla Categories.

USE Northwind
GO
SELECT KEY_TBL.RANK, FT_TBL.Description
FROM Categories AS FT_TBL
INNER JOIN
FREETEXTTABLE(Categories, Description,
'How can I make my own beers and ales?') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
ORDER BY KEY_TBL.RANK DESC
GO

La única diferencia en la sintaxis de FREETEXTTABLE y FREETEXT es la inserción del nombre de la tabla como el primer parámetro.

Esto es una ampliación de la misma consulta que sólo devuelve las filas con un valor de clasificación de 10 o superior:

USE Northwind
GO
SELECT KEY_TBL.RANK, FT_TBL.Description
FROM Categories FT_TBL
INNER JOIN
FREETEXTTABLE (Categories, Description,
'How can I make my own beers and ales?') AS KEY_TBL
ON FT_TBL.CategoryID = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK >= 10
ORDER BY KEY_TBL.RANK DESC
GO

Identificación del nombre de la columna de la clave única

Las consultas que usan funciones que toman valores de conjuntos de filas son complicadas porque es necesario saber el nombre de la columna de clave exclusiva. Cada tabla habilitada para texto tiene la propiedad TableFulltextKeyColumn que contiene el número de ID de la columna que ha sido seleccionada para tener filas únicas en la tabla. En este ejemplo se muestra cómo se puede obtener el nombre de la columna de clave y usarse en la programación.

USE Northwind
GO
DECLARE @key_column sysname
SET @key_column = Col_Name(Object_Id('Categories'),
ObjectProperty(Object_id('Categories'),
'TableFulltextKeyColumn')
)
print @key_column
EXECUTE ('SELECT Description, KEY_TBL.RANK
FROM Categories FT_TBL
INNER JOIN
FreetextTable (Categories, Description,
''How can I make my own beers and ales?'') AS KEY_TBL
ON FT_TBL.'
+ @key_column
+' = KEY_TBL.[KEY]
WHERE KEY_TBL.RANK >= 10
ORDER BY KEY_TBL.RANK DESC
')
GO

Puede evitar la complejidad de la utilización de CONTAINSTABLE y FREETEXTTABLE si escribe procedimientos almacenados que acepten unos cuantos supuestos acerca de la consulta y, a continuación, creen y ejecuten la consulta adecuada. A continuación se muestra un procedimiento simplificado que emite una consulta FREETEXTTABLE. La tabla muestra los parámetros del procedimiento (todas las entradas).

ParámetrosOpcionalDescripción
@additional_predicatesOpcionalSi hay algún predicado adicional, éste se agrega con AND detrás del predicado FREETEXT. KEY_TBL.RANK se puede usar en expresiones.
@freetext_columnSI
@freetext_searchSICondición de Búsqueda
@from_tableSI
@order_by_listOpcionalKEY_TBL.RANK puede ser una de las columnas especificadas.
@select_listSI KEY_TBL.RANK puede ser una de las columnas especificadas.

El código del procedimiento es el siguiente:

CREATE PROCEDURE freetext_rank_proc
@select_list nvarchar(1000),
@from_table nvarchar(517),
@freetext_column sysname,
@freetext_search nvarchar(1000),
@additional_predicates nvarchar(500) = '',
@order_by_list nvarchar(500) = ''
AS
BEGIN
DECLARE @table_id integer,
@unique_key_col_name sysname,
@add_pred_var nvarchar(510),
@order_by_var nvarchar(510)

-- Get the name of the unique key column for this table.
SET @table_id = Object_Id(@from_table)
SET @unique_key_col_name =
Col_Name( @table_id,
ObjectProperty(@table_id, 'TableFullTextKeyColumn') )

-- If there is an additional_predicate, put AND() around it.
IF @additional_predicates <> ''
SET @add_pred_var = 'AND (' + @additional_predicates + ')'
ELSE
SET @add_pred_var = ''

-- Insert ORDER BY, if needed.
IF @order_by_list <> ''
SET @order_by_var = 'ORDER BY ' + @order_by_var
ELSE
SET @order_by_var = ''

-- Execute the SELECT statement.
EXECUTE ( 'SELECT '
+ @select_list
+ ' FROM '
+ @from_table
+ ' AS FT_TBL, FreetextTable('
+ @from_table
+ ','
+ @freetext_column
+ ','''
+ @freetext_search
+ ''') AS KEY_TBL '
+ 'WHERE FT_TBL.'
+ @unique_key_col_name
+ ' = KEY_TBL.[KEY] '
+ @add_pred_var
+ ' '
+ @order_by_var
)
END

Este procedimiento se puede usar para emitir la consulta:

USE Northwind
GO
EXECUTE freetext_rank_proc
'Description, KEY_TBL.RANK', -- Select list
'Categories', -- From
'Description', -- Column
'How can I make my own beers and ales?', -- Freetext search
'KEY_TBL.RANK >= 10', -- Additional predicate
'KEY_TBL.RANK DESC' -- Order by
GO

Limitar los conjuntos de resultados

En muchas consultas de texto, el número de elementos que coinciden con la condición de búsqueda es muy grande. Para evitar que las consultas devuelvan demasiadas coincidencias, utilice el argumento opcional, top_n_by_rank, en CONTAINSTABLE y FREETEXTTABLE para especificar el número de coincidencias, ordenadas, que desea que se devuelvan.

Con esta información, Microsoft® SQL SERVER ordena las coincidencias y devuelve sólo hasta completar el número especificado. Esta opción puede aumentar significativamente el rendimiento. Por ejemplo, una consulta que por lo general devolvería 100.000 filas de una tabla de 1 millón se procesará de forma más rápida si sólo se piden las 100 primeras filas.

Si sólo se desea que se devuelvan las 3 coincidencias mayores del ejemplo anterior, mediante CONTAINSTABLE, la consulta tendrá esta forma:

USE Northwind
GO
SELECT K.RANK, CompanyName, ContactName, Address
FROM Customers AS C
INNER JOIN
CONTAINSTABLE(Customers,Address, 'ISABOUT ("des*",
Rue WEIGHT(0.5),
Bouchers WEIGHT(0.9))', 3) AS K
ON C.CustomerID = K.[KEY]

Buscar palabras o frases con valores ponderados (término ponderado)

Puede buscar palabras o frases y especificar un valor ponderado. El peso, un número entre 0,0 y 1,0, indica el grado de importancia de cada palabra o frase en un conjunto de palabras y frases. El valor 0,0 es el peso más pequeño disponible, y el valor 1,0 es el peso más grande. Por ejemplo, en esta consulta se buscan todas las direcciones de los clientes, con valores ponderados, en los que cualquier texto que comience con la cadena "des" esté cerca de Rue o Bouchers. Microsoft® SQL SERVER™ da una clasificación superior a aquellas filas que contienen la mayor cantidad de palabras especificadas. Por tanto, SQL SERVER da una clasificación superior a una fila que contiene des Rue Bouchers que a una fila que contiene des Rue.

USE Northwind
GO
SELECT CompanyName, ContactName, Address
FROM Customers
WHERE CONTAINS(Address, 'ISABOUT ("*des*",
Rue WEIGHT(0.5),
Bouchers WEIGHT(0.9)
) ' )
GO

Un término ponderado se puede usar en conjunción con cualquiera de los otros cuatro tipos de términos.

Combinar predicados de texto con otros predicados de TRANSACT-SQL

Los predicados CONTAINS y FREETEXT se pueden combinar con el resto de predicados de TRANSACT-SQL, como, por ejemplo, LIKE y BETWEEN; también se pueden usar en una subconsulta. En este ejemplo se buscan descripciones cuya categoría no sea Seafood y que contengan la palabra "sauces" y la palabra "seasonings".

USE Northwind
GO
SELECT Description
FROM Categories
WHERE CategoryName <> 'Seafood' AND
CONTAINS(Description, ' sauces AND seasonings ')
GO

En la siguiente consulta se usa CONTAINS dentro de una subconsulta. Con la base de datos pubs, la consulta obtiene el valor del título de todos los libros de la tabla titles del publicador que se encuentra próximo al platillo volante de Moonbeam, Ontario. (Esta información acerca del publicador se encuentra en la columna pr_info de la tabla pub_info y sólo hay uno de estos publicadores.)

USE pubs
GO
-- Add some interesting rows to some tables.
INSERT INTO publishers
VALUES ('9970', 'Penumbra Press', 'Moonbeam', 'ON', 'Canada')
INSERT INTO pub_info (pub_id, pr_info)
VALUES ('9970',
'Penumbra press is located in the small village of Moonbeam. Moonbeam is well known as the flying saucer capital of Ontario. You will often find one or more flying saucers docked close to the tourist information centre on the north side of highway 11.')

INSERT INTO titles
VALUES ('FP0001', 'Games of the World', 'crafts', '9970', 9.85,
0.00, 20, 213, 'A crafts book! A sports book! A history book! The fun and excitement of a world at play -
beautifully described and lavishly illustrated', '1977/09/15')
GO
-- Given the full-text catalog for these tables is pubs_ft_ctlg,
-- repopulate it so new rows are included in the full-text indexes.
sp_fulltext_catalog 'pubs_ft_ctlg', 'start_full'
WAITFOR DELAY '00:00:30' -- Wait 30 seconds for population.
GO
-- Issue the query.
SELECT T.title, P.pub_name
FROM publishers P,
titles T
WHERE P.pub_id = T.pub_id
AND P.pub_id = (SELECT pub_id
FROM pub_info
WHERE CONTAINS (pr_info,
' moonbeam AND
ontario AND
"flying saucer" '))
GO

Utilizar predicados de texto para consultar columnas de tipo IMAGE

Los predicados CONTAINS y FREETEXT pueden utilizarse para buscar columnas IMAGE indizadas.

En una sola columna IMAGE es posible almacenar muchos tipos de documentos. Microsoft® SQL SERVER™ admite ciertos tipos de documento y proporciona filtros para los mismos. Esta versión proporciona filtros para documentos de Office, archivos de texto y archivos HTML.

Cuando una columna IMAGE participa en un índice de texto, el servicio de texto comprueba las extensiones de los documentos de la columna IMAGE y aplica el filtro correspondiente, para interpretar los datos binarios y extraer la información de texto necesaria para la indización y la consulta.

Así, cuando configure la indización de texto sobre una columna IMAGE de una tabla, deberá crear una columna separada para que contenga la información relativa al documento. Esta columna de tipo debe ser de cualquier tipo de datos basado en caracteres y contendrá la extensión del archivo, como por ejemplo DOC para los documentos de Microsoft Word. Si el tipo de columna es NULL, el servicio de texto asumirá que el documento es un archivo de texto.

Una vez indizada, podrá consultar la columna IMAGE como lo haría con cualquier otra columna de la tabla, mediante los predicados CONTAINS y FREETEXT.

Claudio

Manual