Tienes varios modos de conseguir esto.
- Usar el robots.txt
Con el archivo de robots.txt puedes definir qué quieres que se indexe de tu sitio web. O bien, dedicir qué partes del sitio o URLs concretas no deseas que se indexen en buscadores. Tienes un artículo entero dedicado al archivo robots.txt.
- Usar una etiqueta META robots noindex
Quizás no tengas posibilidad de editar el robots.txt de manera dinámica, a medida que se van generando URLs dentro del sitio web. Para poder definir entonces fácilmente que una página no se debe indexar puedes escribir una etiqueta META dentro del <head> de la página. Es una etiqueta méta llamada robots, a la que le pones como content "noindex". Queda así:
<meta name="robots" content="noindex">
Sin duda esta es una manera mucho más versátil de conseguir que no se indexen ciertos contenidos de una web o aplicación web, porque se puede definir página a página, de manera independiente y, si fuera el caso, cambiar la etiqueta META con programación cuando surjan situaciones nuevas en la estructura o contenido de tu web.
- Cabecera HTTP noindex
La tercera vía sería colocar una cabecera en la respuesta HTTP que ofrece el servidor. No creo que sea tan sencillo, ya que generar cabeceras en la respuesta no es algo tan trivial y requiere algo de programación, que depende del lenguaje que uses del lado del servidor.
La cabecera sería como esta:
X-Robots-Tag: noindex
Espero que esto te haya servidor de ayuda.