Cómo rastrear un sitio grande y extraer datos usando SEO Spider de Screaming Frog
Estamos ayudando a varios clientes en este momento con las migraciones de Marketo. A medida que las grandes empresas utilizan soluciones empresariales como esta, es como una telaraña que se teje en procesos y plataformas durante años hasta que las empresas ni siquiera son conscientes de cada punto de contacto.
Con una plataforma de automatización de marketing empresarial como Marketo, los formularios son el punto de entrada de datos en los sitios y páginas de destino. Las empresas suelen tener miles de páginas y cientos de formularios en sus sitios que deben identificarse para su actualización.
Una gran herramienta para esto es Araña SEO de Screaming Frog…quizás la plataforma más popular en el mercado de SEO para rastrear, auditar y extraer datos de un sitio. La plataforma rica en funciones ofrece cientos de opciones para prácticamente todas las tareas que necesite. Sin embargo, las funciones van mucho más allá de la optimización para la búsqueda, con una función increíblemente útil para extraer datos de su sitio mientras se rastrea.
Screaming Frog SEO Spider: Rastrear y extraer
Una característica clave de Screaming Frog SEO Spider es que puede realizar extracciones personalizadas basadas en Regex, XPatho Ruta CSSP detalles específicos. Esto es extremadamente útil ya que deseamos rastrear los sitios del cliente y auditar y capturar los valores de MunchkinID y FormId de las páginas.
Con la herramienta, abra Configuración> Personalizado> Extracción para identificar los elementos que desea extraer.
La pantalla de extracción permite una recopilación de datos prácticamente ilimitada:
Extracción de regex, XPath y CSSPath
Para MunchkinID, el identificador se encuentra dentro del script del formulario que se encuentra en la página:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Luego aplicamos un Regla de expresiones regulares para capturar la identificación desde dentro de la etiqueta de secuencia de comandos que se inserta en la página:
Regex: ["']id["']: *["'](.*?)["']
Para el ID de formulario, los datos están en una etiqueta de entrada dentro del formulario de Marketo:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Aplicamos un Regla XPath para capturar la identificación desde el formulario insertado en la página. La consulta XPath busca un formulario con una entrada con un nombre de formidable, entonces la extracción guarda el propuesta de:
XPath: //form/input[@name="formid"]/@value
Extraer etiquetas de estilo en línea
Estamos ayudando a un cliente a limpiar un sitio donde usaba estilos en línea en el complemento Elementor para personalizar prácticamente todos los elementos de una página. Para identificar dónde se utilizaron los estilos en línea, seleccionamos el sitio con varias reglas RegEx para una extracción personalizada:
- Estilo en línea de tramo:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Estilo en línea de la etiqueta de anclaje:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Estilo en línea de la etiqueta Div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Etiqueta de encabezado Estilo en línea:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Exclusiones
At Martech Zone, ofrecemos el sitio en varios idiomas en diferentes subdominios. No es necesario rastrear estas traducciones ya que todos los activos y la información se basan en el sitio principal. Debido a esto, habilitamos la configuración de la lista de exclusión y agregamos la siguiente regla:
.*\.martech.zone
También puede usar esto para omitir el rastreo de rutas innecesarias como etiquetas agregando:
martech.zone/tag/.*
Tampoco queremos rastrear nuestras páginas AMP, que terminan en ?amp=1
, entonces en el
https?://[^\s]+?\?amp=1
La plataforma incluso tiene un buen método para probar algunos URL contra las reglas para garantizar que funcionen correctamente antes de rastrear su sitio.
Representación de JavaScript de Screaming Frog SEO Spider
Otra gran opción de Screaming Frog es que no estás limitado a la HTML en la página, puede representar cualquier JavaScript que vaya a insertar formularios dentro de su sitio. Dentro Configuración> Araña, puede ir a la pestaña Representación y habilitar esto.
Esto lleva un poco más de tiempo rastrear el sitio, por supuesto, pero obtendrá formularios que se procesan en el lado del cliente mediante JavaScript, así como formularios que se insertan en el lado del servidor.
Si bien esta es una aplicación muy específica, es increíblemente útil ya que trabaja con sitios grandes. Definitivamente querrá auditar dónde están incrustados sus formularios en todo el sitio.
Descarga Screaming Frog SEO Spider
Divulgación: Martech Zone está utilizando sus enlaces de afiliados en este artículo.