Marketing por correo electrónico y automatizaciónHerramientas de marketing

Cómo rastrear un sitio grande y extraer datos usando SEO Spider de Screaming Frog

Estamos ayudando a varios clientes en este momento con las migraciones de Marketo. A medida que las grandes empresas utilizan soluciones empresariales como esta, es como una telaraña que se teje en procesos y plataformas durante años hasta que las empresas ni siquiera son conscientes de cada punto de contacto.

Con una plataforma de automatización de marketing empresarial como Marketo, los formularios son el punto de entrada de datos en los sitios y páginas de destino. Las empresas suelen tener miles de páginas y cientos de formularios en sus sitios que deben identificarse para su actualización.

Una gran herramienta para esto es Araña SEO de Screaming Frog…quizás la plataforma más popular en el mercado de SEO para rastrear, auditar y extraer datos de un sitio. La plataforma rica en funciones ofrece cientos de opciones para prácticamente todas las tareas que necesite. Sin embargo, las funciones van mucho más allá de la optimización para la búsqueda, con una función increíblemente útil para extraer datos de su sitio mientras se rastrea.

Screaming Frog SEO Spider: Rastrear y extraer

Una característica clave de Screaming Frog SEO Spider es que puede realizar extracciones personalizadas basadas en Regex, XPatho Ruta CSSP detalles específicos. Esto es extremadamente útil ya que deseamos rastrear los sitios del cliente y auditar y capturar los valores de MunchkinID y FormId de las páginas.

Con la herramienta, abra Configuración> Personalizado> Extracción para identificar los elementos que desea extraer.

extracción personalizada de screamingfrog

La pantalla de extracción permite una recopilación de datos prácticamente ilimitada:

Reglas de extracción de Screaming Frog SEO Spider

Extracción de regex, XPath y CSSPath

Para MunchkinID, el identificador se encuentra dentro del script del formulario que se encuentra en la página:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Luego aplicamos un Regla de expresiones regulares para capturar la identificación desde dentro de la etiqueta de secuencia de comandos que se inserta en la página:

Regex: ["']id["']: *["'](.*?)["']

Para el ID de formulario, los datos están en una etiqueta de entrada dentro del formulario de Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Aplicamos un Regla XPath para capturar la identificación desde el formulario insertado en la página. La consulta XPath busca un formulario con una entrada con un nombre de formidable, entonces la extracción guarda el propuesta de:

XPath: //form/input[@name="formid"]/@value

Extraer etiquetas de estilo en línea

Estamos ayudando a un cliente a limpiar un sitio donde usaba estilos en línea en el complemento Elementor para personalizar prácticamente todos los elementos de una página. Para identificar dónde se utilizaron los estilos en línea, seleccionamos el sitio con varias reglas RegEx para una extracción personalizada:

  • Estilo en línea de tramo:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Estilo en línea de la etiqueta de anclaje:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Estilo en línea de la etiqueta Div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Etiqueta de encabezado Estilo en línea:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"

Exclusiones

At Martech Zone, ofrecemos el sitio en varios idiomas en diferentes subdominios. No es necesario rastrear estas traducciones ya que todos los activos y la información se basan en el sitio principal. Debido a esto, habilitamos la configuración de la lista de exclusión y agregamos la siguiente regla:

.*\.martech.zone

También puede usar esto para omitir el rastreo de rutas innecesarias como etiquetas agregando:

martech.zone/tag/.*

Tampoco queremos rastrear nuestras páginas AMP, que terminan en ?amp=1, entonces en el

Configuración > Excluir sección, también hemos agregado:

https?://[^\s]+?\?amp=1

La plataforma incluso tiene un buen método para probar algunos URL contra las reglas para garantizar que funcionen correctamente antes de rastrear su sitio.

ScreamingFrog > Configuración > Excluir

Representación de JavaScript de Screaming Frog SEO Spider

Otra gran opción de Screaming Frog es que no estás limitado a la HTML en la página, puede representar cualquier JavaScript que vaya a insertar formularios dentro de su sitio. Dentro Configuración> Araña, puede ir a la pestaña Representación y habilitar esto.

Representación de JavaScript de Screaming Frog SEO Spider

Esto lleva un poco más de tiempo rastrear el sitio, por supuesto, pero obtendrá formularios que se procesan en el lado del cliente mediante JavaScript, así como formularios que se insertan en el lado del servidor.

Si bien esta es una aplicación muy específica, es increíblemente útil ya que trabaja con sitios grandes. Definitivamente querrá auditar dónde están incrustados sus formularios en todo el sitio.

Descarga Screaming Frog SEO Spider

Divulgación: Martech Zone está utilizando sus enlaces de afiliados en este artículo.

Douglas Karr

Douglas Karr es CMO de AbrirINSIGHTS y el fundador de la Martech Zone. Douglas ha ayudado a docenas de nuevas empresas exitosas de MarTech, ha colaborado en la diligencia debida de más de $5 mil millones en adquisiciones e inversiones de Martech y continúa ayudando a las empresas a implementar y automatizar sus estrategias de ventas y marketing. Douglas es un orador y experto en transformación digital y MarTech reconocido internacionalmente. Douglas también es autor de una guía para principiantes y de un libro sobre liderazgo empresarial.

Artículos Relacionados

Volver al botón superior
Cerrar

Adblock detectado

Martech Zone puede proporcionarle este contenido sin costo porque monetizamos nuestro sitio a través de ingresos publicitarios, enlaces de afiliados y patrocinios. Le agradeceríamos que elimine su bloqueador de anuncios mientras visita nuestro sitio.