Cómo rastrear un sitio grande y extraer datos usando SEO Spider de Screaming Frog

Screaming Frog SEO Araña
Tiempo de leer: 3 minutos

Estamos ayudando a varios clientes en este momento con Migraciones de Marketo. A medida que las grandes empresas utilizan soluciones empresariales como esta, es como una telaraña que se entrelaza en procesos y plataformas a lo largo de los años ... hasta el punto de que las empresas ni siquiera son conscientes de todos los puntos de contacto.

Con una plataforma de automatización de marketing empresarial como Marketo, los formularios son el punto de entrada de datos en los sitios y las páginas de destino. Las empresas suelen tener miles de páginas y cientos de formularios en sus sitios que deben identificarse para su actualización.

Una gran herramienta para esto es Araña SEO de Screaming Frog… Quizás la plataforma más popular del mercado para rastrear, auditar y extraer datos de un sitio. La plataforma tiene muchas funciones y ofrece cientos de opciones para prácticamente todas las tareas que necesita.

Screaming Frog SEO Spider: Rastrear y extraer

Una característica clave de Screaming Frog SEO Spider es que puede realizar extracciones personalizadas basadas en Regex, XPatho un CSSPath detalles específicos. Esto resulta extremadamente útil ya que deseamos rastrear los sitios del cliente y auditar y capturar los valores de MunchkinID y FormId de las páginas.

Con la herramienta, abra Configuración> Personalizado> Extracción para identificar los elementos que desea extraer.

extracción personalizada de screamingfrog

La pantalla de extracción permite una recopilación de datos prácticamente ilimitada:

Reglas de extracción de Screaming Frog SEO Spider

Extracción de regex, XPath y CSSPath

Para MunchkinID, el identificador se encuentra dentro del script de formulario que está dentro de la página:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Luego aplicamos un Regla de expresiones regulares para capturar la identificación desde dentro de la etiqueta de secuencia de comandos que se inserta en la página:

Regex: ["']id["']: *["'](.*?)["']

Para el ID de formulario, los datos están en una etiqueta de entrada dentro del formulario de Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Aplicamos un Regla XPath para capturar la identificación desde dentro del formulario que se inserta en la página. La consulta XPath busca un formulario con una entrada con un nombre de formid, entonces la extracción guarda el valor:

XPath: //form/input[@name="formid"]/@value

Renderizado en Javascript de Screaming Frog SEO Spider

Otra gran opción de Screaming Frog es que no está limitado al HTML en la página, puede renderizar cualquier JavaScript que inserte formularios dentro de su sitio. Dentro Configuración> Araña, puede ir a la pestaña Representación y habilitar esto.

Renderizado en Javascript de Screaming Frog SEO Spider

Esto lleva un poco más de tiempo rastrear el sitio, por supuesto, pero obtendrá formularios que se procesan en el lado del cliente mediante JavaScript, así como formularios que se insertan en el lado del servidor.

Si bien esta es una aplicación muy específica, es increíblemente útil ya que trabaja con sitios grandes. Definitivamente querrá auditar dónde están incrustados sus formularios en todo el sitio.

Descarga Screaming Frog SEO Spider

¿Qué piensas?

Este sitio usa Akismet para reducir el correo no deseado. Descubra cómo se procesan los datos de sus comentarios.