В данной категории собраны программы для автоматизированного поиска, анализа и сбора данных с определенных веб-ресурсов. Парсеры подходят для отслеживания цен на различные товары в интернет-магазинах, автоматического добавления товарных позиций (наименования, артикул, описание, фотографии и другие характеристики), извлечения метаданных HTML-страниц (поля description, title и другие), а также поиска ошибок, неработающих ссылок, редиректов и прочего. Как правило, приложения для парсинга используются для сбора только той информации, которая находится в открытом доступе.
Парсинг предусматривает разные подходы к извлечению и сбору данных. Среди самых популярных можно выделить следующие: распознание семантической разметки, анализ кода веб-страниц, поиск и сопоставление по текстовым шаблонам, использование кросс-доменных запросов к прокси-серверу, получение данных из DOM-дерева ресурса, применение специализированных ботов и онлайн платформ.
Также многие ресурсы обладают защитой, которая не позволяет собирать данные в автоматическом режиме. Она срабатывает в том случае, если на сайте замечена аномальная активность, когда пользователи создают множество запросов для сканирования и получения нужной информации, что актуально для различных ботов. При этом некоторые парсеры способны имитировать действия настоящих пользователей, тем самым нивелируя барьеры по защите данных от парсинга.