Парсер вордстата «Магадан» 2.1

Магадан

Вышла новая версия навороченного парсера Яндекса «Магадан» — 2.1.

Вот полный список изменений:

— Добавлен мастер обработки файлов баз данных.
— Генерация слепков базы данных.
— Сравнение содержимого имеющейся базы со слепком.
— Объединение множества баз ключевых слов в одну.
— Добавлена возможность задать диапазон для рандомных задержек парсинга.
— Поддержка экспорта ключевиков в разных кодировках (win1251, UTF-8).
— Полноценная поддержка “слов в двойных кавычках”.
— Различные багфиксы.

Суть всех пунктов очевидна без дополнительных комментариев, однако подробнее остановлюсь на слепках баз.
Описание для технарей: слепок базы — это plaintext-файл с MD5-хэшами ключевиков, хранящихся в базе.
Описание для гуманитариев: слепок базы — это файл, описывающий содержимое базы, но при этом не раскрывающий фактических значений ключевиков.

Слепок позволяет сравнить эталонную базу А (с которой был снят слепок) с базой B, получив в результате процент пересекающихся ключевиков в обеих базах. Соль в том, что фактическое содержимое базы A при этом не раскрывается (крипторафия, математика, хуе-мое).

До появления «Магадана» вы всегда рисковали, покупая базу ключевиков у незнакомца! Мало приятного, когда после передачи денег за базу, обнаруживаешь, что две трети ее содержимого уже есть в собственных базах. Теперь достаточно попросить у продавца слепок выставленной на продажу базы, и с помощью «Магадана» сравнить этот слепок со своими базами. Продавец ничем не рискует, ведь слепок не содержит значений ключевиков, только их контрольные суммы, а вы сможете отказаться от покупки кота в мешке. Профит!

Немного теории по контрольным суммам: «Магадан» использует популярную хэш-функцию MD5. Формально функция считается необратимой. Оставлю доказательство сего факта на совести математиков. Скажу лишь, что функция актуальна, используется всеми и вся, во всех этих ваших пэхэпэ, вордпрессах ну и т.д. Конечно же, абсолютной(!) гарантии невозможности обратить функцию никто вам не даст — в конечном итоге все упирается во временные затраты и скорость выполнения вычислений, но практика показывает, что цель соответствует средствам — на текущий момент качественный промышенный слом MD5 остается фантастикой. К тому же речь идет не о счетах швейцарских «прачек».

Тут мне могут напомнить про атаку по открытому тексту. Без вопросов, в нашем конкретном случае атака по открытому тексту — самый действенный метод. Зная тематику оригинальной базы, с которой был сделан слепок, можно запариться и за относительно(!) короткое время подобрать брутфорсом все слова. Но это то же самое, что собственноручно генерить составные ключевики. За время, необходимое на полное восстановление оригинального содержимого базы полным перебором, можно напарсить на несколько порядков больше ключевиков. Более того, информация по статистике ключевиков вообще никак не фигурирует в процессе генерации слепка, так что профит от брутфорса слепков стремится к нулю.

Такие дела.

Новый «Магадан» можно скачать на официальном сайте: http://magadanparser.ru.

Лучшее для оптимизатора

Sape - продвижение сайта через биржу ссылок
TrustLink - трастовые сайты. Актуальный тренд!
GoGetLinks - покупка-продажа вечных ссылок
Blogun - раскрутка сайта на бирже блогов
Miralinks - поднятие рейтинга сайта на бирже статей
Textsale - готовые статьи (продажа-покупка)
sMonster - SMO продвижение в социальных сетях
Seopult-автоматическое продвижение сайта №1
Rookee - ультрасовременная раскрутка сайта
WebEffector - автораскрутка сайта с гарантией качества
Зеброид - автоматическое наполнение сайтов
AllSubmitter - SEO хит всех времен
Xtool - Проверка трастовости сайтов
Content Downloader - парсер контента
1PS - регистрация в каталогах
Nolix - просто заработать на своем сайте