Поиск в Google - инструмент бизнес-разведки для изучения прошлого партнеров и соискателей, мониторинга конкурентов и расследования правонарушений. Применяется для получения чувствительной информации из открытых источников. В статье рассмотрим операторы расширенного поиска, сервисы автоматизации поиска, и вернемся в прошлое с помощью Wayback Machine.
Стратегия и логика поиска
Логика построения запросов напрямую влияет на качество результатов. Руководитель проекта BBC Academy Investigations Support Пол Майерс в мастер-классе по поиску пишет: "Для эффективного поиска нужна стратегия и правильные ключевые слова. При поиске смотрите на количество результатов. Если их слишком много, то нужно больше дополнительных ключевых слов". Чтобы продемонстрировать логику построения запросов, Майерс приводит пример поиска сравнений известных убийств. Ключевые слова “Kennedy” и "Lennon" ведут к 13,7 млн результатов, в том числе к тренерам футбольного клуба “Селтик” Нилу Леннону и Джону Кеннеди. Но добавьте слово “Caesar” - и выдача сузится до 2,5 млн результатов, которые сфокусированы только на сравнении убийств, потому что, как объясняет Майерс, “по какой другой причине эти три фамилии могли бы оказаться на одной странице?” Наверное, если бы одним из тренеров или футболистов “Селтик” был человек с фамилией Цезарь.
Также для уточнения результатов поиска слова окружают кавычками, чтобы Google не искал синонимы, либо добавляют знак “-” перед словом, чтобы исключить неуместные результаты.
Операторы поиска в Google
Если ключевые слова все еще дают миллионы результатов, попробуйте использовать операторы расширенного поиска Google Dorks, чтобы сузить поиск и найти:
- Человека:
“john” “kennedy” site:linkedin.com - ищет в LinkedIn точные совпадения имени и фамилии, в любой комбинации
“john kennedy” -site:linkedin.com - точное совпадение имени, исключает результаты в LinkedIn
allinurl:john kennedy site:nytimes.com - страницы на сайтах новостей, содержащие «john» и «kennedy» в URL
- Адреса e-mail:
HR “email” site:example.com filetype:csv | filetype:xls | filetype:xlsx - списки контактов HR в заданном домене; для оператора filetype: существует краткая форма - ext:
“*@example.com” site:example.com - все e-mail в заданном домене
С помощью Google Dorks находятся документы, по неосторожности создателей оставленные в общем доступе, а значит проиндексированные поисковым механизмом Google:
- Резюме:
“CV” filetype:docx | filetype:pdf “john” “kennedy” - ищет резюме в форматах .docx или .pdf, содержащие “CV” в имени файла
- Документы в Google Docs, в которых не установлены настройки конфиденциальности:
site:docs.google.com “company name”
- Презентации и инфографика компании:
site:slideshare.net “company name” - при бесплатном использовании сервисов создания презентаций, блок-схем и диаграмм, таких как Slideshare, Prezi, Emaze, Gliffy, файлы общедоступны и индексируются Google.
Журналы ошибок и журналы доступа, обнаруженные в общедоступном HTTP-пространстве, откроют путь к чувствительным данным сервера:
allintext:username filetype:log - ищет файлы *.log, в которых содержится “username”
Чтобы просмотреть сохраненную копию удаленной страницы, в Google Chrome выбираем опцию “Cached” напротив результата поиска. Либо применяем оператор поиска cache:example.com.
Уже чувствуете себя хакером? На портале Google Hacking Database - свежие примеры комбинаций операторов для поиска незащищенных страниц; файлов, содержащих пароли и данные авторизации; устройств, подключенных к интернету.
Машина времени
Средняя продолжительность жизни веб-страницы - около ста дней. Пост Стрелкова 17 июля 2014 г. ВКонтакте «Мы только что сбили самолет» продержался два часа. Когда оказалось, что сбитый самолет - Боинг MH17, пост удалили, но интернет-архив сохранил его копию. “Именно поэтому мы существуем” - написали авторы проекта Wayback Machine в Facebook, и опубликовали статью о сбитом Боинге[1].
Цель проекта Wayback Machine - «универсальный доступ ко всем знаниям» благодаря сохранению архивных копий веб-страниц, которых больше не существует. Сервис компании Internet Archive содержит 445 млрд веб-страниц и пригодится, если поиск кэшированной страницы в Google не дал результатов. В конкурентной разведке используется при описании истории компании, для поиска предыдущих проектов, владельцев или инвесторов.
Не только веб-страницы: Библиотека Internet Archive включает 20 млн текстов в открытом доступе, 2 млн записей теленовостей, 3,5 млн изображений, включая карты и астрономические фото.
Учтите, что Wayback Machine не делает снимки страниц каждый день. Если нашли компрометирующую информацию, которая в скором времени исчезнет, рекомендуется для подстраховки делать скриншоты либо архивировать сайт вручную. Для этих целей подходят и Wayback Machine, альтернатива - Archive.today, сохраняет текстовую и графическую копии сайта.
Старосек Артем, CEO в ресерч компании Molfar.bi |
Backlinks
Поиск обратных ссылок (backlinks) поможет найти новости о компании, человеке, взаимосвязанных проектах или событиях; ресурсы, на которых упоминаются конкуренты, но не упоминается ваша компания. Для поиска веб-сайтов, которые ссылаются на исходный домен или страницу, используется оператор:
site:* example.com -site:example.com
Сервисы поиска обратных ссылок Open Site Explorer, Backlink Checker, SEMrush предоставляют подробный отчет ресурсов, имеющих ссылки на исходную страницу, а также рейтинг данных ресурсов в поисковой выдаче.
Автоматизация поиска
Не хотите запоминать операторы и комбинации? Сервисы SearchDiggity и Pentest Tools упрощают работу с Google Dorks - в них содержится набор заготовленных шаблонов для поиска.
Еще один инструмент автоматизации - Кастомная поисковая система Google. Позволяет включить в поиск конкретные сайты и указать метки для фильтрации результатов в выдаче. Например, разделить результаты при поиске вакансий и резюме. Для каталогов work.ua/jobs и rabota.ua/вакансии ставим метку “vacancies”, для каталогов work.ua/resumes и rabota.ua/резюме - метку “resume”. В выдаче результаты поиска в указанных каталогах будут распределены по вкладкам “vacancies” и “resume”.
Кастомная поисковая система используется вместо оператора site: при систематическом обращении к одним и тем же ресурсам.
Как видите, есть ряд механизмов, использующих поиск Google для получения чувствительной информации о компании или человеке. С развитием веб-технологий скрыть цифровые следы становится труднее. А ошибки пользователей и веб-мастеров помогают ресерчерам найти цель.