Текст книги "Профессиональный поиск в Интернете"
Автор книги: Алексей Кутовенко
Жанр: Интернет, Компьютеры
сообщить о неприемлемом содержимом
Текущая страница: 5 (всего у книги 19 страниц) [доступный отрывок для чтения: 6 страниц]
Для поиска русскоязычного программного обеспечения имеет смысл использовать систему SoftSearch. Все-таки зарубежные машины плохо справляются с поиском наших программ, да и понятие «русификатор» им, как правило, не ведомо. Этот поисковик работает с двумя десятками каталогов программного обеспечения, в том числе Downloads.ru, Freesoft, Listsoft и многими другими крупными ресурсами, что в итоге создает достаточно широкую базу поиска.
В SoftSearch доступен только режим простого поиска. С помощью переключателей можно только выбрать тип контента: помимо компьютерных программ SoftSearch позволяет искать книги, новости и статьи. Дополнительные фильтры появляются уже на странице выдачи результатов поиска. Состав их не отличается оригинальностью, но предлагает все основные возможности, включая отбор программ с русским или английским интерфейсом, фильтрацию программ с различным типом лицензии (свободное распространение или условно-бесплатные). Отдельный фильтр посвящен выбору платформы. Поддерживается выбор различных версий Windows, Mac OS, Unix и мобильных операционных систем. Также можно задать количество ссылок на странице выдачи Диапазон допустимых значений – от классической десятки до сотни. К сожалению, одновременно указать в одном запросе несколько условий не получится, что не очень удобно.
Проект SoftSearch поддерживает дополнительную обработку полученных результатов. Выражается это в наличии собственной системы рейтинга, которая используется также при ранжировании результатов в списке выдачи Она основана на популярности той или иной программы на портале SoftSearch, что придает рейтингу определенную самостоятельность: и раскрученные пакеты, и новинки рынка оказываются в одинаковых стартовых условиях.
Для каждой ссылки на странице выдачи предлагается неплохая подборка полезной информации. Кроме названия программы, это адрес сайта, в каталоге которого она была найдена. Приводится очень краткий – буквально одна строчка – фрагмент с описанием приложения. Есть и другие полезные данные, о которых забывают многие конкуренты: дата обновления, номер последней версии, размер установочного файла найденной программы.
Данная система обладает возможностями как поисковика, так и простого каталога программного обеспечения (рис. 2.5). Каталог можно просматривать по названиям программ в алфавитном порядке, кроме того, можно воспользоваться тематическими разделами.
Рис. 2.5. Система SoftSearch обладает возможностями как поисковика, так и каталога
У SoftSearch есть собственная рекомендательная система, предлагающая подборку похожих программ. Заметим, что работает она весьма достойно, поэтому если вы ищете программу для решения какой-либо задачи, не проходите мимо, вполне возможно, что вас заинтересуют и другие предложения. Кроме того, для импортных приложений данный инструмент предлагает ссылки на пакеты русификации.
ExefindПоисковик Exefind поддерживает только простой режим поиска. Скорость работы данной машины весьма высока. Для каждой найденной записи приводятся название программы, краткое описание функций, ссылка на каталог, в котором она была найдена, размер, а также прямые ссылки на скриншот программы и на программу установки. Если же щелкнуть на заголовке записи, откроется не страница внешнего каталога, как это можно было бы ожидать, а новая страница самого поисковика Exefind с несколько более подробным описанием найденной программы.
Результаты сортируются по релевантности, каких-либо дополнительных режимов сортировки или фильтрации не предусмотрено. В то же время система выделяет цветом бесплатные и коммерческие программы. Если программное обеспечение распространяется свободно, рядом с ним в результатах имеется зеленая полоска. Если же это условно-бесплатный или коммерческий продукт, то полоска розовая.
Четкого списка каталогов программ, которые Exefind задействует в поиске, на сайте проекта нет, однако в результатах можно найти ссылки на большое количество малоизвестных специализированных каталогов, что представляется весьма интересным в плане увеличения широты охвата при поиске. Здесь можно искать программы для самых различных платформ, как «настольных», так и мобильных. С русскоязычными ресурсами и вообще с кириллическими запросами данная машина не работает.
QweasСистема Qweas умеет работать в двух режимах поиска: в собственной базе и в Сети. В первом случае скорость, естественно, гораздо выше, но охват меньше. Страница результатов на первые позиции выводит «рекомендованные» редакцией поисковика ресурсы. В основном это коммерческие продукты, что наводит на мысли о скрытой рекламе. В то же время качество поиска, как такового, хорошее, и на первых позициях, как правило, оказываются весьма и весьма достойные программы.
Доступен как простой, так и расширенный поиск. В первом случае кроме собственно строки запроса выводится только меню с фильтром платформ. В расширенном режиме поиска предлагается форма, состоящая из восьми полей, в которых можно точно указать платформу для требуемой программы. Заметим, что здесь помимо названия можно ввести конкретную версию операционной системы.
Любопытно, что данный ресурс работает не только с привычным набором Windows/MacOS/Linux/Unix, но и с программами для куда более экзотичных систем, в числе которых AS/400, RIM, OpenVMS, старушки DOS и OS/2, а также современные мобильные платформы. В то же время полнота поиска иногда вызывает вопросы, система не находит некоторые весьма распространенные пакеты.
На странице выдачи для каждой программы демонстрируются ее название, краткая выдержка из ее описания, прямая ссылка на файл программы с информацией о его размере. На боковой панели страницы выдачи выводятся предложения по уточнению запроса. Благодаря такому механизму в Qweas удобно подбирать программное обеспечение по нечетким запросам.
Кроме системы поиска, проект Qweas располагает довольно крупным и детализированным каталогом программного обеспечения.
Выводы и рекомендации
Создание качественного и популярного тематического поисковика – непростая задача. Не стоит забывать, что интернет-поиск – зона тяжелой конкурентной борьбы, и чтобы достичь успеха, специализированный вертикальный поисковик должен предложить нечто такое, что пользователь не сможет получить с помощью того же Google или другого популярного универсального поисковика. А это весьма и весьма сложно. Однако рассмотренные в данной главе проекты вполне успешно справляются с этой задачей.
Если говорить о научном поиске, то в настоящее время, к сожалению, возможности поиска публикаций на русском и иностранных языках нельзя назвать равнозначными. Проект Scholar, ru, а также проект на платформе Flexum «Поиск по научным сайтам» предлагают только базовые инструменты составления запроса и значительно уступают зарубежным аналогам по объемам баз. В то же время это единственные специализированные источники для научного интернет-поиска на русском языке и полученные с их помощью результаты весьма полезны. Если же стоит задача поиска зарубежных научных публикаций, то замечательные результаты можно получить с помощью системы Scirus. Большой объем базы и хороший выбор инструментов составления запроса дают хорошие шансы на успешное завершение поиска. Ресурсы ScienceResearch и BASE также предлагают неплохую подборку источников и оригинальные инструменты составления запроса.
Поиск полнотекстовых электронных книг в настоящее время является достаточно хорошо разработанной областью вертикального поиска. Среди соответствующих разделов универсальных поисковиков безусловно лучшими являются проекты Google и Nigma. Система Google Книги хороша в первую очередь для фактографического поиска в текстах книг, поскольку в большинстве случаев демонстрирует только фрагменты книг. Поиск книг в проекте Nigma ориентирован на полнотекстовые книги, интересен он также параллельным поиском критических публикаций. Однако лучшим инструментом для поиска полных текстов электронных книг следует признать проект eBdb. Он хорошо работает с русскоязычными сетевыми библиотеками. Найденные книги доступны для скачивания без каких-либо ограничений. Максимум, что потребуется от пользователя для получения файла – регистрация в соответствующей сетевой библиотеке. Данный поисковик умеет работать как с прямыми запросами по названию конкретной книги, так и с более широкими запросами, позволяющими отследить публикации определенного автора или же собрать тематическую подборку литературы. Кроме этих базовых функций он обладает удобным набором дополнительных сервисов. Таким образом, данная машина может быть рекомендована всем пользователям, интересующимся электронными книгами.
При поиске программ первую остановку имеет смысл сделать на проекте SoftSearch. Хорошая работа с каталогами и собственная рейтинговая система способствуют повышению качества поиска. Неплохие результаты при поиске зарубежных программ можно получить с помощью системы Exefind. Поисковик Quweas во многом уступает конкурентам, однако отличается уникальной возможностью поиска программ для редких компьютерных платформ.
Глава 3
Метапоиск
Сам факт наличия множества индексных баз данных сетевых документов, причем собранных с использованием разных методов и алгоритмов, порождает экологическую нишу для целого класса метапоисковых систем. Такие системы не занимаются самостоятельным сбором информации, а отсылают запрос пользователя на несколько других поисковых серверов, объединяют результаты поиска, производят их дополнительную обработку и выдают обобщенный ответ. Это увеличивает широту охвата поиска за счет обработки данных различных индексных баз. Кроме того, метапоиск экономит время пользователя, которое иначе пришлось бы потратить на личное обращение ко всем нужным серверам. Такова схема работы полноценной метапоисковой системы. В то же время существует ряд сервисов, пренебрегающих собственным анализом полученных результатов. В предельном случае вы можете просто получить пару-тройку отдельных страниц с результатами разных поисковиков. Данный подход, в общем-то, тоже имеет право на существование, однако далее мы остановимся только на нескольких по-настоящему инновационных системах. Дело в том, что проблема обработки результатов метапоиска стоит даже более остро, чем в случае отдельного поисковика. Не удивительно, что на метапоисковиках можно увидеть немало интересных экспериментальных решений.
У всех ведущих современных интернет-поисковиков есть одна общая черта – они выдают результаты единым списком, отсортированным по релевантности ссылок. При всех своих достоинствах данная схема порождает для пользователей проблемы при большом количестве ссылок в списке выдачи Не секрет, что мало кто просматривает на поисковике больше одного-двух экранов результатов, на которых может так и не найтись требуемой информации. В то же время нужные данные в итоге могут оказаться на сайте, занимающем какую-нибудь 108-ю позицию в общем списке. Получается парадоксальная ситуация: информация в Сети есть, она найдена, однако останется навсегда скрытой для пользователя, если он не сможет грамотно уточнить запрос или составить сложное поисковое выражение.
Одним из ответов на данный вызов стала технология кластеризации результатов интернет-поиска. Ее преимущества по сравнению с аналогами – возможность сравнительно простой автоматизации процесса. Кластерные технологии не требуют какой-либо специфической разметки веб-страниц, как это принято в комплексе технологий «семантического веба». Они также не нуждаются в сравнительно трудоемкой предварительной подготовке массива веб-страниц, используемой в веб-каталогах. Цена этого преимущества – некоторый процент информационного шума, неизбежного при автоматической обработке результатов поиска в Сети.
Получив запрос, кластерный поисковик, как и обычная поисковая система, сначала находит в своей базе соответствующие запросу веб-страницы. Различия начинаются на этапе сортировки результатов. Система проводит анализ найденных страниц и находит на них дополнительные ключевые слова, встречающиеся вместе с терминами из поступившего от пользователя запроса. Получившиеся в результате такого анализа подмножества страниц называются кластерами и с большой вероятностью относятся к разным аспектам темы запроса. Далее в недрах поисковика происходит следующее важное событие – определение релевантности ссылок и их позиции в результатах. Кластерная машина проделывает эту операцию отдельно для каждого кластера. При этом ссылки со страниц одного кластера, то есть сайтов аналогичной или схожей тематики, ценятся выше, чем ссылки с посторонних, пусть даже очень популярных ресурсов. В результате позиция сайта в списке выдачи по кластеру является своеобразным отражением ее оценки коллегами по тематическому цеху, что работает на качество поиска. Кроме того, ранжирование ссылок по отдельным кластерам позволяет вывести на первые позиции в кластерах полезные, но не «раскрученные» ресурсы, которым в обычных поисковиках с выдачей результатов единым списком и бесконечными войнами оптимизаторов мало что светит.
Nigma
Российские разработчики поисковых систем не остаются в стороне от современных тенденций – разработка кластерной машины Nigma ведется исследовательской группой из МГУ им. М. В. Ломоносова в сотрудничестве со Стэнфордским университетом. Предварительная версия сервиса была запущена в начале 2005 года. Nigma опрашивает все крупные базы, содержащие документы на русском языке, в числе которых Google, Yahoo! AltaVista, MSN, Яндекс и Рамблер, что обеспечивает широкий охват источников. Кроме того, постепенно генерируется собственная индексная база Nigma.
Система Nigma позволяет увидеть сильные стороны метапоисков. Помогает в этом практическом эксперименте правильная настройка механизма поиска Nigma. Прямо под строкой ввода запроса находится несколько выпадающих меню, среди которых есть меню. Поисковики. Именно оно дает пользователям возможность управлять подбором поисковиков, на которые отправляются запросы. Если выбрать только какой-нибудь один поисковик, то, по сути, с ним можно поработать в интерфейсе, построенном на кластерах. Попробуйте убрать из этого списка свой любимый универсальный поисковик – в результате полученный по запросу список выдачи наглядно продемонстрирует, сколько веб-страниц вы теряете, работая только с одной индексной базой.
Приятно отметить тот факт, что разработчики Nigma не пошли по соблазнительному для многих пути создания «кальки» уже существующего ресурса, а сделали ставку на инновации. Сильной стороной Nigma является тщательный учет специфики русскоязычных запросов.
Это проявляется в собственном алгоритме кластеризации результатов, а также в поиске по различным морфологическим формам, синонимам слов из запроса пользователя и обобщенным понятиям. Интересная особенность системы заключается в том, что поисковикам отправляются запросы не только по точно заданному пользователем слову, но и по его автоматически сгенерированным словоформам. Это существенно увеличивает количество найденных страниц. Такой режим поиска запускается, если по исходной словоформе обнаруживается слишком мало документов. Работа этого механизма видна в служебной информации о найденной ссылке на странице выдачи Если документ был найден без морфологического преобразования запроса, то рядом с ним будут просто указаны использованный поисковик и рейтинг страницы. Если же была найдена сгенерированная словоформа, то после названия поисковика появится буква «М».
Особого упоминания заслуживает мощная система исправления орфографических ошибок и опечаток в запросах Nigma умеет исправлять прямо-таки клинические случаи: до четырех ошибок в слове, набранном в неправильной раскладке, причем предлагаемые варианты сортируются на основе близости к звучанию исправляемого слова. Кроме того, в систему встроен собственный словарь компьютерных терминов – полагаем, не надо рассказывать, сколько может быть вариантов написания у многих заимствованных слов из данной предметной области и какие проблемы из-за этого возникают при поиске в Сети на русском языке.
В Nigma работает система автоматического дополнения вводимого запроса. Помимо предложений по написанию запроса, здесь появляются дополнительные результаты: перевод вводимых слов на английский язык, короткие ответы на прямые вопросы к системе, а также справка из Википедии по теме запроса. Кроме того, по выпадающему меню автозаполнения можно перемещаться с помощью клавиатуры, что улучшает эргономику. В результате данное меню превратилось в самостоятельный и довольно мощный инструмент поиска.
При работе с англоязычными запросами можно воспользоваться инструментом. Англоподсказка, который подсказывает правильные грамматические конструкции для запросов на английском языке, подставляет в запрос синонимы, имеющие аналогичный русский перевод. Однако пока это экспериментальная функция и ее возможности ограничены.
Поисковик Nigma обладает мощной системой поиска ответов на конкретные вопросы, а также может решать математические примеры и работать с химическими реакциями – уникальное пока предложение среди универсальных поисковиков. Для некоторых типов задач (линейные, биквадратные, бикубические уравнения и другие) выводятся не только ответ, но и ход решения задачи. Кроме того, быстрые ответы на такие вопросы демонстрируются в меню автозаполнения.
Подводя итог, можно сказать, что за счет охвата всех крупных русскоязычных индексных баз Nigma – отличное решение для широкого поиска. А применение кластеризации позволяет быстро уточнять свой запрос даже при первоначальном поиске в условиях малознакомых тем, благо дополнительные ключевые слова предлагаются автоматически. В результате данную систему вполне можно рекомендовать для повседневного универсального применения (рис. 3.1).
Рис. 3.1. Российский кластерный метапоисковик Nigma
Для обработки массива найденных ссылок Nigma, как уже было сказано, использует кластеризацию по собственному алгоритму, оптимизированному с учетом особенностей русского языка. Интерфейс страницы выдачи Nigma состоит из основного списка результатов и боковой панели, в которой выводятся иерархический список выделенных системой кластеров, а также краткие справочные сведения о предмете поиска. При щелчке на кластере открывается не только страница соответствующих результатов, но и список вложенных кластеров, позволяющих уточнить запрос. Кроме того, в Nigma действует система фильтрации результатов – установив флажки возле нерелевантных кластеров, их можно быстро исключить из общей выборки.
Интересной экспериментальной функцией Nigma является инфопоиск. Посмотреть на результаты инфопоиска можно на общей странице выдачи Действует он следующим образом. При индексации веб-страницы разбиваются на отдельные блоки данных. Блоки, относящиеся к вашему запросу, добавляются к результатам поиска с высоким рейтингом. В результате на высоких позициях в списке выдачи пользователь видит не только ссылки на максимально релевантные веб-страницы, но и отдельные блоки данных для менее релевантных страниц. Это действительно удобно: мы не теряем полезную информацию из «длинного хвоста» результатов и экономим время, которое иначе пришлось бы потратить на просмотр дополнительных веб-страниц.
Новинками Nigma являются режимы табличного и музыкального поиска. Если ответы на запрос пользователя можно представить в структурированном виде, Nigma формирует на основе найденных данных таблицу и выводит ее на странице выдачи над общим списком результатов. Это удобный режим представления данных, ценность которого повышает возможность сохранения таблицы в формате CSV. К сожалению, эта экспериментальная функция пока работает только с очень небольшим количеством запросов, кроме того, она замедляет работу поисковика. Если для вашего запроса доступен режим таблицы, то на странице выдачи появится специальный значок.
Поиск музыки с помощью Nigma интересен тем, что при индексировании аудиофайлов информация извлекается из MP3-тегов, что позволяет реализовать режим структурированной демонстрации результата поиска. Сведения о найденном файле представляются в виде таблицы. Информация группируется по именам исполнителей, названиям альбомов и композиций, а также жанрам. Кроме того, на соответствующей панели выводится текст песни, если таковой был найден. В принципе, подобный режим поиска привычен при работе со всевозможными плеерами, поддерживающими создание библиотек мультимедиа, однако в сфере интернет-поиска, тем более универсального, это новинка, причем весьма удобная. Найденные записи можно прослушать прямо на странице результатов поиска – для этого в Nigma предусмотрен встроенный плеер. Заметим, что Nigma выдает прямые ссылки на файлы, а не отправляет пользователя на исходную веб-страницу. Пользователи Nigma могут загрузить на сервер собственные файлы в формате MP3, которые будут исправно проиндексированы и станут доступны для всех посетителей Nigma. Свои файлы при желании впоследствии можно будет удалить.
Nigma предлагает также метапоиск в базах изображений поисковиков, задействованных при обычном поиске документов. Здесь кластеризация не используется – доступна только группировка результатов по размерам картинок.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?