Текст книги "Профессиональный поиск в Интернете"
Автор книги: Алексей Кутовенко
Жанр: Интернет, Компьютеры
сообщить о неприемлемом содержимом
Текущая страница: 4 (всего у книги 19 страниц) [доступный отрывок для чтения: 6 страниц]
Проект ScienceResearch является бесплатным и общедоступным поисковиком научных ресурсов, который обладает рядом интересных особенностей. Данный проект работает с базами данных, электронными библиотеками и другими источниками онлайновых научных публикаций. Такие источники называются на данном проекте «коллекциями». В общей сложности проект поддерживает поиск более чем на трех сотнях таких коллекций. Основные особенности ScienceResearch – это поддержка технологии Federated Search и использование кластеризации при выводе результатов поиска.
Технология «объединенного поиска» (Federated Search) разработана компанией Deep Web Technologies и реализована в поисковом алгоритме Explorit Research Accelerator, который предлагается заинтересованным разработчикам. Данная технология отличается тем, что построенные на ее основе поисковики не собирают какую-либо собственную индексную базу, а способны работать в режиме реального времени с большим количеством внешних подключаемых баз данных.
После поступления запроса от пользователя ScienceResearch отправляет его всем поддерживаемым коллекциям. Затем в полученных ответах отбрасываются дублирующиеся записи и определяются наиболее релевантные результаты. Заметим, что степень релевантности определяется с помощью алгоритмов самой системы ScienceResearch и не зависит от качества ранжирующих алгоритмов отдельных источников информации. В результате формируется страница выдачи, которая и демонстрируется пользователю.
Поскольку все эти операции выполняются в режиме реального времени, ScienceResearch предлагает несколько уникальных возможностей. Например, если за время просмотра пользователем страницы результатов поиска в какой-либо из внешних баз появляются новые записи, подходящие под условия введенного запроса, система выводит соответствующее сообщение и предлагает дополнить список выдачи новыми результатами. При составлении запросов допускается использование логических операторов и поиск по точной фразе. Режим расширенного поиска позволяет вести поиск по конкретным признакам (заглавию, автору публикации), ограничить выдачу определенным хронологическим промежутком, а также конкретной научной дисциплиной. Список основных дисциплин выводится на боковой панели поисковика. Кроме того, можно выбрать одну или несколько коллекций, на которые будет отправлен ваш запрос. К сожалению, в бесплатной версии ScienceResearch предлагается выбирать не из всех доступных коллекций, а только из нескольких основных.
Для уточнения запросов в системе ScienceResearch применяются кластерные технологии. Результаты работы алгоритма демонстрируются на боковой панели страницы выдачи Кроме тематических кластеров предлагаются разделы, группирующие статьи по авторам, источникам публикаций и другим подобным признакам. С помощью соответствующих меню можно сортировать список выдачи по различным признакам, а также переключаться в режим просмотра результатов, полученных из какой-либо одной коллекции.
BASEНаучный интернет-поисковик Bielefeld Academic Search Engine (BASE) имеет европейские корни. Сам сервис BASE принадлежит немецкому университету, а в основе его поисковых алгоритмов лежат разработки норвежской компании Fast Search & Transfer. Ценность данного ресурса состоит в том, что BASE является поисковой машиной международного проекта Open Archives Initiative, кроме того, этот поисковик сотрудничает с европейским научно-информационным проектом DRIVER, что способствует повышению качества включенных в индексные базы поисковика материалов.
Первый из названных проектов позволяет владельцам электронных библиотек обмениваться данными о своих собраниях и является частью движения открытого доступа (Open Access), направленного на повышение доступности научной информации. В рамках этого движения, которое приобрело популярность в начале 2000-х годов, авторы получают платформу для распространения своих идей в международной академической среде с минимальными затратами и без необходимости длительного ожидания публикаций в традиционных научных журналах. Целью проекта DRIVER является создание сводного ресурса, объединяющего европейские электронные библиотеки, специализирующиеся на научной и учебной информации. Таким образом, проект BASE является удобной точкой доступа к свободно распространяемой научной информации. Кроме названных источников, в BASE используется и собственная индексная база тематических веб-сайтов и баз данных, поэтому в результатах поиска могут попадаться ссылки на коммерческие базы данных.
Для составления запросов BASE предлагает режимы простого и расширенного поиска. В простом режиме предлагается вести полнотекстовый поиск по всем возможным полям записей проиндексированных ресурсов, а для уточнения запроса доступно только переключение сферы поиска между ресурсами BASE и поиском в базе. Академии Google через интерфейс BASE.
В режиме расширенного поиска можно вести поиск конкретных полей описания ресурсов (автор, заглавие, тема), определять географический регион и год издания публикаций. Здесь же можно определиться с типом искомого контента. Поддерживается поиск статей, книг, текстов лекций, тезисов докладов, а также карт, видео– и аудиофайлов. В систему BASE интегрирован тезаурус Eurovoc, так что при обработке запроса пользователь может получить релевантные результаты сразу на двух десятках европейских языков, а также списки синонимов и близких терминов, что позволяет при необходимости качественно уточнить запрос.
Поиск книг
Книга как форма представления информации продолжает жить и здравствовать даже в нашу эпоху глобальных сетей и гипертекста. Действительно, концентрированное и компактное освещение какой-либо темы в книге выгодно отличается от самостоятельных поисков информации среди россыпей веб-страниц.
Электронные книги – не редкость в современной Сети. Они доступны в различных форматах и на значительном количестве сайтов онлайновых библиотек. Сетевых библиотек сегодня достаточно много, среди них есть как универсальные, так и специализирующиеся на определенных видах литературы. Эффективность интернет-поиска электронных книг во многом зависит от правильного выбора библиотеки, коллекция которой должна максимально соответствовать тематике запроса. Запоминать все библиотеки и их особенности – не самый лучший путь, проще возложить эту миссию на поисковые системы. Вот только универсальные интернет-поисковики в данном случае не очень удобны, поскольку не позволяют быстро находить страницы, предлагающие ссылки на полный текст нужного произведения. Такие ресурсы иногда приходится буквально выкапывать из массы сопутствующих ссылок.
Принцип работы специализированных книжных интернет-поисковиков прост: вместо общего поиска по. Сети они ограничиваются просмотром заранее составленного списка сетевых библиотек. Это обеспечивает повышение точности поиска: за каждой ссылкой на странице выдачи будет находиться именно электронная книга, которую можно просмотреть в режиме подключения или скачать, чтобы просмотреть позже.
Сейчас можно найти достаточное количество подобных поисковых машин. Мы сосредоточимся на лучших представителях семейства, работающих с русскоязычными сетевыми библиотеками. Отобранные нами поисковики соответствуют нескольким важным требованиям. Во-первых, они работают только с теми ресурсами, которые предлагают полнотекстовые версии электронных книг в свободном доступе. Во-вторых, они умеют обрабатывать запросы с различными поисковыми признаками, в том числе специфическими именно для книг. В-третьих, они обеспечивают хороший охват сетевых источников, ведь именно в этом состоит главное преимущество специализированного интернет-поиска по сравнению с поиском в какой-либо одной сетевой библиотеке.
Сервис Google КнигиСервис Google Книги позволяет не только искать книги, но и читать их в режиме подключения. Основу базы составляют отсканированные книги и электронные версии книг, предоставленные правообладателями. Важным источником пополнения базы стало сотрудничество с крупными традиционными библиотеками. Вопросы корректного использования оцифрованных Google в рамках этого проекта книг во время его становления возникали неоднократно. Обострялись они тем, что, в отличие от многих других подобных проектов оцифровки книг, компания Google работала и с современными изданиями, на которые распространялись авторские права. В итоге компромисс был достигнут и многие особенности книжного поисковика Google обусловлены именно стремлением найти баланс между поисковыми возможностями и требованиями защиты авторских прав.
Возможности составления запроса на сервисе Google Книги по внешнему виду и возможностям в основном соответствуют стандартному веб-поисковику Google. Здесь также предлагаются простой и расширенный режимы поиска. Отличия можно найти только в форме расширенного поиска книг. В ней стандартный блок составления запроса дополнен такими специфическими поисковыми признаками, как Заголовок, Автор и Издатель. Возможен поиск и по специальным индексам, относящимся к издательской продукции. Это международный стандартный номер книги (ISBN) и международный стандартный номер периодических изданий (ISSN). Такие индексы являются уникальными и позволяют однозначно идентифицировать нужное издание.
Собственно поиск ведется среди полных текстов оцифрованных книг. Страница выдачи содержит список результатов, содержащий миниатюру обложки, а также краткое библиографическое описание издания: заглавие книги, сведения об ответственности (имя автора и название издательства), количество страниц. Обязательно приводятся условия просмотра книги. Возможны три варианта, определяемые условиями, на которых издания были предоставлены Google правообладателями. Первый вариант – запрет просмотра текста книги. В этом случае рядом с таким результатом выводится сообщение «Без предварительного просмотра». Второй, наиболее распространенный, вариант предполагает возможность просмотра фрагментов отсканированных книг. Размер фрагментов может отличаться. Как правило, демонстрируются только одна-две страницы, на которых были обнаружены слова из поискового запроса. Кроме того, к показу правообладателем могут быть разрешены только определенные страницы издания. Обойти эти ограничения иногда удается подбором дополнительных ключевых слов или работой с оглавлением. Также можно найти приложения, позволяющие автоматизировать этот процесс и загружать на свой компьютер как фрагменты книг из баз Google, так и издания целиком. Третий вариант применяется к изданиям, срок действия авторских прав на которые истек или которые предлагаются правообладателями в свободном доступе. Такие книги в результатах поиска имеют пометку «Полный просмотр». Для полного просмотра предлагаются также все периодические издания, размещенные в базе Google.
Страница просмотра книги предлагает два режима отображения: простой текст, полученный в результате распознавания оцифрованных страниц, и непосредственный вывод графических файлов отсканированных страниц. Если издание разрешено для полного просмотра, в интерфейсе страницы располагается ссылка, позволяющая загрузить электронную книгу в формате PDF.
Обладатели аккаунтов Google получают также возможность добавлять нужные книги со страницы выдачи в собственную онлайновую библиотеку. Сделать это можно с помощью меню. Добавить в мою библиотеку, которое сопровождает каждый результат на странице выдачи В меню можно выбрать папку персональной библиотеки, в которой будет сохранена книга. На сохраненные книги можно составлять собственные рецензии, которые будут видны другим пользователям проекта. Предлагается также поиск среди текстов книг персональной библиотеки.
eBdbПроект eBdb ведет свою историю с 2003 года, когда у его создателей появилась идея специализированного поисковика для интернет-библиотек. Первая версия проекта называлась eBoogle, однако через некоторое время имя проекта пришлось сменить из-за претензий со стороны представителей Google – слишком уж похожими были названия и дизайн. В результате проект обрел свое современное название, которое является сокращением от фразы «Electronic Books Database» – «база данных электронных книг». В настоящее время eBdb предлагает достаточно удобный поиск практически во всех крупнейших российских сетевых библиотеках. В индексе проекта сейчас насчитывается полтора миллиона электронных книг.
Рассмотрим основные возможности eBdb. Доступен только режим простого поиска, однако он дополнен рядом полезных инструментов. Некоторые из них реализованы в виде поисковых операторов. У пользователя есть возможность поиска книг внутри конкретной библиотеки. Для этого используется оператор site:, сопровождаемый адресом конкретной библиотеки. Заметим, что в таком запросе может фигурировать и группа библиотек, адреса которых в этом случае разделяются запятыми. Если же данный оператор использовать без какого-либо ключевого слова, а только с адресом веб-сайта, то страница выдачи будет содержать полный список книг из этой библиотеки, проиндексированных поисковиком. Поддерживается также стандартный поиск точной фразы. Для его запуска понадобится заключить свой запрос в кавычки.
Страница выдачи поисковика eBdb выдержана в классическом стиле. Результаты поиска выводятся в виде обычного текстового списка. Каждая позиция в списке содержит название найденной книги, краткую аннотацию, если она, конечно же, доступна на сайте библиотеки, и сведения о самой библиотеке, в которой была найдена книга, в том числе адрес сетевой библиотеки, общее количество проиндексированных в ней книг и сведения о необходимости регистрации, если для скачивания книги требуется заводить персональный аккаунт. Если книга была найдена в нескольких сетевых библиотеках, соответствующее сообщение будет показано рядом с результатом. Щелкнув на нем, можно просмотреть перечень библиотек и выбрать из них наиболее удобную для вас. Данная функция продублирована поисковым оператором group: По умолчанию ссылки в результатах выдачи группируются по одинаковым названиям книг. Такой подход позволяет избежать засорения списка выдачи дублирующимися результатами.
Кроме проекта eBdb.ru действует и аналогичный проект eBdb in English (www.ebdb.net). Заметим, что он работает с зарубежными сетевыми библиотеками, соответственно результаты поиска русской и английской версий поисковика различаются. При «иностранном» поиске книг в списке выдачи нередко можно обнаружить ссылки на файлы, которые хранятся на различных файловых хостингах. С одной стороны, это удобно, поскольку позволяет расширить сферу поиска. С другой стороны, никакой проверки работоспособности ссылок на файлы eBdb не проводит. Это значит, что вероятность наткнуться в таком режиме на «мертвую» ссылку или удаленный файл достаточно велика, что несколько портит впечатление от данного режима поиска.
Кроме собственно поисковика проект eBdb предлагает собственный каталог электронных книг. Он разделен на пять основных разделов. Наиболее крупным из них является раздел. Художественная литература, который содержит подразделы русской и зарубежной литературы, а также множество жанровых подразделов: от комиксов и манги до мемуаров. Раздел Нехудожественная литература содержит тематическую литературу по различным отраслям знаний и отдельным темам. Особенно интересны подразделы, посвященные изучению иностранных языков. Весьма богат раздел. Детям и родителям, в котором собрано одиннадцать тысяч детских книг и популярных педагогических изданий. Раздел Бизнес-книги, в полном соответствии со своим названием, предлагает литературу по экономике, финансам, организации бизнеса и другим сопутствующим темам. Раздел Foreign Books предлагает списки книг, отсортированных по языковому принципу.
Настройка механизма поиска вынесена на отдельную страницу. В процессе настройки можно определить способ открытия результатов – в новом окне или в исходном; способ группировки книг – по названию книги или без группировки, а также задать количество ссылок на странице выдачи Доступный диапазон – от десяти до ста ссылок на странице (рис. 2.4).
Рис. 2.4. Страница настройки поисковика eBdb
Проект eBdb обладает рядом приятных дополнительных возможностей и инструментов. В первую очередь отметим возможность RSS-подписки на поступившие в индекс поисковика новые книги из определенной библиотеки. Другой вариант – RSS-подписка на новые поступления eBdb, подходящие под составленный пользователем поисковый запрос. Последний вариант очень удобен, если вы постоянно отслеживаете книжные новинки определенной тематики.
Система eBdb предлагает собственный поисковый плагин, который можно установить в браузерах Internet Explorer и Mozilla Firefox. Веб-мастера имеют возможность установить форму поиска eBdb на своем сайте.
NigmaСобственной системой поиска электронных книг обладает и российский кластерный метапоисковик Nigma. Система поиска Nigma, ориентированная на поиск в электронных библиотеках, еще находится в стадии разработки, и «фирменный» механизм кластеризации здесь пока работает не очень хорошо, однако его доработка применительно к особенностям поиска литературы, скорее всего, – просто вопрос времени. Что касается полноты поиска, то впечатление от данного ресурса двойственное. Как правило, Nigma находит меньше позиций, чем рассмотренный ранее проект eBdb. Однако у Nigma есть свои козыри.
Данная система включает в результаты поиска не только сами книги, но и рецензии на них, а также статьи критического плана. Такие ссылки помечаются в списке результатов рисунком с пером. Это обстоятельство весьма полезно для студентов и школьников. Из других дополнительных функций стоит отметить инструмент. Найти слова, доступный в виде ссылки, расположенной возле всех позиций в результатах поиска. Данная функция позволяет провести поиск ключевых слов из запроса в тексте найденной книги. Работает эта функция только для электронных книг, представленных в формате HTML или TXT. Возможность поиска в тексте книги весьма удобна, если первоначально поиск проводился по широкому тематическому запросу и перед скачиванием книги необходимо убедиться, что издание посвящено именно предмету вашего поиска, а не его синонимам из других областей.
BiblioСразу несколько проектов, посвященных поиску электронных книг, эксплуатируют технологии персонального поиска. Проект Biblio построен на платформе Google Custom Search.
Данный поисковик выдает не только прямые ссылки на книги или статьи, но и ссылки на страницы со списками книг, среди которых уже можно встретить прямую ссылку для скачивания нужного текста. При тематическом поиске это может быть полезно, поскольку появляется возможность найти новые книги по теме. Если же разыскивается конкретная книга, то такие ссылки только способствуют увеличению информационного шума.
Отметим, что поиск здесь полнотекстовый, а это значит, что слова из запроса ищутся во всем тексте выложенной в интернете электронной книги. Это плюс, однако не стоит забывать, что таким образом индексируются только те произведения, которые представлены в сетевых библиотеках в виде HTML– или TXT-файлов. Если же книга выложена для скачивания в виде архива, полнотекстовый поиск не работает. На популярные запросы к данным системам можно подписаться с помощью RSS.
У Biblio есть проект-близнец, который называется eBiblio (ebibLio.net). Рассматривать его отдельно особого смысла нет – результаты одинаковых запросов у данных ресурсов полностью совпадают вплоть до десятой страницы выдачи.
Особенностью данных проектов является возможность уточнения запроса с помощью перечня рубрик, расположенного над основным списком выдачи Он позволяет быстро отфильтровать в результатах поиска, например, только рефераты или справочные издания, оставив в стороне фантастику и другую художественную литературу. К сожалению, отметить сразу несколько рубрик нельзя. Кроме того, данный фильтр на Bibblio и eBiblio не всегда работает корректно, особенно в случае с аудиокнигами.
Поиск программ
Каталогов, отслеживающих новинки программного обеспечения или же собирающих соответствующие архивы, в современном интернете великое множество. Среди них есть как крупные проекты, стремящиеся к максимально полному охвату программ всевозможного назначения, так и специализированные тематические ресурсы. Такая ситуация порождает проблему: в ходе поиска или выбора какой-нибудь нестандартной программы приходится просматривать как минимум несколько каталогов программного обеспечения. Решение данной проблемы логично возложить на специализированные поисковики, которые примут запрос, отправят его на тематические ресурсы, обработают полученные результаты и представят их единым удобным списком. Подобные поисковики особенно хороши при поиске не конкретной программы, название которой вы уже знаете, а при подборе программ для решения какой-либо задачи, поскольку позволяют составить достаточно полное впечатление о состоянии рынка в выбранной области. Сразу предупредим, что речь пойдет о машинах, работающих только с легальным программным обеспечением – не важно, бесплатным или коммерческим. Так что потребителям «вареза» с комплектом «таблеток» лучше обратиться к другим источникам.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?