Журнал о системах электронного документооборота (СЭД)
Управление контентом

Корпоративные поисковые системы

  1 комментариев Добавить в закладки

Олег Татарников

 

Стремление компаний более эффективно использовать, обслуживать и предоставлять информацию ведет к переменам на рынке ИТ. Компании, сталкивающиеся с новыми требованиями законодательства и бизнеса, стремятся извлекать и интегрировать данные в масштабах всего предприятия в более органичную структуру с доступом в реальном времени независимо от нижележащих форматов или структур. В этом им помогают современные информационные системы, средства поиска и структурирования информации.

 

Сегодняшний бизнес сопряжен с быстрорастущими информационными потоками, и сотрудники любого современного предприятия все больше времени тратят на поиск необходимой им информации. Например, по оценкам аналитического агентства IDC (http://www.idc.com), среднестатистический работник организации, использующий компьютер, тратит в среднем от 15 до 30% рабочего времени на поиск необходимой информации. Добавьте к этому затраты на информационные технологии, необходимые для хранения и обработки информации, учтите стоимость потерянной (ненайденной) информации и не забудьте про затраты на воссоздание информации, которую так и не удалось найти. В результате получится весьма значительная сумма недополученного дохода. Причем затраты могут быть и более значительными для таких компаний, как СМИ, юридические, финансовые и технологические фирмы, где особенно необходима свежая, актуальная информация.

Для комплексного решения проблемы корпоративного поиска разрабатываются различные программы, порой значительно отличающиеся от привычных нам пользовательских поисковых систем. Отличия заключаются в первую очередь в том, что корпоративные поисковые системы являются узкоспециальными, поэтому могут быть использованы лишь на ограниченном количестве предприятий.

Специфика корпоративного поиска определяется тем, что в своей повседневной деятельности компании производят огромное количество внутренней информации, которую необходимо структурировать, и при этом они вовлечены в процесс постоянного обмена данной информацией с партнерами, клиентами и инвесторами.

Возможность эффективно использовать накопленный интеллектуальный капитал позволяет компании организовывать более гибкое производство, расширять партнерство, развивать средства электронной коммерции, а также делиться опытом (в том числе при помощи интерактивных аудио- или видеотрансляций). Таким образом, необходимость корпоративных поисковых систем уже ни у кого не вызывает сомнения и подобные решения набирают все большую популярность, что не может не радовать их разработчиков. Обозреватели и аналитики признают, что направления развития корпоративных поисковых систем со временем могут стать сверхприбыльными, поскольку спрос на этот вид поиска активно растет.

Состояние рынка корпоративных поисковых систем

На мировом рынке в этом секторе до последнего времени лидировали такие компании, как Convera, Autonomy и Verity, а также Fast Search & Transfer. Естественно, продукты для корпоративного поиска выпускают и такие известные компании — производители ПО и систем управления базами данных, как Microsoft, IBM, Oracle и др. Управлением потоками информации в Интернет-экономике занимается и компания Intel.

Однако сейчас на рынке корпоративных систем наблюдается не столько конкуренция, сколько активная консолидация. Например, в прошлом году корпорация Autonomy Corporation (Великобритания) объявила о покупке компании Verity (США) и интеграции ее в состав Autonomy. Компании Autonomy и Verity производили рыночные продукты, предназначенные для извлечения знаний из всего многообразия информационных ресурсов современного предприятия: Интернет- и интранет-сайтов предприятий и организаций, почтовых сообщений, файловых систем, хранилищ документов различных ведущих производителей, текстовых полей баз данных, репозитариев, различных бизнес-приложений, а также записанных на компакт-диски информационных выборок с сохранением полноценного поиска по ним и анализа полученной информации. Наиболее успешным продуктом компании Verity до слияния было решение K2 Enterprise. Сейчас обе компании позиционируют сделку как «объединение функциональности бизнес-управления и информационного обеспечения», так как методы и технологии, используемые Verity и Autonomy, слабо подвержены интеграции в единый продукт. Однако объединение сил на европейском рынке, где Autonomy является лидером, и на американском рынке, где Verity имеет развитую сеть каналов распространения, позволит этим компаниям сохранить за собой лидирующее положение на мировом рынке.

Не менее заметным событием прошлого года стала покупка компанией IBM поставщика систем для поиска на естественном языке iPhrase. Данное приобретение укрепляет портфель программных продуктов IBM для управления информацией, расширяя возможности поиска и извлечения информации в масштабах компании. Это имеет ключевое значение для стратегии IBM, цель которой — помочь клиентам организовать доставку информации в виде сервиса. Программное обеспечение iPhrase даст возможность IBM предложить своим заказчикам и партнерам усовершенствованные технологии, позволяющие быстро находить скрытую информацию в разнообразных данных и материалах, своевременно доставляя нужную информацию нужным людям и в нужное время. Технология iPhrase ценна в первую очередь тем, что обеспечивает понимание запросов пользователей в реальном времени с учетом контекста приложения, направляя людей к наиболее релевантным результатам, отвечающим их индивидуальным потребностям. Например, компании розничной торговли используют технологию iPhrase для интерпретации и анализа онлайновых запросов клиентов, даже если они написаны с ошибками или содержат жаргон. Компания iPhrase, кстати, — это уже 15-я компания — производитель программного обеспечения, приобретенная IBM с 2001 года в рамках ее инициативы по организации доставки информации как сервиса. Основой этой стратегии IBM являются ее устройства хранения данных, серверы, программное обеспечение для управления информацией и контентом, опыт консалтинга и исследований, помогающие заказчикам извлекать информацию, заключенную в разнообразных данных: сообщениях электронной почты, web-страницах, web-журналах, podcast-трансляциях, звуковых файлах, изображениях, видео и других видах информации — причем независимо от формата и структуры, превращая информацию в практически полезные, ориентированные на отраслевые потребности сервисы для реализации функций бизнеса. Программное обеспечение iPhrase помогает адаптировать получаемую информацию к конкретной отрасли или предметной области, для которой она предназначена, и благодаря этому обеспечивает более высокий уровень понимания запросов пользователей. Оно адаптирует найденные сведения и результаты и представляет их в удобном для использования и понимания формате. Программное обеспечение iPhrase дополняет существующие технологии IBM для контекстно-зависимой доставки информации на основе поиска и анализа текста в корпоративных базах данных, системах управления контентом, файловых системах, системах коллективной работы и на внешних web-сайтах.

В декабре 2001года компании Inktomi Corp и Interwoven, Inc. объявили о своем решении совместно поставлять партнерам и клиентам интегрированную систему, которая обеспечивала бы своевременный доступ к самой актуальной и точной корпоративной информации. Интеграция поисковых серверов Inktomi и информационных систем Interwoven позволила бы получать новые производственные документы сразу после их публикации. Однако позже эта попытка выйти на корпоративный рынок провалилась, а Inktomi (так же, как и AltaVista) была приобретена Yahoo, которая сейчас активно занимается направлением корпоративного поиска.

Что касается России, то из мировых лидеров на нашем рынке в этом секторе наиболее широко представлены решения компании Convera Technologies, которая тоже в свое время была образована в результате объединения компании Excalibur Technologies (признанного лидера в области систем управления знаниями) и Interactive Media Services (подразделения компании Intel Corp). Таким образом, все предлагаемые технологии и решения в области поиска компания Convera Technologie унаследовала от компании Excalibur Technologies. Компания Convera является ведущим поставщиком решений по извлечению знаний и управлению мультимедийными данными. Ее высокопроизводительные программные решения преобразуют информацию любого типа (бумажные документы, тексты в электронном виде, изображения или видео) и обеспечивают организации мощными инструментами для быстрого и простого анализа, индексирования, каталогизации, поиска и получения информации из разнообразных источников корпоративных знаний, навигации по ним и предоставления в совместное пользование в локальных и глобальных сетях LAN/WAN, Интернет, интранет и экстранет. Продукты Convera Technologies выполняют критически важную задачу капитализации интеллектуальной собственности предприятия, помогая решать проблемы и получать ответы на вопросы. В настоящее время Convera проиндексировала 4 млрд Интернет-страниц и теперь выводит на рынок свою новую nobrand-настраиваемую глобальную поисковую систему, которая может дать толчок для новой наступательной кампании со стороны разработчиков корпоративного поиска.

И наконец, последние события говорят о том, что наиболее популярный в мире поисковик Google тоже имеет влияние на корпоративный рынок, причем настолько большое, что оно выходит далеко за рамки его настоящей доли рынка в этом секторе. Недавно специалисты компании Google представили новую поисковую систему Оne box, предназначенную для использования на предприятиях. Эта поисковая система позволяет сотрудникам фирм и компаний производить поиск информации, предназначенной для внутреннего применения. В создании новой корпоративной поисковой системы Google участвовали специалисты таких компаний, как Cisco, Salesforce.com, Cognos, NetSuite и даже Oracle. Новая поисковая система Оne box демонстрирует результаты поиска в специальном окне, при этом ее пользователям предлагается возможность предварительного просмотра найденных документов. Возможно, Google пока и не получит от развития этой системы сколько-нибудь значительной прибыли (напомним, что в прошлом году прибыль Google от продажи программного обеспечения по сравнению с прибылью от Интернет-рекламы была незначительной: всего 75 млн долл., в то время как общая прибыль компании составила 6,1 млрд долл.), но продукты такой солидной компании в области поиска, как Google, несомненно приведут к серьезной конкуренции и на корпоративном рынке.

Универсальные поисковые системы могут представлять опасность

Итак, корпоративный поиск — это прежде всего поиск документов, причем не только в специализированных базах данных и архивированных каталогах, но и в массивах с неструктурированной информацией, таких как Интернет, почтовые сообщения, рабочие документы, тексты, голосовые и видеоданные, презентации и т.д.

Столь широкие возможности современных поисковых систем, конечно же, не могут остаться без внимания злоумышленников. Все чаще в базы данных поисковых систем попадают зараженные сайты, на которых находятся вирусы, помогающие хакерам получать доступ к персональному компьютеру и конфиденциальной информации. По результатам последних исследований, около 5% ссылок, появляющихся в результатах поиска, могут представлять серьезную опасность, при этом наибольшее число ссылок к сайтам сомнительного характера было обнаружено в таких поисковых системах, как AOL и Google (5,3%), впрочем в поисковой системе MSN, где наблюдается наименьшее количество подобных ссылок, порядок цифр такой же — около 3,9% опасных ссылок.

Впрочем, при проведении исследований специалисты выяснили, что риск посещения зараженного сайта зависит от совершенного запроса. Например, при наборе таких ключевых слов, как «хранитель экрана» (screensaver), «бесплатная музыка» или «бесплатные игры», риск посещения сайта злоумышленников возрастает примерно в два раза. Однако количество сайтов сомнительного характера с каждым днем продолжает увеличиваться, а их тематика расширяется. Поисковые системы являются прекрасным средством для распространения вирусов, чем, конечно же, пользуются злоумышленники.

Причем, размещая информацию о своем сайте в поисковой системе и оптимизируя его для поиска, хакеры существенно увеличивают вероятность его посещения, ведь подобные сайты появляются среди первых результатов поиска.

Если учитывать, настолько популярными стали поисковые системы, то можно с уверенностью говорить о том, что практически каждый пользователь уже не раз попадал на зараженные сайты. Напомним, что при посещении подобных сайтов в персональный компьютер может проникнуть вирус, который позволит злоумышленникам получить важную информацию (в том числе и конфиденциальную), а также использовать персональный компьютер для рассылки спама.

Более того, за последнее время произошло уже несколько неприятных инцидентов и с обнародованием конфиденциальной информации о пользователях в поисковых системах Google и AOL. В результате у многих пользователей появляются серьезные опасения при работе с различными Интернет-ресурсами. Между тем, когда некоторое время назад правительство США потребовало от Интернет-компаний предоставить информацию о запросах, совершаемых пользователями, то Google ответила отказом, мотивируя свои действия стремлением защитить права пользователей. Вместе с тем следует отметить, что эта компания сама занимается активным сбором конфиденциальных данных, которые хранятся довольно длительное время. Многие поисковые системы сохраняют различную информацию, касающуюся пользователей. В частности, их интересуют запросы, совершаемые пользователями, время использования поисковой системы, тип применяемого Интернет-браузера, IP-адрес персонального компьютера и пр. Если на персональном компьютере используется постоянный IP-адрес, то действия пользователя в Интернете можно отследить весьма точно, а если динамический — то отслеживание действий пользователей ведется при помощи cookies. При этом срок хранения таких данных на серверах Интернет-компаний довольно велик. Например, Microsoft планирует хранить их до 2016 года, Yahoo — до 2010-го, а Google — до 2038 года.

Интернет-компании продолжают заявлять, что вся собираемая конфиденциальная информация применяется ими только внутри компании и не предоставляется третьим лицам. Однако несколько лет назад уже был скандал с китайскими журналистами, которые пользовались услугами почтовой службы Yahoo, а эта американская компания предоставила китайским властям доступ к их переписке. В связи с этим у многих пользователей уже возникают серьезные опасения, а правозащитные организации во всеуслышание называют подобный сбор информации не иначе как вмешательством в частную жизнь.

Однако основные концепции и подходы при создании корпоративных поисковых систем, в отличие от поисковиков для широкого круга пользователей, учитывают повышенные требования к защите информации и предоставляют в распоряжение сотрудников предприятия универсальный поисковый механизм в рамках единой информационной системы, совместимой с различными типами информационного наполнения и платформами и в то же время в достаточной степени защищенной от несанкционированного проникновения и утечек информации.

Необходимость обеспечения надежной защиты значительно поднимает стоимость корпоративных продуктов, однако на рынке имеются различные варианты поисковых систем с разной степенью требований к информационной системе предприятия. Для сравнения: первый корпоративный продукт Google, выпущенный в 2002 году, продавался по цене от 30 тыс. долл. и осуществлял поиск среди 100 тыс. и более документов (сегодня, как мы уже упоминали, компания Google готовит новую поисковую систему Оne box, которая предложит заказчикам дополнительные средства защиты и другие функции). В то же время компания Google надеется расширить свой бизнес поисковых устройств, охватив им более мелкие предприятия с меньшим числом документов и более скромным бюджетом. Им предлагается поисковая система Google Mini, которая подключается к корпоративной интрасети и может обрабатывать до 50 тыс. документов. Стоимость такой системы на Google.com — около 5 тыс. долл.

Безопасность поисковых систем

Неприятный инцидент с поисковой системой Google произошел в конце июня этого года. Поисковый робот добавил в свою базу документ, содержащий конфиденциальную информацию об учащихся одной из американских школ. Хотя пострадавшая сторона уверяет, что доступ к этому документу был закрыт паролем, все персональные сведения (включая имена, номера социального страхования и показатели успеваемости) более 600 учащихся были доступны любому пользователю Интернета. Конечно, последовавшее разбирательство показало, что ссылка на приватный файл хранилась на одной из студенческих страниц, так что Google здесь вряд ли можно в чем-то обвинить. Однако, как говорится в известном анекдоте, «ложечки нашлись, но осадок остался».

Между тем проблемой утечки конфиденциальной информации в связи с неправильным использованием поисковых систем озаботилась компания InfoWatch, специализирующаяся на предотвращении утечек и защите от инсайдеров. В ходе исследования «Безопасность поисковых систем в корпоративной среде» эксперты InfoWatch опросили более 1,5 тыс. пользователей портала SecurityLab.ru и получили весьма неожиданные результаты (см. рисунок). Оказалось, что практически половина респондентов (48,9%) уверена, что использование корпоративных поисковых систем несет в себе угрозу утечки коммерческих секретов. Этот риск оказался значительно выше, чем два других: угроза проникновения вредоносных кодов (39,8%) и угроза несанкционированного доступа (35,3%).

 

Угрозы использования корпоративных поисковых систем. DIRECTUM-Journal.ru

 

Угрозы вследствие использования корпоративных поисковых систем (многовариантный вопрос) (источник — InfoWatch, 2006)

Дальнейшее анкетирование показало, что большинство ИТ-профессионалов считают, что новые риски возникают в результате человеческого фактора (служащие не умеют использовать поисковые системы безопасно). В пользу этой точки зрения высказались 45,3% респондентов. Также существенная часть опрошенных специалистов уверена, что новые угрозы являются следствием недостатков программного окружения (например, операционной системы или средств защиты). Данный вариант поддержали 26,1% респондентов.

Комментируя полученные результаты, эксперты компании InfoWatch отмечают, что опасения ИТ-профессионалов не лишены здравого смысла. Дело в том, что применение корпоративных поисковых систем значительно облегчает кражу конфиденциальной информации в тех случаях, когда она не защищена. Однако сами по себе поисковые системы масштаба предприятия могут представлять опасность только при обнаружении в них уязвимостей, но от этого не застрахован ни один продукт. Таким образом, использование поисковых систем в ИТ-инфраструктуре, которая уже защищена от инсайдеров и утечки, не представляет опасности.

 

Алексей Доля

 

Источник: КомпьютерПресс

Похожие записи
Комментарии (1)
Сейчас обсуждают
Больше комментариев