- Система должна обеспечивать сбор данных о цитируемости источников информации (не менее 43 000 СМИ) в режиме реального времени;
- при поступлении нового сообщения СМИ в Систему должно определяться наличие ссылок в тексте на материалы других СМИ;
- при наличии ссылок на материалы других СМИ должен определяться оригинальный материал с выходными данными (дата, СМИ, гиперссылка) и фиксироваться связи между упоминанием и материалом-первоисточником;
- для каждого цитируемого сообщения должен определяться показатель цитируемости на основе данных о влиятельности упоминающего источника;
- данные о влиятельности цитирующего СМИ должны рассчитываться на текущий момент времени на основе ретроспективного анализа его цитируемости в других источниках в течение года от данного момента;
- показатель влиятельности источника должен варьироваться от 0 до 1;
- для всего пула источников Системы должен рассчитываться итоговый индекс цитируемости (далее – ИЦ) исходя из текущих значений за выбранный период времени;
- на основе данных о цитируемости за каждый месяц и квартал должен производиться расчёт рейтинга цитируемости СМИ по категориям: федеральные газеты, федеральные журналы, федеральные телеканалы, федеральные радиостанции, федеральные информагентства, интернет, а также рейтинги региональных и отраслевых СМИ;
- динамические данные о цитируемости СМИ за выбранные периоды времени, а также рейтинги СМИ за календарные периоды, должны иметь интерактивный формат представления с возможностью перехода от суммарного ИЦ издания к списку сообщений с цитатами, содержащему расчёт ИЦ для каждого сообщения;
- Система должна обеспечивать просмотр рейтинга сообщений заданного СМИ, которые получили максимальную цитируемость за заданный период;
- Система должна обеспечивать поиск и анализ данных об отсутствии упоминания СМИ при наличии ссылки на материал издания (так называемый «плагиат»);
- Система должна обеспечивать анализ цитируемости заданного источника и построение рейтингов СМИ с применением следующих фильтров: период времени, уровень СМИ, категория СМИ, регион СМИ;
- Система должна обеспечивать анализ цитируемости заданного источника и построение рейтингов СМИ с одновременным упоминанием заданного контекста (списка ключевых слов) для получения анализа цитируемости заданной темы;
- на основе Системы должно осуществляться сравнение конкурирующих СМИ по цитируемости в виде интерактивных графиков по количеству цитат и по ИЦ за выбранный период времени;
- данные по цитируемости СМИ также должны содержать информацию о цитирующих источниках: рейтинги СМИ по количеству цитат и рейтинги СМИ по ИЦ с возможностью перехода от данных рейтингов к спискам сообщений со значениями цитируемости для каждого материала;
- система должна предоставлять возможность анализа наиболее цитируемых авторов для каждого СМИ с возможностью интерактивного перехода к материалам;
- результаты работы Системы в части мониторинга и анализа цитируемости СМИ должны выгружаться в Word и Excel в виде списков сообщений и графических данных в разрезах: динамика ИЦ СМИ, рейтинг статей источника по ИЦ, рейтинг по количеству, рейтинг по ИЦ, географическая карта, таблицы по категориям/уровням СМИ, сравнительный анализ конкурентов по ИЦ.
3.3.4. В части требований по поиску и фильтрации информационных сообщений СМИ Система должна обеспечивать следующие функциональные возможности:
Все сообщения, поступающие в Систему, должны проходить лингвистическую обработку, результаты которой должны быть доступны в качестве параметров поисковых запросов.
Лингвистическая обработка должна включать:
- выделение информационных объектов (физических и юридических лиц, географических понятий и брендов);
- тематическую и жанровую классификацию текстов;
- выявление групп информационных событий и автоматическую кластеризацию поступающих информационных материалов;
- выделение прямой и косвенной речи информационных объектов;
- ранжирование важности упоминания информационного объекта в тексте сообщения (главная или эпизодическая роль);
- определение характера упоминания объектов (позитив, негатив);
- определение количества эфирного времени с сюжетами, в которых освещается информационный объект;
- расчет индекса качества для выявленных информационных объектов;
- индекс качества должен отражать качественную оценку отношения источников информации к заданному объекту;
- индекс качества должен рассчитываться с обязательным использованием следующих данных: влиятельность источника (рассчитанная на основе оперативно обновляемых данных о его цитируемости), номер полосы, размер статьи, наличие иллюстрации, роль объекта в статье, наличие цитат объекта в статье, характер упоминания объекта (негатив или позитив);
- оценку охвата аудитории для каждого упоминания на основе данных о посещаемости сайтов, аудитории телеканалов, тиражей печатных СМИ.
Результаты лингвистической обработки по любому информационному объекту (компании или персоне) из справочной базы должны быть доступны по запросу в течение 5 минут.
А. Объектный поиск
Поиск по информационной базе 40 000 объектов, включающих наиболее крупные и публичные компании, персоны, бренды, геопонятия должен включать следующие возможности:
- выбор из предлагаемого списка объектов и просмотр информационной карточки объекта. Для юридических лиц информация о компании, включая полное и краткое наименование, юридический адрес, дату образования, телефон, ИНН[6], КПП[7], ОГРН[8], данные о руководстве и филиалах, дочерних компаниях, уставный капитал, данные о государственных контрактах, арбитражных делах, имеющихся лицензиях, государственных закупках.
- группировка нескольких объектов в один объект с последующим формированием поискового запроса на основе созданной группы объектов.
- создание пользовательских объектов с возможностью использования имеющихся объектов и/или любых контекстных слов или словосочетаний с последующим формированием поискового запроса на основе созданных пользователем объектов.
Б. Контекстный поиск
Контекстный поиск по массиву исходных информационных сообщений должен осуществляться при помощи языка запросов, в котором реализованы следующие возможности:
- задание логических булевских («и», «или», «не») отношений между словами или фразами;
- задание расстояния между словами или фразами;
- поддержка русскоязычной морфологии.
Расширенный поиск должен обладать следующими возможностями:
- только в заголовках;
- с ограничением по дате публикации;
- в определенных источниках информации;
Поиск информационных сообщений может производиться:
- по дате публикации;
- по информационным объектам;
- по источникам информации;
- по авторам;
- по тематическим рубрикам;
- по жанрам;
- по оценке характера упоминания, в освещении темы или объекта;
- с разделением сообщений по главной или не главной роли объекта в сообщении.
- с выделением и анализом сообщений с прямой речью.