Вопросы к зачету по информатике. 5-8
Вопрос. Автоматическое реферирование и аннотирование.
Аннотирование текста заключается в формировании краткого описания его основных тем. Автоматическое реферирование - это составление коротких изложений материалов, аннотаций или дайджестов, т.е. извлечение наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных отчетов. Существует два разных подхода к аннотированию. В первом случае выявляется небольшое количество предложений, существующих в тексте, которые наиболее полно отражают основные темы текста. Дополнительно часто выделяются ключевые слова. Во втором случае основные темы текста выявляются как смыслы, и уже эти смыслы выражаются новыми предложениями, новым текстом. Все современные системы аннотирования/реферирования основаны на первом варианте. В целом задача аннотирования включает определение тематики документов, выделение ключевых (по темам) слов и фраз с учетом смысла, поиск предложений, содержащих ключевые слова и фразы, и синтез на этой основе фраз и предложений, отражающих основные темы текста.
Автоматическое реферирование и аннотирование — одно из направлений компьютерной обработки естественно-языковых текстов. И в этом качестве оно относится к фундаментальным технологиям ИИ.
Основные тенденции для данной области:
1)аннотированные каталоги перерастают в гипертекстовые (с их минусами и плюсами);
2)на всех крупных сайтах Internet предусматривают оглавления (карта сайта — sitemap) и функции поиска по сайту;
3)использование онтологических словарей-тезаурусов общего и специализированного назначения, а также методов ИИ.
|
Потребности в средствах автоматического реферирования и аннотирования испытывают: корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационно-библиотечные системы; каналы вещания; службы рассылки новостей и др.
Методы автоматического реферирования и аннотирования подразделяются на поверхностные и глубинные.
Поверхностные методы базируются на «экстрагировании» текста, т.е. извлечении из него фрагментов, оцениваемых системой как важнейшие, и объединении их в реферат или аннотацию. Важность фрагментов определяется:
1)по маркерам важности (оборотам типа «идея... состоит в...», «главным результатом... является...», «в заключении нужно сказать, что...» и т.д.);
2)по количеству заданных в запросе ключевых слов, входящих во фрагмент, и др.
При объединении выделенных предложений в реферат или аннотацию учитываются их зависимости друг от друга (удаленность выделяемых мыслей). «Стыки» между предложениями (фрагментами) «сглаживаются».
Глубинные методы, развиваемые в настоящее время, базируются на применении тезаурусов и развитых механизмов синтаксического разбора текста.
К традиционным системам автоматического реферирования и аннотирования, реализующим поверхностные методы, можно отнести:
1)Microsoft Word (функция автоматического реферирования);
2)ОРФО 5.0 (разработчик — компания «Информатик»), включающую функцию автоматического аннотирования русских текстов;
3)«Либретто» (разработчик — компания «МедиаЛингва»), обеспечивающую автоматическое реферирование и аннотирование русских и английских текстов (система встраивается в Word);
|
4)пакет «МедиаЛингва Аннотатор SDK 1.0», служащий инструментарием для реализации функций автоматического реферирования и аннотирования в прикладных ИАС;
5)поисковую систему «Следопыт», включающую средства автоматического реферирования и аннотирования документов;
6)поисковую машину «Золотой Ключик» компании Textar, обеспечивающую составление рефератов и аннотаций;
7)Intelligent Text Miner (IBM);
8)Oracle Context;
9)программные компоненты для разработки систем управления знаниями Inxight Summarizer фирмы Inxight Software, Inc.
Перечисленные средства обеспечивают выбор оригинальных фрагментов из исходных документов и соединение их в короткий текст.
Сделаем два замечания. Во-первых, источниками информации для рефератов и аннотаций могут служить не только тексты, но и видеозаписи, разнообразные табличные документы и т.д. Во-вторых, краткое изложение предполагает передачу основной мысли не обязательно теми же словами.
вопрос.Актуализация данных.
Актуализация данных - постоянно пополнение базы данных, внесение изменений, корректировка, чтобы информация была всегда актуальна, в достоверном и полном состоянии даже после обновлений. Информация в базе данных регулярно устаревает (меняются адреса, телефоны, сотрудники), и таким образом начинает терять ценность. Справиться с этой проблемой поможет регулярная актуализация баз данных.
Кому необходима актуализация данных?
1)Компаниям, только выходящим на рынок и имеющим новую клиентскую базу данных. Это позволит сформировать целевую аудиторию;
|
2)Компаниям, запускающим новый продукт, для которого требуется актуализация базы уже имеющихся у организации клиентов;
3)Компаниям, имеющим большую базу данных. Это позволит убрать недействительные номера и неактуальную информацию, оставив только потенциальных клиентов, готовых к сотрудничеству.
Вопрос.Анализ данных.
Анализ данных — область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных[1][2]; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.
Разновидности анализа данных:
Интеллектуальный анализ данных — это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании. Бизнес-аналитика охватывает анализ данных, который полагается на агрегацию. В статистическом смысле некоторые разделяют анализ данных на описательную статистику, исследовательский анализ данных и проверку статистических гипотез. Исследовательский анализ данных занимается открытием новых характеристик данных, а проверка статистических гипотез на подтверждении или опровержении существующих гипотез. Прогнозный анализ фокусируется на применении статистических или структурных моделей для предсказания или классификации, а анализ текста применяет статистические, лингвистические и структурные методы для извлечения и классификации информации из текстовых источников принадлежащих к неструктурированным данным.