Вопрос.Актуализация данных.




Вопросы к зачету по информатике. 5-8

Вопрос. Автоматическое реферирование и аннотирование.

Аннотирование текста заключается в формировании краткого описания его основных тем. Автоматическое реферирование - это составление коротких изложений материалов, аннотаций или дайджестов, т.е. извлечение наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных отчетов. Существует два разных подхода к аннотированию. В первом случае выявляется небольшое количество предложений, существующих в тексте, которые наиболее полно отражают основные темы текста. Дополнительно часто выделяются ключевые слова. Во втором случае основные темы текста выявляются как смыслы, и уже эти смыслы выражаются новыми предложениями, новым текстом. Все современные системы аннотирования/реферирования основаны на первом варианте. В целом задача аннотирования включает определение тематики документов, выделение ключевых (по темам) слов и фраз с учетом смысла, поиск предложений, содержащих ключевые слова и фразы, и синтез на этой основе фраз и предложений, отражающих основные темы текста.

Автоматическое реферирование и аннотирование — одно из направлений компьютерной обработки естественно-языковых текстов. И в этом качестве оно относится к фундаментальным технологиям ИИ.

Основные тенденции для данной области:

1)аннотированные каталоги перерастают в гипертекстовые (с их минусами и плюсами);

2)на всех крупных сайтах Internet предусматривают оглавления (карта сайта — sitemap) и функции поиска по сайту;

3)использование онтологических словарей-тезаурусов общего и специализированного назначения, а также методов ИИ.

Потребности в средствах автоматического реферирования и аннотирования испытывают: корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационно-библиотечные системы; каналы вещания; службы рассылки новостей и др.

Методы автоматического реферирования и аннотирования подразделяются на поверхностные и глубинные.

Поверхностные методы базируются на «экстрагировании» текста, т.е. извлечении из него фрагментов, оцениваемых системой как важнейшие, и объединении их в реферат или аннотацию. Важность фрагментов определяется:

1)по маркерам важности (оборотам типа «идея... состоит в...», «главным результатом... является...», «в заключении нужно сказать, что...» и т.д.);

2)по количеству заданных в запросе ключевых слов, входящих во фрагмент, и др.

При объединении выделенных предложений в реферат или аннотацию учитываются их зависимости друг от друга (удаленность выделяемых мыслей). «Стыки» между предложениями (фрагментами) «сглаживаются».

Глубинные методы, развиваемые в настоящее время, базируются на применении тезаурусов и развитых механизмов синтаксического разбора текста.

К традиционным системам автоматического реферирования и аннотирования, реализующим поверхностные методы, можно отнести:

1)Microsoft Word (функция автоматического реферирования);

2)ОРФО 5.0 (разработчик — компания «Информатик»), включающую функцию автоматического аннотирования русских текстов;

3)«Либретто» (разработчик — компания «МедиаЛингва»), обеспечивающую автоматическое реферирование и аннотирование русских и английских текстов (система встраивается в Word);

4)пакет «МедиаЛингва Аннотатор SDK 1.0», служащий инструментарием для реализации функций автоматического реферирования и аннотирования в прикладных ИАС;

5)поисковую систему «Следопыт», включающую средства автоматического реферирования и аннотирования документов;

6)поисковую машину «Золотой Ключик» компании Textar, обеспечивающую составление рефератов и аннотаций;

7)Intelligent Text Miner (IBM);

8)Oracle Context;

9)программные компоненты для разработки систем управления знаниями Inxight Summarizer фирмы Inxight Software, Inc.

Перечисленные средства обеспечивают выбор оригинальных фрагментов из исходных документов и соединение их в короткий текст.

Сделаем два замечания. Во-первых, источниками информации для рефератов и аннотаций могут служить не только тексты, но и видеозаписи, разнообразные табличные документы и т.д. Во-вторых, краткое изложение предполагает передачу основной мысли не обязательно теми же словами.

вопрос.Актуализация данных.

Актуализация данных - постоянно пополнение базы данных, внесение изменений, корректировка, чтобы информация была всегда актуальна, в достоверном и полном состоянии даже после обновлений. Информация в базе данных регулярно устаревает (меняются адреса, телефоны, сотрудники), и таким образом начинает терять ценность. Справиться с этой проблемой поможет регулярная актуализация баз данных.

Кому необходима актуализация данных?

1)Компаниям, только выходящим на рынок и имеющим новую клиентскую базу данных. Это позволит сформировать целевую аудиторию;

2)Компаниям, запускающим новый продукт, для которого требуется актуализация базы уже имеющихся у организации клиентов;

3)Компаниям, имеющим большую базу данных. Это позволит убрать недействительные номера и неактуальную информацию, оставив только потенциальных клиентов, готовых к сотрудничеству.

Вопрос.Анализ данных.

Анализ данных — область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных[1][2]; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.

Разновидности анализа данных:

Интеллектуальный анализ данных — это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании. Бизнес-аналитика охватывает анализ данных, который полагается на агрегацию. В статистическом смысле некоторые разделяют анализ данных на описательную статистику, исследовательский анализ данных и проверку статистических гипотез. Исследовательский анализ данных занимается открытием новых характеристик данных, а проверка статистических гипотез на подтверждении или опровержении существующих гипотез. Прогнозный анализ фокусируется на применении статистических или структурных моделей для предсказания или классификации, а анализ текста применяет статистические, лингвистические и структурные методы для извлечения и классификации информации из текстовых источников принадлежащих к неструктурированным данным.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-06-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: