Конкордансы и автоматические конкордансы.

Конкорданс – это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник. В этом значении данный термин широко используется в корпусной лингвистике. Поиск в корпусе данных позволяет по любому слову построить конкорданс – список всех употреблений данного слова в контексте со ссылками на источник. Обычно конкордансом называют список примеров, полученных в результате поиска по корпусу интересующего пользователя языкового выражения со ссылками на источник.

В первом своем значении этот термин также употребляется для обозначения списка ключевых слов книги или работы, расположенных в алфавитном порядке, с их непосредственными контекстами.

Первый конкорданс, к Вульгате, был создан в 13 веке Хьюго де Сент-Шером (Hugues de Saint-Cher), которому помогали 500 монахов.

Именно из-за объёма работы по составлению конкордансов в докомпьютерные времена конкордансы были созданы только для трудов высочайшей важности – Вед, Библии, Корана или произведений У.Шекспира.

Даже с использованием компьютера создание конкорданса является трудоёмкой работой, так как конкордансы часто включают комментарии, определения слов или интертекстуальные ссылки – материалы, которые пока невозможно получить автоматически.

Двуязычные конкордансы – это конкордансы, основанные на параллельных текстах.

Тематические конкордансы – это списки тем, которые охватывает книга, с содержанием сути этих тем. Наиболее известный из таких конкордансов – Nave's Topical Bible.

Конкорданс (в первом упомянутом значении) является одним из основных понятий корпусной лингвистики. Конкордансы часто используются в прикладной лингвистике: в лексикографии, при анализе текста, при обучении и изучении языка, при переводе.

Конкордансы используются для решения следующих лингвистических задач:

-сравнение различных использований одного слова,

-анализ ключевых слов,

-анализ частотности слов и словосочетаний,

-поиск и исследование фраз и идиом,

-поиск перевода, например, терминологии,

-создание списков слов (что используется при публикации).

Существуют специальные программы составления конкордансов по некоторому корпусу текстов, так называемые конкордансеры. Они позволяют получать частоту той или иной языковой единицы по произвольному корпусу текстов, список контекстов, в которых данная единица встретилась. Многие из них позволяют также сортировать контексты по ключевому слову (в исходной форме) или по словоформе, по ближайшему контексту.

Примеры конкордансов:

Словарь-конкорданс публицистики Ф.М. Достоевского https://dostoevskii.karelia.ru,

Nave’s Topical Bible https://www.biblestudytools.com/concordances/naves-topical-bible/

AntConc https://www.antlab.sci.waseda.ac.jp/software.html

GlossaNet https://glossa.fltr.ucl.ac.be/

Unitex https://www-igm.univ-mlv.fr/~unitex/

В российской лексикографической традиции практически отсутствуют словари конкордансов, являющиеся важным инструментом изучения языка писателя.

Конкорданс в лексикографии понимается пример употребления слова в контексте фиксированной длины.

Конкорданс – список словоформ встречающихся в тексте, расположенных в алфавитном порядке, слово даётся с его словесным окружением.

Словари конкордансов включают примеры употребления всех слов в отдельном произведении или во всем творчестве писателя. Известны словари-конкордансы к поэмам О. Мандельштама, к поэзии А. Пушкина. Относительно недавно опубликован конкорданс к русскому варианту библии. Устройство словаря-конкорданса довольно просто. Словарным входом служит словоформа. Она помещается в центр строки и отделяется от текста примера дополнительными пробелами слева (разумеется, возможно, использование и других способов выделения). Пример имеет фиксированную длину, поэтому концы приводимого контекста обычно обрезаются. Пример сопровождается индексом, привязанным к какому-то достаточно полному изданию, что позволяет найти пример в тексте произведения.

Конкорданс - традиционный, давно известный, но до сих пор недостаточно оцененный способ изучения текста. Он дает полный индекс слов в ближайших и расширенных контекстах.

Вы хотите знать, что думал Достоевский о счастье? Для этого Вам достаточно открыть конкорданс любого произведения и выйти на все слова с морфемой "счаст".

Компьютерный конкорданс позволит Вам сравнить все контексты употребления слова, проанализировать их, увидеть слово в самом тексте художественного произведения. Это один из эффективных инструментов изучения литературного текста.

Система УНИЛЕКС-Т предназначена как для получения традиционных частотных словарей, словоуказателей и конкордансов, так и для формирования базы данных, позволяющей работать со словником и текстами в режиме "запрос - ответ", то есть в режиме Автоматического конкорданса. В системе не предусмотрено задание параметров для красивой (полиграфической) печати, поскольку основные пользователи системы - филологи-исследователи, для которых частотные словари, словоуказатели и конкордансы являются не конечным продуктом, предназначенным для издания, а промежуточными рабочими материалами. В частности, результаты обработки текста могут быть использованы в качестве заготовок словарных статей или как картотека при создании, пополнении или коррекции словаря, причем вход в картотеку возможен по разным параметрам: по словоформе, частоте словоформы, а при осуществлении лемматизации - дополнительно по лемме, частоте леммы и части речи. Система все же более ориентирована именно на конкордансы, но нет никаких принципиальных препятствий, которые мешали бы использовать ее только для получения частотных словарей.

Работу системы можно разделить на несколько этапов. Первый - первичная обработка текста, которая заключается в составлении словника по тексту, причем каждому слову приписываются адреса и ссылки на исходный текст. После этого можно либо осуществить лемматизацию, которая припишет словоформам леммы (словарные формы) и части речи, либо обойтись без нее, то есть остаться только со словоформами. Следующий шаг - сортировка словника по алфавиту и подсчет частот для словоформ и, если они есть, для лемм. Если пользователю не нужен диалоговый режим (автоматический конкорданс), то этим можно и ограничиться, разве что воспользоваться еще возможностью отсортировать словник по разным параметрам: по алфавиту (прямой и обратный словарь), по частоте, а если есть леммы и части речи, то по ним. Для получения словоуказателя или конкорданса по некоторому списку слов пользователь должен составить запрос по определенным правилам (если по всему словнику, то запрос не нужен). Элементами запроса могут быть словоформы, леммы, части речи, адреса. Размер контекста задается или числом символов, или числом фрагментов (если текст фрагментирован). Так же можно получить и выборку из частотного словаря, при этом подсчитывается вторая относительная частота - относительно общего объема выборки. Мы, однако, рекомендуем загрузить словник в базу данных - это позволит работать в наиболее удобном для пользователя режиме: просматривать словник и контексты на экране и только то, что ему нужно, отправлять в отдельный список - файл.

https://www.superlinguist.com/index.php?option=com_content&view=article&id=7:2009-11-27-19-04-50&catid=9:2009-11-23-13-35-37&Itemid=12#index

Конкордансы и автоматические конкордансы.

Поиск по сайту