Лексические зоны частотного словаря.




Частотный словарь (или частотный список) — набор слов данного яза (или подъяза) вместе с инфой о частоте их встречаемости.

Словарь может быть отсортирован:

1)по частоте,

2)по алфавиту (для каждого слова будет указана его частота),

3)по группам слов (#первая тысяча наиб.частотных слов, вторая и т. п.),

4)по типичности (слова, частотные для больш-ва текстов).

Использ-ся для преподавания яза, создания новых словарей, приложений компьют. лингв-ки, исследований в области лингв-кой типологии, и т. д.

Построение частотных списков:

Обычно ЧС строятся на основе корпусов текстов: берется набор текстов, представительный для яза в целом, для некоторой предметной области или данного автора (#ЧС Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние - в случае, если корпус имеет морфологич. разметку).

Проблемы при создании ЧС:

1)воспроизводимость (будут ли результаты идентичны на другом аналогичном корпусе),

2)всплески частоты отдельн. слов(частота слова в 1м тексте может повл. на его позиц в ЧС)

3)сложности определения позиции менее частотных слов(не дает возможности ранжировать их рационально; #слово «белиберда» входит в 20 тысяч наиболее частотных слов, слово «хрюкнуть» - за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистич. точки зрения язык - большое количество редких событий (Закон Ципфа): небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. #Частота слова «и» (самое частотное слово РЯ) примерно в 10 раз выше частоты слова «о», которое встречается в 100 раз чаще таких слов как путешествие, старость или мода.

Для описания всплесков частоты можно использовать метафору хоббита: если несколько текстов в корпусе о хоббитах, то это слово будет употребл. почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, и в ЧСп большого корпуса, в который входят такие тексты, это слово будет иметь неправдоп. высокий ранг. Такие всплески частоты можно оценивать с помощью коэфф. вариации: отношения стандартного отклонения к средней частоте.

Сравнение корпусов.

ЧС обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Размеры корпусов могут быть различны, поэтому более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, ipm, instances per million words). Слово «и» имеет частоту около 30000 чмс, слово «старость» — около 30.

Для определения набора ключевых слов, отличающих один корпус от другого можно использовать разные статистич. меры: хи-квадрат, отношение правдоподобия и т. п.

В частотных словарях указывается частота употребления слов в специально сформир. представительной выборке текстов. Для РЯ наиболее известны: «ЧС РЯ Засориной» (1977) и «ЧC современного русского лит-ного яза Штейнфельдт (1963); первый — ЧС РЯ Йосельсона (1953), США. Словарь Засориной (40 тыс. слов) составлен на основе обработки примерно одного миллиона словоупотреблен. ЧС широко исп-ся в сфере прикладной лингв-ки. #при установлении авторства текста, при разработке компьютерных программ проверки орфографии.

Лемматизация - приведение всех словоформ к их словарной форме, #формы «были», «буду», «бывший» приведены к форме «быть».

#пример частотного списка на основе НКРЯ: три колонки: существительные, глаголы, прилагательные: (частота-слово) 2369-человек, 8900-быть, 263-белый.

Типы распределения:

1. статусное – упорядочивание элементов по их значимости, по функциональному весу (по частоте)

2. структурное – упорядочивание по внутреннему строению элементов (по количеству букв)

Они взаимосвязаны: частота слова зависит от длины, числа значений и т.д.

Частотный словарь (или частотный список) — словарь, представл. собой список слов с указан. при каждом частоты его употребления в совокупности текстов определенной длины.

Частотный словарь – не способ расположен. материала, он – способ отбора материала по частотности и выбор включаемой информации.

Важное свойство распределения – ассиметрия распределения, небольшое число элементов несёт большую нагрузку и составляет большую часть любого текста (концентрация активности) (2000 самых частотных слов в русском языке составляют более 70% в тексте).

1861г. Гейсби посчитал частоты китайских иероглифов для полиграфии.

1898г. Кединг(под редакцией), словарь немецкого языка.

Один из первых Ч. сл. - Словарь Эндриджа для иммигрантов – 6000 общеупотребительных английских слов.

1920г. Кенистон: важность слова определяется не только частотностью, но и тем, употребляется оно во всем круге текстов или в определенных.

Ч. сл. используются для 1)преподавания языка (рационализация изучения родного или иностранного),

2)совершенствования кодов. систем, входным языком которых является естественный язык.

...





Читайте также:
Назначение, устройство и принцип работы автосцепки СА-3 и поглощающего аппарата: Дальнейшее развитие автосцепки подвижного состава...
Решебник для электронной тетради по информатике 9 класс: С помощью этого документа вы сможете узнать, как...
Пример художественного стиля речи: Жанры публицистического стиля имеют такие типы...

Поиск по сайту

©2015-2022 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту:


Мы поможем в написании ваших работ!
Обратная связь
0.015 с.