Решения задач (для самопроверки)




Чухарев Е.М.

Компьютерные технологии в лингвистических исследованиях

УКАЗАНИЯ

ПО ВЫПОЛНЕНИЮ ДОМАШНЕГО ЗАДАНИЯ

Архангельск 2009


Для решения задач необходимо скачать файлы документов: https://chukharev.ru/2010-pomorsu-tasks.zip

Предварительные замечания

Как известно, в семиотике и лингвистике под знаком (англ. sign) понимается двусторонняя сущность, состоящая из означающего (плана выражения) и означаемого (плана содержания). Одной из разновидностей знака является знак-символ (англ. symbol): символические знаки, в отличие от иконических и индексальных, характеризуются отсутствием сходства или смежности между означаемым и означающим.

В русскоязычной традиции, сложившейся в компьютерных науках, термины «знак» и «символ» используются в иных значениях, а именно как взаимозаменяемые соответствия англ. character. Текст представляется в памяти компьютера в виде последовательности символов (= знаков): букв, цифр, знаков препинания, пробелов, а также так называемых специальных (= управляющих, непечатаемых) символов, которые, как следует из их названия, не отображаются на экране и не выводятся на печать, однако используются для управления форматированием и расположением текста. К непечатаемым символом относятся, например, знаки абзаца («красной строки»). Чтобы увидеть непечатаемые символы в Microsoft Word следует нажать кнопку «¶» на панели инструментов.

Для того, чтобы определить, какое количество символов содержится в тексте, в Microsoft Word 2003 нужно выбрать в меню «Сервис» пункт «Статистика», а в Microsoft Word 2007 — на ленте «Рецензирование» в поле «Правописание» нажать кнопку «Статистика».

§1. Простой поиск

Многие лингвистические задачи связаны с поиском в тексте некоторых элементов: слов, словосочетаний, предложений и проч. В Microsoft Word встроена функция автоматического поиска, вызвать которую можно следующими способами:

- в Microsoft Word 2003 — выбрав в меню «Правка» пункт «Найти», либо нажав
одновременно клавиши Ctrl и F;

- в Microsoft Word 2007 — нажав кнопку «Найти» на панели инструментов, либо
нажав одновременно клавиши Ctrl и F.

В результате появляется диалоговое окно «Найти и заменить».


Элемент, который следует найти в тексте, называется шаблоном поиска (англ. search pattern). Шаблон поиска следует вводить в поле «Найти». После нажатия кнопки "Найтидалее» Microsoft Word начинает просматривать текст, ища в нём совпадения (matches) с шаблоном. Совпадения выделяются в тексте инверсией. Продолжая нажимать кнопку «Найти далее», можно последовательно просмотреть все совпадения в тексте. Если совпадений больше нет, то будет выдано сообщение «Просмотр документа закончен».

Вместо последовательного просмотра совпадений можно выделить их все сразу.

Для этого в Microsoft Word 2003 нужно установить галочку «Выделить все элементы, найденные в» и убедиться, что в выпадающем списке выбрана позиция «Основной документ». При этом кнопка «Найти далее» превратится в «Найти все». После нажатия этой кнопки будут выделены все имеющиеся в тексте совпадения с шаблоном поиска, а в диалоговом окне после слов «Найдено элементов:» будет указано их общее количество.

В Microsoft Word 2007 для достижения того же эффекта следует нажать кнопку «Выделение при чтении» и из всплывающего меню выбрать пункт «Выделить все». Количество найденных совпадений будет указано в диалоговом окне («Приложение Word выделило... элементов»).

С найденными таким образом совпадениями можно осуществлять любые блочные операции: например, выделить их шрифтом прямо в тексте (в меню «Формат» пункт «Шрифт») или перенести их списком в отдельный файл (в меню «Правка» выбрать пункт «Копировать», затем создать новый документ и выбрать в меню «Правка» пункт «Вставить»).

Что именно считается совпадением, определяют параметры поиска. Для настройки этих параметров нужно нажать кнопку «Больше» и установить галочки в зависимости от задачи.

Если установлена галочка «Учитывать регистр», то будут находиться элементы, точно (буква в букву) совпадающие с шаблоном. В случае, если эта галочка не установлена, совпадением будет также считаться элемент, отличающийся от шаблона регистром (англ. case), то есть употреблением заглавных и строчных букв. Например, если задать шаблон поиска Rob, но не устанавливать галочку «Учитывать регистр», то помимо собственно Rob будут также найдены слова типа rob, RoB, rOB и т. п. (если, конечно, они присутствуют в тексте).

Если галочка «Только слово целиком» не установлена, то кроме целых слов, совпадающих с шаблоном, будут находиться и части слов, например, для шаблона man


будут найдены man, wоmап и mankind. Если же установить галочку «Только слово целиком», то совпадениями будут считаться только отдельные слова.

Галочка «Все словоформы» работает для английского языка и позволяет находить формы единственного и множественного числа имён существительных, все синтетически образуемые степени сравнения прилагательных и формы глаголов.

Назначение галочки «Подстановочные знаки» будет рассмотрено в §2.

 

Задачи

Текст: Great Expectations (dickens.doc)

1. Встречается ли в тексте слово enormous? Если да, то в каких контекстах оно
употребляется?

2. Встречается ли в тексте словоформа гisk?

3. Сколько всего раз встречается в тексте слово beautiful?

4. Определить, сколько раз встречаются в тексте названия цветов (заполнить
таблицу):

 

№ п/п Название цвета Частота № п/п Название цвета Частота
  black     magenta  
  blue     orange  
  brown     purple  
  pink     red  
  green     white  

5. В какой орфографии (британской или американской) представлен текст Great Expectations в файле?

§2. Поиск с подстановочными знаками

Помимо лингвистических задач, связанных с поиском в тексте конкретных слов, могут быть и такие, в которых искомое слово заранее не известно. Например, может потребоваться найти в тексте:

- все слова определённой длины (например трёхбуквенные);

- все слова с определённым префиксом или суффиксом;

- все конструкции, обособленные с двух сторон запятыми и т. п.

Для решения таких задач можно воспользоваться специальным режимом поиска, предоставляющим расширенные возможности, — поиском с подстановочными знаками (англ. wildcards букв, 'дикие карты'). Для включения режима нужно, нажав кнопку «Больше» в окне «Поиск и замена», установить галочку «Подстановочные знаки».

4
В речи картёжников «дикими картами» называются карты, которые по предварительной договорённости игроков или в соответствии с правилами игры могут заменять любую другую карту. Например, в большинстве карточных игр «дикой картой» является джокер. У подстановочных знаков такая же функция: они могут заменить в шаблоне поиска любой символ или любую группу символов.

Действие подстановочного знака? наиболее похоже на джокер в карточной игре:? шаблоне совпадает при поиске с любым символом текста. Например, шаблон г?д с овпадёт с гад, гид, и год.

Подстановочный знак * заменяет собой любую последовательность символов. Например, если ввести шаблон г*д, то будут найдены совпадения год и город.

Часто бывает нужно «привязать» шаблон поиска к началу или концу слова. Начало слова отмечается подстановочным знаком <, а конец — знаком >. Так, шаблон поиска горо совпадёт с фрагментами слов город и гороскоп, но не огород. Если же ввести в качестве шаблона ор>, то будут найдены слова ор и yпор, а слово оратория найдено не будет.

Можно сконструировать подстановочный знак, который будет совпадать при поиске не с любым символом текста (как ?), а только с одним из указанных. Для этого список символов, с которым может совпасть подстановочный знак, нужно заключить в квадратные скобки. Например, шаблон кр[ае]н совпадёт со словами кран и крен.

Внутри квадратных скобок можно задавать через дефис диапазоны символов (по алфавиту): шаблон [в-н]оль позволит найти слова голь, ноль и моль, но не боль и нe роль. Алфавитный порядок, используемый при задании диапазона, соответствует порядку следования символов в кодовой таблице, для просмотра которой в Microsoft Word 2003 можно выбрать в меню «Вставка» пункт «Символ...», а в Microsoft Word 2007 — нажав на кнопку «Символ» на ленте «Вставка» и выбрав из выпадающего списка пункт «Другие символы...». В кодовой таблице, в частности, заглавные буквы предшествуют строчным, латинские — кириллическим, а русская буква ё на входит в диапазон символов а-я. Таким образом, подстановочный знак, соответствующий строчной русской букве, будет иметь вид [а-яё].

Если в перечень символов в квадратных скобках необходимо включить дефис, его нужно указывать первым или последним, например, перечень знаков арифметических операций [-+*/]. Если дефис будет располагаться между двумя другими символами внутри квадратных скобок, то эти символы будут интерпретированы как диапазон.

Вместо того, чтобы перечислять в квадратных символы, которые могут совпадать с подстановочным знаком, можно, наоборот, перечислить те символы, которые не должны с


ним совпадать, поставив сразу после открывающей квадратной скобки!. Такой подстановочный знак будет совпадать с любыми символами, кроме перечисленных. Например, шаблон ко[!е-р]а совпадёт со словами кода и коса, но не кожа или кора.

Вся конструкция в квадратных скобках воспринимается Microsoft Word как единый подстановочный знак, и при поиске он будет совпадать только с одним символом текста.

Если возникает необходимость повторить некий знак (обычный или подстановочный) в шаблоне поиска несколько раз, то можно написать его один раз, и следом за ним в фигурных скобках указать количество повторений. Например, шаблон [а-я][а-я][а-я] идентичен шаблону [а-я]{3}. Если количество повторений не определено, то вместо фигурных скобок нужно поставить знак @. Так, шаблон [а-я]@ совпадет с любыми последовательностями строчных русских букв.

Если необходимо «лишить» подстановочный знак его специального значения и сделать его обычным символом, то перед ним следует поставить обратный слеш \. Например, для поиска слова, за которым следует вопросительный знак, можно использовать поисковый шаблон <*>!?.

Поиск с подстановочными знаками всегда чувствителен к регистру (заглавные и строчные буквы различаются).

Задачи

Текст: Great Expectations (dickens.doc)

1. Найти в тексте первые пять слов, состоящих из трёх букв.

2. Найти в тексте трёхбуквенные слова, начинающиеся на букву r и заканчивающиеся на букву t.

З. Найти в тексте первые пять трёхбуквенных слов, начинающиеся на согласную букву.

4. Сколько в тексте трёхбуквенных слов следующей структуры: VCC, где V
любая гласная буква, С — любая согласная буква?

5. Найти в тексте слова, состояние из пятнадцати букв.

6. Найти в тексте все слова с префиксом ип- и суффиксом -ness (существительные,
образованные от прилагательных с семой отрицания).

7. Сколько в тексте слов с префиксами in-, ir-, im-, ип- и суффиксом –ly ( отрицательных наречий)?

8. Есть ли в тексте слова с кластером из пяти согласных букв?

9. Сколько раз встречаются в тексте наречия в сравнительной степени, образованные аналитическим способом?


 

10. Найти в тексте все сентенциональные наречия на -ly в инициальной позиции (в
начале предложения) и оформить их списком в отдельном файле.

 

Текст: names.doc

11. В файле представлен список сотрудников организации. Необходимо составить в отдельном файле список всех женщин, работающих в данной организации.

Замена

Помимо функции поиска в Microsoft Word имеется функция замены, при использовании которой найденные совпадения с шаблоном автоматически заменяются заданным замещающим текстом (англ. replacement text). На вкладке «Заменить» диалогового окна «Найти и заменить» присутствуют два поля: «Найти» и «Заменить на». В поле «Найти», как и прежде, следует вводить шаблон поиска, а в поле «Заменить на» — замещающий текст.

Для поиска первого совпадения с шаблоном следует нажать кнопку «Найти далее». Найденное совпадение будет выделено в тексте. Далее можно нажать кнопку «Заменить», чтобы заменить это совпадение замещающим текстом, или кнопку «Найти далее», чтобы оставить это совпадение без изменения и перейти к следующему совпадению в тексте. Кроме того, имеется кнопка «Заменить все», нажатие на которую приведёт к замене всех оставшихся совпадений.

Подстановочные знаки, рассмотренные в §2, можно использовать в поле «Найти», но не в поле «Заменить на».

Если в поле «Найти» введён шаблон с подстановочными знаками, может возникнуть необходимость некоторые части найденного совпадения сохранить при замене, то есть включить в замещающий текст. Для этого нужно часть шаблона поиска, соответствующую сохраняемой части совпадения, заключить в круглые скобки, а в поле «Заменить на» использовать специальную конструкцию \ п, где п — номер пары круглых скобок из поля «Найти». Пары круглых скобок нумеруются слева направо, начиная с 1. На место данной специальной конструкции при замене будет вставлена сохраняемая часть найденного совпадения.


 

Например, поисковый шаблон <([а-я/@)-([а-я]@)> и замещающийтекст \2-\l приведут к замене слова генерал-лейтенант словом лейтенант-генерал.

 

Поисковый шаблон: <([а-я/@) - ([а-я]@)>

Номера круглых скобок: 1 2

Совпадение: генерал лейтенант

 

Замещающий текст: 2 1

Итоговый замещающий текст: лейтенант генерал

Задачи

Текст: names.doc

1. Изменить фамилию всем женщинам на «Иванова».

2. Привести список к виду «И. О. Фамилия».

 

 


Решения задач (для самопроверки)

§1

Задача 1. Встречается ли в тексте слово enormous"! Если да, то в каких контекстах оно употребляется?

Решение. Для решения задачи необходимо воспользоваться функцией поиска, встроенной в Microsoft Word. В меню «Правка» выберите пункт «Найти», в появившемся диалоговом окне введите enormous в поле «Найти» и нажмите «Найти далее». Чтобы к следующему употреблению слова enormous в тексте, снова нажмите «Найти I Таким образом можно просмотреть все контексты, в которых употребляется в контексте данное слово.

Ответ. Слово enormous встречается в трёх контекстах:

- I regret to state that I was not afraid of telling the enormous lie comprehended in the
answer "No.”

- Perhaps I might have told Joe about the pale young gentleman, if I had not previously
been betrayed into those enormous inventions to which I had confessed.

- - By degrees it became an enormous injury to me that he stood before the fire.

Задача 2. Встречается ли в тексте словоформа risk?

Решение. Если ввести в поле «Найти» слово risk и нажать «Найти далее», то Microsoft Word найдёт не совсем то, что было задумано: All this time Mrs. Joe and Joe were briskly clearing the table for the pie and pudding.

Для того, чтобы находить только целые слова, но не фрагменты слов, необходимо жать кнопку «Больше» и установить галочку «Только слово целиком».

Ответ. Да, словоформа risk встречается в тексте 1 раз.

Задача 3. Сколько всего раз встречается в тексте слово beautiful?

Решение. Слово beautiful встречается в тексте достаточно много раз. Чтобы не считать количество употреблений вручную, можно установить галочку «Выделить все элементы, найденные в:» и нажать «Найти все». Все случаи употребления искомого слова будут выделены в тексте одновременно, а в окне «Найти и заменить» будет отображено их общее количество (после слов «Найдено элементов:»).

Ответ. Слово beautiful встречается в тексте 26 раз.


Задача 4. Определить, сколько раз встречаютсея в тексте названия цветов.

Решение. Решение задачи аналогично предыдущему. Необходимо для каждого цвета определить, сколько раз в тексте встречается соответствующее прилагательное.

Ответ. См. заполненную таблицу.

 

№п/п Название цвета Частота № п/п Название цвета Чн(кии
  black     magenta  
  blue     orange  
  brown     purple  
  pink     red  
  green     white  

Задача 5. В какой орфографии (британской или американской) представлен текст Great Expectations в файле?

Решение. Можно воспользоваться любым из отличительных признаков британской или американской орфографии. Например, в британском варианте английского языка употребляется написание colour, а в американском — color. Решение задачи сводится к поиску обоих слов в тексте.

Ответ. Текст представлен в американской орфографии.

§2



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-15 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: