Распознавание текстов очень важная задача которая возникает
Перейти к содержимому

Распознавание текстов очень важная задача которая возникает

  • автор:

Позовите преподавателя для проверки работы

Цель работы: изучить и освоить возможности MS Word при работе с колонками и списками.

Задание 1. Установка параметров страницы

Установим поля страницы. Для этого выберите вкладку Разметка страницы ® Параметры страницы.

Откроется окно Параметры страницы:

Установите поля страницы: Верхнее – 2 см, Нижнее – 2 см, Левое – 2 см, Правое – 2 см.

Обратите внимание, что в этом же окне можно поменять ориентацию страницы с книжной (по умолчанию) на альбомную.

Задание 2. Создание колонок (3 колонки)

Наберите текст по образцу (тип шрифта Times New Roman, размер – 12):

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Внимание: после напечатанного абзаца обязательно нажмите несколько раз , иначе не получатся три колонки.

Выделите напечатанный текст и выберите вкладку Разметка страницы ® Колонки ® Другие колонки.

Откроется окно Колонки:

Заполните поля диалогового окна: Тип (количество колонок) – 3, промежуток – 0,5 см. Нажмите ОК. Получится так:

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Задание 3. Создание колонок (2 колонки с разделителем)

Скопируйте и вставьте образец текста еще раз. Расположите его в две колонки с интервалом между колонками 1 см, поставьте галочку в окошке Разделитель. Получится так:

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Задание 4. Списки

Списки используют для автоматической нумерации абзацев. Элементом списка может быть только абзац. Списки могут быть нумерованные, маркированные и многоуровневые.

Списки можно создавать двумя способами:

1. Набрать текст из последовательности абзацев, выделить его и выбрать вид списка.

2. Выбрать вид списка и только после этого набрать текст из последовательности абзацев.

Результат будет одинаковым.

Нумерованные списки

Для создания нумерованного списка выберите вкладку Главная ® Абзац ® Нумерация.

Если щелкнуть по стрелке, появится окно, в котором можно выбрать форматы нумерации. Выберите указанный вид нумерованного списка и создайте список:

1. Сайгутина Светлана

2. Асадова Светлана

3. Козырева Юлия

4. Сакаева Ирина

5. Кузнецова Кристина

6. Балахонова Дарья

7. Пономарева Лидия

Расположите фамилии студенток по алфавиту. Для этого: выделите список и щелкните по пиктограмме Сортировка:

Появится окно Сортировка текста. Нажмите ОК. Получится так:

1. Асадова Светлана

2. Балахонова Дарья

3. Козырева Юлия

4. Кузнецова Кристина

5. Пономарева Лидия

6. Сайгутина Светлана

7. Сакаева Ирина

Скопируйте и вставьте полученный список, выберите другой вид нумерованного списка. Например:

1) Асадова Светлана

2) Балахонова Дарья

3) Козырева Юлия

4) Кузнецова Кристина

5) Пономарева Лидия

6) Сайгутина Светлана

7) Сакаева Ирина

Если список начинается не с 1, а продолжается, выделите первую фамилию, нажмите правую кнопку мыши (контекстное меню) и выберите Начать заново с 1. Создайте другие виды нумерованных списков.

Маркированные списки

Для создания маркированного списка выберите вкладку Главная ® Абзац ® Маркеры:

Создайте маркированный список:

Функции процессора:

ü обработка данных по заданной программе путем выполнения арифметических и логических операций;

ü программное управление работой устройств компьютера.

Функции памяти:

ü прием информации из других устройств;

ü выдача информации по запросу в другие устройства машины.

Многоуровневые списки

Первоначально список не имеет уровней. Для понижения уровня списка следует увеличить отступ:

Для повышения уровня списка – уменьшите отступ:

Создайте многоуровневые списки:

Список 1

1. Компьютерное оборудование

1.1. Системный блок:

1.1.1. материнская плата;

1.1.2. жесткий диск;

1.1.4. блок питания;

Список 2

1. В современном документообороте чаще всего используется:

1) Microsoft Word

2) StarOffice Writer

3) Windows Блокнот

2. Преобразование документа, обеспечивающее вставку, удаление, перемещение его фрагментов (объектов) – это:

3. Часть текста, представляющая собой законченный по смыслу фрагмент произведения, окончание которого служит естественной паузой для перехода к новой мысли:

Сохраните работу в своей папке под именем Практическая работа 3.

Позовите преподавателя для проверки работы

Практическое занятие № 4

Создание и форматирование таблиц

Цель работы: изучить и освоить возможности MS Word при работе с таблицами.

Таблицы в документах используют для представления структурированной информации.

Задание 1. Создание таблицы

Образец: Таблица истинности для основных логических функций

A B A Ù B конъюнкция A Ú B дизъюнкция ØA инверсия
0 0 0 0 1
0 1 0 1 1
1 0 0 1 0
1 1 1 1 0

Для создания таблицы используется вкладка Вставка ® Таблица

Посчитайте количество столбцов в таблице – 5. Количество строк считать необязательно, т.к. они легко добавляются и удаляются. Щелкните по пиктограмме Таблица и, удерживая левую кнопку мыши нажатой, выделите 5 клеточек по горизонтали и 5 клеточек по вертикали. Щелкните левой кнопкой мыши.

Заполните таблицу. Для ввода символов конъюнкции, дизъюнкции, инверсии используйте вкладку Вставка ® Символ.

A B A Ù B конъюнкция A Ú B дизъюнкция ØA инверсия
0 0 0 0 1
0 1 0 1 1
1 0 0 1 0
1 1 1 1 0

Выделите всю таблицу и щелкните правой кнопкой мыши. Появится контекстное меню:

Выберите Автоподбор ® Автоподбор по содержимому. Получится так:

A B A Ù B конъюнкция A Ú B дизъюнкция ØA инверсия
0 0 0 0 1
0 1 0 1 1
1 0 0 1 0
1 1 1 1 0

Расположите таблицу по центру. Расположите надписи в ячейках по центру. Напечатайте название таблицы. Должно получиться, как на образце.

Задание 2. Конструктор. Создайте таблицу:

Вид рекламы Эффективность рекламы (%)
Телевидение 40
Радио 20
Средства печати 26
Транспорт 7
Уличные щиты 2
Прочие 5

Установите курсор в любой ячейке таблицы и найдите вкладку РАБОТА С ТАБЛИЦАМИ Конструктор:

Откройте окно, где Вы можете выбрать стиль оформления таблицы или создать свой стиль. Выберите один из стилей.

Задание 3. Объединение ячеек Образец:

Единицы измерения информации

Для того, чтобы записать название таблицы Единицы измерения информации, необходимо выделить ячейки первой строки, щелкнуть правой кнопкой мыши (появится контекстное меню), выбрать: Объединить ячейки:

Расположите текст внутри ячеек По центру, введите название таблицы Единицы измерения информации. Объедините 4-ую и 5-ую ячейки второй строки (где будет напечатано Приставка), затем разбейте ее на 2 столбца, 2 строки.

Единицы измерения информации

Две верхние ячейки объедините. Заполните таблицу. Используйте надстрочные и подстрочные знаки.

Задание 4. Создайте таблицу самостоятельно. Образец:

Дата добавления: 2020-04-08 ; просмотров: 2040 ; Мы поможем в написании вашей работы!

Текстовый редактор

Нажмите, чтобы узнать подробности

Практикум содержит 11 практических занятий с самостоятельным пошаговым выполнением каждого задания. Итог работы – многостраничный документ с автособираемым оглавлением.

Практическое занятие №1

Шрифты. Форматирование символов

Цель работы: изучить и освоить возможности MSWord при работе со шрифтами.

Начало работы: создайте в папке Мои документы папку, названную Вашей фамилией. Все работы сохраняйте только в свою папку.

Запустите программу MSWord:Пуск Все программы MicrosoftOffice 2013Word 2013.

Прочитайте пояснения, найдите и рассмотрите на экране вкладку Шрифт.

Шрифт – это набор букв, цифр, специальных символов и знаков препинания. В понятие шрифта входят: тип шрифта (гарнитура), размер шрифта, начертание.

1. Тип шрифта (гарнитура) – наиболее распространенными шрифтами в России являются: TimesNewRoman,

2. Размер обычно выражается в пунктах (points). Один пункт соответствует 0,376 мм:

для основного текста обычно выбирают размер 12,

для заголовков – 14 и выше,

для сносок и примечаний – 8.

3. Начертание

Можно использовать разные сочетания начертаний:

полужирный + курсив

полужирный + подчеркнутый

курсив + подчеркнутый

полужирный + курсив +подчеркнутый

Установите для Вашего документа размер шрифта 14
и гарнитуру TimesNewRoman.

Задание 1. Копирование и вставка строки

«Я изучаю MicrosoftWord успешно».

Скопируйте данную фразу и вставьте ее три раза.

Для этого выделите данную фразу (поставьте курсор мыши слева от данной строки и щелкните левой кнопкой, строка «Я изучаю MicrosoftWord успешно» выделится серым цветом.):

«Я изучаю MicrosoftWord успешно».

Выполните команду Копировать:

Копия данной строки поместилась в буфер обмена, теперь ее можно вставлять в указанное место нужное число раз. Обратите особое внимание на то, что данный объект вставляется в то место, где мигает текстовый курсор. Чтобы вставить строку, поставьте курсор в нужное место и выполните команду Вставить.

Вставьте данную фразу 4 раза. Должна получиться следующая картина:

«Я изучаю MicrosoftWord успешно».

«Я изучаю MicrosoftWord успешно».

«Я изучаю MicrosoftWord успешно».

«Я изучаю MicrosoftWord успешно».

«Я изучаю MicrosoftWord успешно».

Внимание! Запомните 4 шага:

выделить объект, который надо копировать;

установить курсор в то место, куда надо вставить скопированный объект;

Задание 2. Изменение гарнитуры

Оформите: первую строку шрифтом TimesNewRoman,

Должно получиться так:

«Я изучаю MicrosoftWord успешно».

«Я изучаю MicrosoftWord успешно».

«Я изучаю MicrosoftWord успешно».

«Я изучаю MicrosoftWord успешно».

«Я изучаю MicrosoftWord успешно».

Задание 3. Изменение гарнитуры

Наберите текст по образцу (гарнитура Times New Roman):

Шрифт – это набор букв, цифр, специальных символов и знаков препинания, отображаемых определенным образом. В понятие шрифта входят: тип шрифта, размер шрифта, начертание.

Выделите и скопируйте текст, вставьте его последовательно 2 раза.

Примените различные типы шрифтов (любые). Укажите названия шрифтов.

Шрифт – это набор букв, цифр, специальных символов и знаков препинания, отображаемых определенным образом. В понятие шрифта входят: тип шрифта, размер шрифта, начертание. (Cambria)

Шрифт – это набор букв, цифр, специальных символов и знаков препинания, отображаемых определенным образом. В понятие шрифта входят: тип шрифта, размер шрифта, начертание. (Tahoma)

Шрифт – это набор букв, цифр, специальных символов и знаков препинания, отображаемых определенным образом. В понятие шрифта входят: тип шрифта, размер шрифта, начертание. (Calibri)

Задание 4. Изменение размера шрифта

Наберите слово (шрифт TimesNewRoman):

Скопируйте и вставьте слово Информатика 8 раз. Выделив предварительно каждую строку, измените размер шрифта, выбрав размер в раскрывающемся списке размеров шрифтов. Выбирайте шрифты в порядке увеличения: 8, 10, 12, 14, 16, 18, 22, 26. Должно получиться так:

Наберите последовательность чисел по образцу:

14 18 22 26 30 34

Последовательно выделяя каждое число, задайте размер шрифта в соответствии с его значением (если число 14, то размер шрифта – 14, если 18, то 18 и т.д.):

Наберите свое имя и задайте размер шрифта 100.

Задание 5. Изменение стиля начертания

Наберите текст по образцу (гарнитура TimesNewRoman):

Можно использовать различные сочетания начертаний.

Скопируйте набранный текст и вставьте его 7 раз. К каждой строке примените различное начертание символов, (жирный, курсив, подчеркнутый) чтобы получилось примерно так:

Можно использовать различные сочетания начертаний.

Можно использовать различные сочетания начертаний.

Можно использовать различные сочетания начертаний.

Можно использовать различные сочетания начертаний.

Можно использовать различные сочетания начертаний.

Можно использовать различные сочетания начертаний.

Можно использовать различные сочетания начертаний.

Задание 6. Изменение цвета шрифта

Скопируйте и вставьте текст другим способом:

Пометьте все семь строк, полученные в предыдущем задании. Нажмите правую кнопку мыши и выберите пункт меню [Копировать]. Нажмите левую кнопку мыши. Установите курсор через две пустых строки, нажмите правую кнопку мыши и выберите команду [Вставить].

Последовательно выделяя каждую строку, задайте ее цвет по желанию.

Можно использовать различные сочетания начертаний.

Можно использовать различные сочетания начертаний.

Задание 7. Верхний (надстрочный знак) и нижний (подстрочный знак) индексы

Наберите текст по образцу:

a 2 + b 2 = c 2

Задание8. Изменение интервалов между символами

Наберите текст по образцу:

MicrosoftOffice 2013 Word

Выделите, скопируйте и вставьте текст 3 раза. Получится 4 одинаковые строки.

Выделяя каждую строку, примените к ней различный интервал между символами. Используйте меню Шрифт, вкладку Дополнительно.

Должно получиться так:

MicrosoftOfficeWord 2007 – обычныйинтервал

MicrosoftOfficeWord 2007 – разреженныйна 2 пт

MicrosoftOfficeWord 2007 – разреженныйна 4 пт

MicrosoftOfficeWord 2007 – уплотненныйна 1 пт

Задание9. Выполните упражнение

Наберите текст и оформите его так:

Для обработки текстовой информации на компьютере используются текстовые редакторы, которые позволяют создавать, редактировать, форматировать, сохранять и распечатывать документы.

Times New Roman
размершрифта — 11

Приложение WindowsБлокнот позволяет редактировать текст и осуществлять простейшее форматирование шрифта.

CourierNew
размер шрифта – 14

MicrosoftWord и StarOfficeWriter имеют широкий спектр возможностей по созданию документов.

BookAntiqua
размер шрифта – 12

Для подготовки к изданию книг, журналов и газет в процессе макетирования издания используются мощные программы обработки текста – настольные издательские системы (например, AdobePageMaker).

MonotypeCorsiva
размер шрифта – 14

Для подготовки к публикации в Интернете Web-страниц и Web-сайтов используются специализированные приложения (например, MicrosoftFrontPage).

Bookman Old Style
размершрифта – 12

Измените цвет предложений и отдельных слов по своему желанию. Сохраните работу в своей папке под именем Практическая работа 1.

Практическое занятие №2 Форматирование абзацев

Цель работы: изучить и освоить возможности MSWord при работе с абзацами.

Прочитайте пояснения,найдите и рассмотрите на экране вкладку Абзац:

Абзац является одним из основных объектов текстового документа. Абзац с литературной точки зрения – это часть текста, представляющая собой законченный по смыслу фрагмент произведения, окончание которого служит естественной паузой для перехода к новой мысли.

В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши .

Важно уметь различать конец абзаца и конец строки внутри абзаца. Когда текст доходит до правого края листа, он автоматически переходит на новую строку. Когда же Вы нажимаете клавишу , происходит переход к новому абзацу.

Конец абзаца помечается символом ¶. С самого начала приучайтесь работать в режиме включенных скрытых знаков форматирования! Эти символы служат для облегчения работы с текстом и не выводятся на печать.

Задание 1. Выравнивание абзацев

Абзац является одним из основных объектов текстового документа. Абзац с литературной точки зрения – это часть текста, представляющая собой законченный по смыслу фрагмент произведения, окончание которого служит естественной паузой для перехода к новой мысли.

В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши .

Существуют четыре способа выравнивания абзацев:

Влево – левый край ровный, а правый как получится.

По центру – весь текст выровнен по центру.

Вправо – правый край ровный, а левый как получится.

По ширине – оба края ровные. Выравнивание по ширине происходит за счет растягивания пробелов между словами.

Внимание! Часто при выравнивании по ширине между словами (если слова длинные) получаются очень большие пробелы. Это некрасиво! Устанавливайте во вкладке РАЗМЕТКА СТРАНИЦЫ Расстановку переносов Авто. Слова будут переносится по слогам автоматически.

Скопируйте напечатанный текст:

Для этого выделите текст (поставьте курсор мыши слева от текста и, удерживая нажатой левую кнопку мыши, ведите курсор мыши вниз, пока весь текст не выделится). Выполните команду Копировать. Копия текста поместилась в буфер обмена, теперь копию текста можно вставлять в указанное место.Через одну строку после набранного текста напечатайте: По центру:

Нажмите и вставьте текст (выполните команду Вставить). Отформатируйте текст по центру (выделите текст и щелкните мышью на пиктограмме по центру).Получится так:

Абзац является одним из основных объектов текстового документа. Абзац с литературной точки зрения – это часть текста, представляющая собой законченный по смыслу фрагмент произведения, окончание которого служит естественной паузой для перехода к новой мысли.

В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши .

По правому краю:

Отступите одну пустую строку и вставьте текст (выполните команду Вставить).Отформатируйте текст по правому краю. Получится так:

Абзац является одним из основных объектов текстового документа. Абзац с литературной точки зрения – это часть текста, представляющая собой законченный по смыслу фрагмент произведения, окончание которого служит естественной паузой для перехода к новой мысли.

В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши .

Отступите одну пустую строку и вставьте текст (выполните команду Вставить). Отформатируйте текст по ширине:

Абзац является одним из основных объектов текстового документа. Абзац с литературной точки зрения – это часть текста, представляющая собой законченный по смыслу фрагмент произведения, окончание которого служит естественной паузой для перехода к новой мысли.

В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши .

Задание 2. Изменение интервала между строками

Наберите текст по образцу:

Слово «компьютер» означает «вычислитель», т.е. устройство для вычисления. Это связано с тем, что первые компьютеры создавались для вычислений: усовершенствованные автоматические арифмометры.

Выделите текст, скопируйте его и вставьте 3 раза. Между текстами оставляйте пустую строку, чтобы отделить их друг от друга.Затем, выделяя каждый текст, примените к нему соответствующий междустрочный интервал.

Выберите меню Главная Абзац Отступы и интервалы Интервал междустрочный 1,5 строки. Нажмите ОК. Перед каждым текстом напечатайте, какой междустрочный интервал Вы применяете.Получится так:

Междустрочный интервал1,5 строки:

Слово «компьютер» означает «вычислитель», т.е. устройство для вычисления. Это связано с тем, что первые компьютеры создавались для вычислений: усовершенствованные автоматические арифмометры.

Междустрочный интервал Двойной:

Междустрочный интервал Точно 14 пт:

Задание 3. Изменение отступов абзацев

Скопируйте образец текста из Задания 1 и вставьте его 4 раза.

Установим красную строку и заодно поменяем одинарный интервал между строками на 1,5 строки (полуторный) и увеличим интервал между абзацами.Для этого выделите первый текст (2 абзаца), выберите в верхнем меню команду Главная Абзац:

В появившемся окне найдите: первая строка и нажмите на стрелочку вниз, выберите отступ (появится 1,25 см). Установите междустрочный интервал 1,5 строки.Слева интервал перед и после абзаца вместо 0 поставьте 6. Нажмите ОК.Должно получиться так:

Отступ первой строки абзаца:

Абзац является одним из основных объектов текстового документа. Абзац с литературной точки зрения – это часть текста, представляющая собой законченный по смыслу фрагмент произведения, окончание которого служит естественной паузой для перехода к новой мысли.

В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши .

Остальные образцы текста отформатируйте следующим образом:

Выступ первой строки абзаца:

Абзац является одним из основных объектов текстового документа. Абзац с литературной точки зрения – это часть текста, представляющая собой законченный по смыслу фрагмент произведения, окончание которого служит естественной паузой для перехода к новой мысли.

В компьютерных документах абзацем считается любой текст, заканчивающийся управляющим символом (маркером) конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши .

Отступ абзацев слева на 3 см:

Отступ абзацев справа на 2 см:

Задание 4. Наберите и отформатируйте текст заявления

Шапка заявления отформатирована по правому краю, слово «Заявление» – по центру, текст заявления – по ширине с красной строкой междустрочный интервал 1,5 строки, дата – по правому краю.

ПКим. П.А. Овчинникова

от обучающегося группы _________

Прошу отпустить меня с уроков 27 декабря 2017 года по семейным обстоятельствам. Заявление от родителей прилагается.

Задание 5. Наберите и отформатируйте текст

Наберите текст по образцу с заданными параметрами форматирования: тип шрифта – Cambria, размер шрифта – 12, междустрочный интервал – одинарный, интервал между четверостишьями до – 6, после – 6; отступ абзацев слева – 4 см или 6 см (через четверостишье).

Внимание! В данном примере каждое четверостишье – это абзац. Для перехода на новую строку внутри абзаца (четверостишья) применяйте принудительный конец строки внутри абзаца – комбинацию клавиш [Shift]+[Enter].

Найдите в Интернете похожую картинку и вставьте ее.

Вечор, ты помнишь, вьюга злилась,
На мутном небе мгла носилась;
Луна, как бледное пятно,
Сквозь тучи мрачные желтела,
И ты печальная сидела —
А нынче. погляди в окно: ¶

Под голубыми небесами
Великолепными коврами,
Блестя на солнце, снег лежит;
Прозрачный лес один чернеет,
И ель сквозь иней зеленеет,
И речка подо льдом блестит. ¶

Сохраните работу в своей папке под именем Практическая работа 2.

Позовите преподавателя для проверки работы

Практическое занятие № 3 Форматирование страницы. Колонки. Списки

Цель работы: изучить и освоить возможности MSWord при работе с колонками и списками.

Задание 1. Установка параметров страницы

Установим поля страницы. Для этого выберите вкладку Разметка страницы Параметры страницы.

Откроется окно Параметры страницы:

Установите поля страницы: Верхнее – 2 см, Нижнее – 2 см, Левое – 2 см, Правое – 2 см.

Обратите внимание, что в этом же окне можно поменять ориентацию страницы с книжной (по умолчанию) на альбомную.

Задание 2. Создание колонок (3 колонки)

Наберите текст по образцу (тип шрифта TimesNewRoman, размер – 12):

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Внимание: после напечатанного абзаца обязательно нажмите несколько раз , иначе не получатся три колонки.

Выделите напечатанный текст и выберите вкладку Разметка страницы Колонки Другие колонки.

Откроется окно Колонки:

Заполните поля диалогового окна: Тип (количество колонок) – 3, промежуток – 0,5 см. Нажмите ОК. Получится так:

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Задание 3. Создание колонок (2 колонки с разделителем)

Скопируйте и вставьте образец текста еще раз. Расположите его в две колонки с интервалом между колонками 1 см, поставьте галочку в окошке Разделитель.Получится так:

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Задание 4. Списки

Списки используют для автоматической нумерации абзацев. Элементом списка может быть только абзац. Списки могут быть нумерованные, маркированные и многоуровневые.

Списки можно создавать двумя способами:

Набрать текст из последовательности абзацев, выделить его и выбрать вид списка.

Выбрать вид списка и только после этого набрать текст из последовательности абзацев.

Результат будет одинаковым.

Нумерованные списки

Для создания нумерованного списка выберите вкладку Главная Абзац Нумерация.

Если щелкнуть по стрелке, появится окно, в котором можно выбрать форматы нумерации. Выберите указанный вид нумерованного списка и создайте список:

С айгутина Светлана

Расположите фамилии студенток по алфавиту. Для этого: выделите список и щелкните по пиктограмме Сортировка:

Появится окно Сортировка текста. Нажмите ОК. Получится так:

Скопируйте и вставьте полученный список, выберите другой вид нумерованного списка. Например:

Если список начинается не с 1, а продолжается, выделите первую фамилию, нажмите правую кнопку мыши (контекстное меню) и выберите Начать заново с 1. Создайте другие виды нумерованных списков.

Маркированные списки

Для создания маркированного списка выберите вкладку Главная Абзац Маркеры:

Создайте маркированный список:

Функции процессора:

обработка данных по заданной программе путем выполнения арифметических и логических операций;

программное управление работой устройств компьютера.

Функции памяти:

прием информации из других устройств;

выдача информации по запросу в другие устройства машины.

Многоуровневые списки

Первоначально список не имеет уровней. Для понижения уровня списка следует увеличить отступ:

Лабораторно практическая работа » Практическая работа в программе WORD

Цель работы: изучить и освоить возможности MS Word при работе с колонками и списками.

Задание 1. Установка параметров страницы

Установим поля страницы. Для этого выберите вкладку Разметка страницыПараметры страницы.

Установите поля страницы: Верхнее – 2 см, Нижнее – 2 см, Левое – 2 см, Правое – 2 см .

Обратите внимание, что в этом же окне можно поменять ориентацию страницы с книжной (по умолчанию) на альбомную .

Задание 2. Создание колонок (3 колонки)

Наберите текст по образцу (тип шрифта Times New Roman, размер

Внимание: после напечатанного абзаца обязательно нажмите несколько раз , иначе не получатся три колонки.

Выделите напечатанный текст и выберите вкладку Разметка

Откроется окно Колонки :

Заполните поля диалогового окна: Тип (количество колонок) – 3, про- межуток – 0,5 см. Нажмите ОК. Получится так:

текстов — очень важная задача, которая возникает во многих областях

деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике,

бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет

выполнять компьютер, а вернее специальная программа распознавания текста.

Но прежде специальное устройство сканер

поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Задание 3. Создание колонок (2 колонки с разделителем)

Скопируйте и вставьте образец текста еще раз. Расположите его в две колонки с интервалом между колонками 1 см, поставьте галочку в окошке Разделитель . Получится так:

Распознавание текстов — очень программа распознавания текважная задача, которая возни-ста. Но прежде специальное кает во многих областях дея-устройство сканер поможет вветельности человека. Заполняя сти данные с бланков в память бюллетень на выборах, бланк во компьютера. Сканер предназнавремя переписи населения, кар-чен для преобразования инфорточку в поликлинике, бланк те-мации с бумажного носителя в ста на экзамене, мы знаем, что графический файл, с которым и обработку информации с этих будет работать программа.

носителей будет выполнять компьютер, а вернее специальная

Задание 4. Списки

Списки используют для автоматической нумерации абзацев. Элементом списка может быть только абзац. Списки могут быть нумерованные, маркированные и многоуровневые .

Списки можно создавать двумя способами:

1. Набрать текст из последовательности абзацев, выделить его и выбрать вид списка.

2. Выбрать вид списка и только после этого набрать текст из последовательности абзацев.

Результат будет одинаковым. Нумерованные списки

Для создания нумерованного списка выберите вкладку Главная Абзац Нумерация .

Если щелкнуть по стрелке, появится окно, в котором можно выбрать форматы нумерации. Выберите указанный вид нумерованного списка и создайте список:

Расположите фамилии студенток по алфавиту. Для этого: выделите список и щелкните по пиктограмме Сортировка :

Появится окно Сортировка текста . Нажмите ОК. Получится так:

1. Асадова Светлана

2. Балахонова Дарья

3. Козырева Юлия

4. Кузнецова Кристина

5. Пономарева Лидия

6. Сайгутина Светлана

7. Сакаева Ирина

Маркированные списки

Для создания маркированного списка выберите вкладку Главная

Создайте маркированный список:

Функции процессора:

ü обработка данных по заданной программе путем выполнения арифметических и логических операций;

ü программное управление работой устройств компьютера. Функции памяти:

ü прием информации из других устройств;

ü запоминание информации;

ü выдача информации по запросу в другие устройства машины.

Многоуровневые списки

Первоначально список не имеет уровней. Для понижения уровня списка следует увеличить отступ: Для повышения уровня списка – уменьшите отступ:

Распознавание текстов очень важная задача которая возникает

Цель работы: изучить и освоить возможности MS Word при работе с колонками и списками.

Задание 1. Установка параметров страницы

Установим поля страницы. Для этого выберите вкладку Макет ® Поля ® Настраиваемые поля.

Откроется окно Параметры страницы :

Установите поля страницы: Верхнее – 2 см, Нижнее – 2 см, Левое – 2 см, Правое – 2 см .

Обратите внимание, что в этом же окне можно поменять ориентацию страницы с книжной (по умолчанию) на альбомную .

Задание 2. Создание колонок (3 колонки)

Наберите текст по образцу (тип шрифта Times New Roman , размер – 12):

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Внимание: после напечатанного абзаца обязательно нажмите несколько раз , иначе не получатся три колонки.

Выделите напечатанный текст и выберите вкладку Макет ® Колонки ® Другие столбцы

Откроется окно Колонны :

Заполните поля диалогового окна: Тип (количество столбцов) – 3, промежуток – 0,5 см. Нажмите ОК. Получится так:

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Задание 3. Создание колонок (2 колонки с разделителем)

Скопируйте и вставьте образец текста еще раз. Расположите его в две колонки с интервалом между колонками 1 см, поставьте галочку в окошке Разделитель . Получится так:

Распознавание текстов — очень важная задача, которая возникает во многих областях деятельности человека. Заполняя бюллетень на выборах, бланк во время переписи населения, карточку в поликлинике, бланк теста на экзамене, мы знаем, что обработку информации с этих носителей будет выполнять компьютер, а вернее специальная программа распознавания текста. Но прежде специальное устройство сканер поможет ввести данные с бланков в память компьютера. Сканер предназначен для преобразования информации с бумажного носителя в графический файл, с которым и будет работать программа.

Задание 4. Списки

Списки используют для автоматической нумерации абзацев. Элементом списка может быть только абзац. Списки могут быть нумерованные, маркированные и многоуровневые .

Списки можно создавать двумя способами:

1. Набрать текст из последовательности абзацев, выделить его и выбрать вид списка.

2. Выбрать вид списка и только после этого набрать текст из последовательности абзацев.

Результат будет одинаковым.

Нумерованные списки

Для создания нумерованного списка выберите вкладку Главная ® Абзац ® Нумерация .

Если щелкнуть по стрелке, появится окно, в котором можно выбрать форматы нумерации. Выберите указанный вид нумерованного списка и создайте список:

1. Сайгутина Светлана

2. Асадова Светлана

3. Козырева Юлия

4. Сакаева Ирина

5. Кузнецова Кристина

6. Балахонова Дарья

7. Пономарева Лидия

Расположите фамилии студенток по алфавиту. Для этого: выделите список и щелкните по пиктограмме Сортировка :

Появится окно Сортировка текста . Нажмите ОК. Получится так:

1. Асадова Светлана

2. Балахонова Дарья

3. Козырева Юлия

4. Кузнецова Кристина

5. Пономарева Лидия

6. Сайгутина Светлана

7. Сакаева Ирина

Скопируйте и вставьте полученный список, выберите другой вид нумерованного списка. Например:

1) Асадова Светлана

2) Балахонова Дарья

3) Козырева Юлия

4) Кузнецова Кристина

5) Пономарева Лидия

6) Сайгутина Светлана

7) Сакаева Ирина

Если список начинается не с 1, а продолжается, выделите первую фамилию, нажмите правую кнопку мыши (контекстное меню) и выберите Начать заново с 1 . Создайте другие виды нумерованных списков.

Маркированные списки

Для создания маркированного списка выберите вкладку Главная ® Абзац ® Маркеры :

Создайте маркированный список:

Функции процессора:

ü обработка данных по заданной программе путем выполнения арифметических и логических операций;

ü программное управление работой устройств компьютера.

Функции памяти:

ü прием информации из других устройств;

ü запоминание информации;

ü выдача информации по запросу в другие устройства машины.

Многоуровневые списки

Первоначально список не имеет уровней. Для понижения уровня списка следует увеличить отступ. Для повышения уровня списка – уменьшите отступ.

Создайте многоуровневые списки:

1. Компьютерное оборудование

1.1.2. материнская плата;

1.1.3. жесткий диск;

1.1.4. DVD -дисковод;

1.1.5. блок питания;

1. В современном документообороте чаще всего используется:

1) Microsoft Word

2) StarOffice Writer

3) Windows Блокнот

2. Преобразование документа, обеспечивающее вставку, удаление, перемещение его фрагментов (объектов) – это:

Распознавание текстов очень важная задача которая возникает

В современном мире происходит очень важный процесс — формиро вание единого информационного пространства . Сти­раются информационные границы между странами и народа ­ми , у человека появляется возможность общаться в букваль ­ном смысле слова со всем миро м. Все это приводит к тому , что многие люди различных профессий начинают общаться с иностранными коллегами, читать справочную и другую спе­циальную литературу на иностранном языке. Но далеко не каждый человек свободно владеет иностранными языками.

Современные компьютеры способны хранить большие массивы данных и производить в них быстрый поиск . Эти возможности компьютера можно использовать для создания электронных словарей и организации с их помощью перево­да текста с одного языка на друго й. Для этих целей сегодня уже существует множество программ.

Как работают програм мы-переводчики

Чтобы найти перевод неизвестного иностранного слова, пользователю электронного словаря достаточно ввести это слово в строке поиска , и уже через несколько мгновений бу ­дет получен исчерпывающий перевод . Современные тексто­вые процессоры имеют в своем составе словари , позволяю­щие производить орфографическую проверку правильности написания слов (на разных языках).

Но перевод отдельного слова и перевод целого текста — задачи совершенно разные. Чтобы понять смысл текста, не всегда хватает понимания значений всех входящих в него слов . Например, в английском языке слово « unit » имеет как минимум 6 различных значени й. Какое из них имел в виду автор конкретного текста? Следствием необходимости реше­ния этих проблем стало появление компьютерных систем пе­ревода тексто в. Современные системы перевода позволяют не только перевод пт ь, но и редактировать перевод, работать с различными тематическими словарями, выполнять как про ­стой и быстрый, так и сложный и профессиональный пере ­вод. Эти программы (вернее, пакеты программ) позволяют работать с файлами различных типов, электронной почто й, гипертекстовыми документами и т. п. К сожалению, задача адекватного перевода до конца еще не решена — многие про­граммы зачастую выполняют ее не всегда удачно.

Рассмотрим простой пример. Переведем с помощью систе­мы перевода на английский язык фразу:

Информатика — это наука об информации .

The co mputer science is an information science.

А теперь с помощью той же программы переведем эту фра­зу на русский язык. Получим:

Информатика — информатика.

Как говорится, почувствуйте разницу!

Системы перевода еще уступают человеку, особенно в ра­боте с художественными текстами, но эта область информа­тики развивается очень быстро и «электронные карманные переводчики » уже становятся незаменимым помощником туриста , отправляющегося в страну с незнакомым для него языком .

Распознаван ие текста

Перед обсуждением этой темы давайте вспомним , какие устройства ввода информации существуют у современных компьютеров? Клавиатура, мышь, сканер и др . Сканер , на ­пример, позволяет вводить графическую информацию с лис­та бумаг и.

За сотни лет человечество накопило огромный объем ин­формации на традиционных бумажных носителях (книгах, газетах, журналах и т. п ,), В настоящее время существует потребность (у электронных библиотек, к примеру) перено ­сить эту информацию в память компьютера , Конечно , это можно сделать с помощью клавиатуры и текстового редакто­ра, но, представьте себе, сколько времени уйдет даже у про­фессионального оператора на ввод, скажем , романа «Война и ми р»? Необходимо как -то ускорить этот процес с. Встает во­прос, нельзя ли использовать ска нер для ввода текстовой ин­формации? Правда, в этом случае возникает такая проблема: все, что введено с помощью сканера, хранится в памяти ЭВМ как изображение . Надо «объяснит ь» компьютеру, что значок «с» — не просто закорючка, а буква, и хранить и обрабаты­вать его нужно как букву ,

В вод в компьютер печатного и рукописного текста

Существуют программы, позволяющие вводить тексты в ПК с помощью сканера . Используя специальные алгоритмы, они распознают буквы, позволяют редактировать распознан­ный текст и сохранять его в различных форматах. Популяр ­ной программой такого типа является ABBY FineReader , Работать с этой программой несложно . Сначала нужно отска­нировать текст (у правлять сканером можно прямо в среде Fi­neReader) , затем разбить этот текст на фрагменты, потом распознать эти фрагменты, отредактировать полученный текст и , наконец, сохранить его в нужном текстовом форма­те. Интерфейс программы позволяет освоить эти операции легко и быстро.

Задача распознавания текста относится к области проб ­лем, которые решает наука под названием «Искусственный интеллект» . Современные распознающие программы умеют ч итать не только печатный текст, но и текст, написанный са­мым «коря вым» почерком .

Кор отко о главном

Современные программные средства позволяют перево­дить тексты с одного языка на другой и распознавать и х, пе­реводя из отсканированного, графического представления в текстовые файлы .

Распознавание текста на изображении

Распознавание текста на изображениях (оптическое распознавание символов (англ. optical character recognition, OCR [1] )) — одно из направлений распознавания образов, задача которого заключается в переводе изображений рукописного, машинного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере (например, в текстовом редакторе).

Содержание

Общая информация

Распознавание текста на изображениях является важной задачей машинного обучения, так как это позволяет организовать удобное взаимодействие с данными: редактирование, анализ, поиск слов или фраз и т.д.

В последние десятилетия, благодаря использованию современных достижений компьютерных технологий, были развиты новые методы обработки изображений и распознавания образов, благодаря чему стало возможным создание таких промышленных систем распознавания печатного текста, как, например, FineReader [2] , которые удовлетворяют основным требованиям систем автоматизации документооборота.

Тем не менее, создание приложения в данной области по-прежнему остается творческой задачей и требует дополнительных исследований в связи со специфическими требованиями по разрешению, быстродействию, надежности распознавания и объему памяти, которыми характеризуется каждая конкретная задача.

История

Разработка OCR-систем основана на технологиях, связанных с телеграфией и созданием считывающих устройств для слепых. В 1914 году Эммануэль Гольдберг разработал устройство, считывающее символы и преобразовывающее их в стандартный телеграфный код. Одновременно Эдмунд Фурнье д’Альбе разработал «Оптофон», ручной сканер, который, при перемещении по напечатанной странице, вырабатывал тональные сигналы, соответствующие определенным буквам или символам.

В 1974 году Рэй Курцвейл создал компанию «Kurzweil Computer Products, Inc» и начал работать над развитием первой системы оптического распознавания символов, способной распознавать текст, напечатанный любым шрифтом. Курцвейл считал, что лучшее применение этой технологии — создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. Данное устройство требовало изобретения сразу двух технологий — ПЗС (прибор с зарядовой связью [3] ) планшетного сканера и синтезатора, преобразующего текст в речь.

Первой коммерчески успешной программой, распознающей кириллицу, стала программа «AutoR» российской компании «ОКРУС». Алгоритм «AutoR» был компактный, быстрый и шрифтонезависимый. Этот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, выпускники МФТИ — Г. М. Зенкин и А. П. Петров. В настоящее время алгоритм Зенкина-Петрова применяется в нескольких прикладных системах, решающих задачу распознавания графических символов.

В 1993 году вышла технология распознавания текстов российской компании ABBYY. На её основе создан ряд корпоративных решений и программ для массовых пользователей. Технологии распознавания текстов ABBYY OCR лицензируют международные ИТ-компании, такие как Fujitsu, Panasonic, Xerox, Samsung, EMC и другие.

В 2000-х годах производительность и компактность OCR-системы позволила представить на рынок онлайн-сервисы по переводу текста с одного языка на другой. Со временем такие программы получили возможность обрабатывать изображения как печатного, так и рукописного текста.

С развитием технологий производства мобильных устройств и упрощения процесса разработки мобильных приложений, OCR-системы стали неотъемлемой частью разнообразных программ: от развлекательных до обучающих, от мобильных помощников до систем управления.

Применение систем распознавания текстов

Системы OCR применяются во многих областях. Вот некоторые из задач, которые решают системы распознавания текстов:

  • Считывание данных с бланков и анкет.
  • Автоматическое распознавание номерного знака.
  • Распознавание паспортных данных.
  • Извлечение информации из визитных карточек в список контактов.
  • Создание цифровых версий печатных и рукописных документов, например, сканирование книг для проекта «Гутенберг» [4] .
  • Технология для помощи слепым и слабовидящим.

Наиболее распространенные задачи OCR

С задачей распознавания символов связаны следующие проблемы:

  • Разнообразие форм начертания символов: документ может содержать несколько шрифтов сразу, а символы могут быть схожи по начертанию.
  • Искажение изображения, содержащего текст:
    • Шумы при печати.
    • Плохое качество изображения (засвеченность, размытость).

    Процесс распознавания текста

    Система распознавания текста предполагает наличие на входе изображения с текстом (в формате данных графического файла). На выходе система должна выдать текст, выделенный из входных данных. Весь процесс распознавания текста состоит из нескольких задач.

    Обработка изображения

    Перед началом распознавания текста изображение должно быть очищено от шума и приведено к виду, позволяющему эффективно выделять символы и распознавать их. Обычно у изображения повышают резкость, контрастность, выравнивают его и преобразовывают в используемый системой формат (например, 8-битное изображение в градациях серого).

    Распознавание символов

    ДОБАВИТЬ ОБЩИЕ СЛОВА

    Алгоритмы распознавания символов

    Распознавание при помощи метрик

    Этой способ лучше всего работает с машинописным текстом, но при обработке новых шрифтов точность распознавания падает. Метрика является признаком символа, поэтому иногда в контексте данного способа говорят о процессе выявления признаков. В качестве метрики используют расстояние Хэмминга, которое показывает, на сколько пикселей различаются изображения. Если признаки двух символов максимально похожи, то разность между их метриками (то есть расстояние между ними) стремится к нулю. Дальнейшая классификация символа происходит по методу ближайшего соседа.

    Однако, одной метрики недостаточно для распознавания символа, так как некоторые очень похожи между собой, (например, “j” и “i”, “Z” и “2”) что может привести к ошибке. Для избежания этого, используют следующие техники:

    1) Группировка символов
    $\;$Некоторые символы (“O”, “H”, “I”) обладают суперсимметрией, (полностью совпадают со своими отражениями, значимые пиксели распределены равномерно по всему изображению) и их можно выделить в отдельный класс. Это значительно сокращает перебор метрик.

    2) Контекстное распознавание
    $\;$В качестве помощи алгоритмам распознавания в систему включают словари. Они предоставляют справки во многих случаях, но быстро отказывают, когда, например, имеют дело с именами собственными, которые не находятся в словаре.

    Распознавание с применением нейронных сетей

    Нейронные сети – это структура связанных элементов, на которых заданы функции преобразования сигнала, а также коэффициенты, которые могут быть настроены на определенный характер работы.

    Часть элементов структуры выделены как входные: на них поступают сигналы извне, таким образом, они описывают значения пикселя изображения. То есть, если имеется изображение 16х16, входов у сети должно быть 256. Другая часть – выходные, они формируют результирующие сигналы.

    Сигнал, проходящий через нейронную сеть, преобразуется согласно формулам на элементах сети, на выходе формируется ответ. Так как все нейроны поименованы значениями букв, следовательно, среагировавший нейрон и несет ответ распознавания.

    Нейронная сеть может быть использована в системе распознавания текста в качестве классификатора. При обучении, сеть получает на вход изображения, анализирует все позиции черных пикселей и выравнивает коэффициенты, минимизируя ошибку. Таким образом, достигается лучший результат распознавания.

    Пример нейронной сети

    На картинке в качестве примера схематически показана двухслойная нейронная сеть, включающая в себя 35 входов (каждый символ — матрица 7×5, соответственно, вектор, описывающий матрицу, состоит из 35 элементов), 26 выходов (количество букв) и 10 нейронов скрытого слоя. В качестве функции активации в данной сети используется сигмоидная функция [5] , выход которой представлен в диапазоне от 0 до 1, что потом удобно перевести в булеву алгебру.

    Пример на синтаксисе скриптового языка MATLAB
    Недостатки нейронных сетей

    Нейронные сети с успехом могут применяться в системах распознавания текста, однако обладают существенными недостатками, препятствующими их широкому применению:

    • Затраты памяти: необходимо построить достаточно большую сеть элементов, что приводит к большим затратам памяти.
    • Затраты ресурсов системы: в процессе распознавания используются большие объемы ресурсов системы, так как функции на элементах сети работают с числами с плавающей точкой.
    • Необходимость в обучении: для достижения более точного результата нейронную сеть необходимо обучать, однако и это не гарантирует идеальный результат.
    • Сложность построения: так как работа нейронной сети во многом зависит от ее конфигурации, требуется больше усилий для создания наиболее эффективной архитектуры.

    Алгоритмы распознавания текста

    E2E-MLT
    Определение:
    E2E-MLT [6] — метод, позволяющий решать задачи локализации и распознавания текста на изображениях, содержащих фрагменты на разных языках. Основан на FCN-сети с общими слоями для обеих задач.

    Реализация размещена в Github репозитории [7] одного из авторов проекта.

    Программа обнаружения и выделения текста

    Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.

    Рубрика Программирование, компьютеры и кибернетика
    Вид курсовая работа
    Язык русский
    Дата добавления 12.06.2016
    Размер файла 1,7 M
    Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

    Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

    Размещено на http://www.allbest.ru/

    Введение

    Распознавание текста на изображениях — это очень важная задача, имеющая множество практических приложений: индексирование фотографий и видео, мобильное распознавание текста, навигация роботов и многие другие.

    Сегодня цифровая камера есть почти в каждом телефоне, смартфоне и планшете. На сервис хостинга видеозаписей YouTube, согласно их официальной статистике[29] ежесекундно загружается 72 часа видео, количество же фотографий в интернете и вовсе сложно сосчитать. Необходимо найти способ эффективно управлять этими мультимедиа ресурсами и анализировать их содержимое. Текст, содержащий высокоуровневую смысловую информацию, очень хорошо подходит для решения этой задачи. Например, текст на изображениях в интернете может соотноситься с содержимым веб страниц. Текст на обложках книг и журналов зачастую необходим для их индексации, так две книги с одинаковым оформлением, но разными заглавиями будут внешне неотличимы, если не известен текст на обложках.

    Рисунок 1.1. Демонстрация работы приложения “Word Lens”

    Заголовки новостей обычно содержат информацию о том где, когда и с кем произошло событие, описываемое в репортаже. Субтитры к спортивным видео могут содержать информацию о счете и спортсменах. Кроме того, в отличие от другой информации, которую можно получить из изображения, текст создается людьми, поэтому он может напрямую определять содержимое безо всяких вычислений.

    Нас окружает очень большое количество текстовой информации, такой как таблички, знаки, вывески. К сожалению, не все и не всегда могут ей воспользоваться. Например, слабовидящим может быть полезно устройство, читающее для них вслух. И даже у здоровых людей при въезде в другую страну могут возникнуть проблемы из-за языкового барьера. Для последних создаются программы, которые могут переводить текст с фотографий на язык, указанный пользователем. Например, приложение Word Lens, пример работы которого приведен на рис. 1.1.

    Навигация при помощи GPS или ГЛОНАСС достаточно удобна, но не всегда доступна. Внутри некоторых помещений, где нет сигнала от спутника, её использовать невозможно. А в случае, например, атомной бомбардировки воздух ионизируется, и радиосвязь перестает быть доступной. Поэтому роботам для полноценного ориентирования необходимо использовать визуальную информацию. Как уже было сказано ранее, текст может быть очень полезен. Номера домов, таблички на кабинетах, схемы, планы и маршрутные карты — все это может быть использовано, но только, если робот сможет распознать текст на них.

    Помимо этого существует множество приложений, в которых необходимо автоматически распознавать текст на изображении: сканирование автомобильных номеров при автоматической фиксации нарушений или нанесение на карту различных организаций, используя панорамные снимки улиц.

    А в некоторых случаях, выделение текста имеет значение само по себе. Например, момент появления заголовка в видеозаписи новостей может фиксировать начало нового сюжета, что может использоваться при автоматическом реферировании видео. Или, может быть, необходимо просто привлечь внимание пользователя к какому-то тексту.

    К. Юнг и соавторы в работе [15] дали определение интегрированной системы получения текстовой информации из изображений (рис. 1.2), состоящей из четырех этапов:

    Рисунок 1.2 Архитектура интегрированной системы получения текстовой информации из изображений

    1. Обнаружение. На этом этапе определяется, есть ли на изображении текст или нет.

    2. Локализация. На втором этапе определяется местоположение текста. Обычно результатом работы этого этапа является описывающий прямоугольник, в котором содержится текст.

    3. Извлечение. Выделенные текстовые области очищаются от всего постороннего, убирается фон. Текст группируется на слова и символы.

    4. Распознавание. На последнем этапе происходит непосредственно само преобразование графической информации в текст.

    Из всех этапов обнаружение и локализация текста, наиболее критичны для общей производительности системы. Кроме того, эти два этапа можно рассматривать совместно. Ведь если текст обнаружен, то известно его местоположение.

    В последние годы было предложено значительное количество методов для решения этих задач, но быстрое и точное выделение текста на фотографиях до сих пор остается достаточно сложной проблемой из-за большого разнообразия шрифтов, размеров, цветов, способов ориентирования в пространстве. Часто эту проблему усугубляют изменения освещения, сложный фон, препятствия, искажения изображения и потеря качества при сжатии.

    В 2003, 2005 и 2011 годах в рамках конференции ICDAR были проведены соревнования на лучший алгоритм автоматического выделения и распознавания текста. Результаты, продемонстрированные там, ясно показывают, что проблема не решена до конца. Так результат победителя 2011 года [22], Кима Чугуун: полнота 62,47% и точность 82.98%.

    Полнота и точность — величины характеризующие качество работы алгоритмов поиска и классификации. В рамках данной предметной области точность — отношение площади выделенных текстовых областей к общей площади выделенных областей. Полнота — отношение площади выделенных текстовых областей к общей площади текстовых областей.

    В этой работе, была поставлена задача, исследовать некоторые из существующих на сегодняшний день методов обнаружения и выделения текста, и на их основе построить систему обнаружения и выделения текста на изображениях.

    1.Обзор источников

    текст изображение интегрированный

    Хотя существующие подходы заявляют о впечатляющих результатах, все еще существует ряд проблем. Методы, на основе анализа регионов работают относительно медленно, и их производительность чувствительна к расположению текста. Напротив, методы на основе анализа компонент связности не могут точно сегментировать текст без информации о расположении и масштабе текста. Более того, существует множество нетекстовых компонент, которые легко спутать с текстовыми, при индивидуальном анализе. Например, колесо автомобиля можно принять за букву “О”. Стоит отметить, что некоторые работы предлагают смешанные подходы, в которых используются методы на основе анализа и регионов и компонент связности.

    1.1 Методы, основанные на анализе регионов

    В своей работе Адам Коатс и соавторы [7] предложили интересный подход, основанный на обучении без учителя для получения признаков. Разработанная ими система состоит из трёх этапов:

    1. Применяется алгоритм обучения без учителя для получения набора рассчитанных признаков из фрагментов изображений, полученных из обучающего множества.

    2. Уменьшается количество признаков путем использования пространственного объединения [2].

    3. Обучается классификатор для выделения текста.

    На первом этапе системы они собирают коллекцию фрагментов изображений 8 на 8 пикселей в градациях серого. Все фрагменты предварительно обрабатывают. Для этого сначала нормализуют значения интенсивности и градиента каждого фрагмента, вычитая из значений этих величин в каждой точке их математическое ожидание и умножая полученную разность на среднеквадратичное отклонение. Потом применяют забеливание [14] [18] на основе анализа нулевых компонент. Забеливание используется для предварительной обработки вектора признаков. Оно нормирует значения векторов таким образом, что коэффициенты вариации отдельных величин становятся равны.

    Затем, из нормализованных и забеленных данных, при помощи алгоритма К-средних, получают набор признаков.

    Пространственное объединение применяется для сокращения количества информации представляющей каждый фрагмент изображения. Авторы статьи используют квадратные фрагменты стороной 32 пикселя. Для каждой области 8 на 8 пикселей в этом фрагменте рассчитывается вектор признаков. Далее используется усредняющее объединение, то есть просто рассчитывается новый вектор как среднее арифметическое всех векторов, описывающих восьмипиксельные области. Если этого не сделать, то количество информации возрастет многократно.

    В качестве классификатора используется метод опорных векторов [26]. Свое обучающее множество Коатс и его коллеги строят на основе обучающего набора данных ICDAR 2003 [23], получая из него фрагменты 32 на 32 пикселя. Для определения, является ли фрагмент текстом или нет, используется уже готовая разметка исходного набора. Общий размер полученного множества составил 60000 фрагментов.

    При детектировании используется метод скользящего окна. Вычисляется вектор признаков для каждого тридцатидвухпиксельного фрагмента изображения. Данные вычисления проводятся несколько раз, для разного масштаба изображения, для того чтобы детектировать текст разного размера. Затем каждому пикселю исходного изображения ставится в соответствие максимальный результат классификатора, полученный для всех фрагментов его содержащих, при разных масштабах. Полученные значения бинаризуются с некоторым порогом и в результате получается маска указывающая наличие текста на изображении. Варьируя порог бинаризации, можно получать различные значения точности и полноты. Точность рассчитывается как отношения количества правильно маркированных пикселей к общему числу маркированных пикселей. Полнота — как отношение количества правильно маркированных пикселей к общему числу пикселей, которые следовало маркировать.

    Этот подход показывает далеко не самые высокие результаты (точность 61% при полноте 69%), но он интересен тем, что не использует каких-то логически обоснованных признаков, а получает их сам.

    Система, описанная в работе [6], является очень хорошим примером системы основанной на анализе регионов. Ее создатели решили использовать не абстрактные признаки, такие как собственные числа, рассчитанные для фрагмента изображения (такой признак использовался в [7]), или вейвлеты Хаара. Вместо этого они искали более информативные признаки, а именно такие, которые будут давать схожие результаты для различных текстовых регионов.

    Первый набор признаков основан на наблюдении за поведением производных по и в пределах текстового региона. Авторы выбрали из обучающего множества все текстовые области, растянули или сжали их до фиксированного размера, и посчитали для них значения производных. Средние величины производных формируют определенный шаблон.

    Рисунок 1.3. Наверху: математические ожидания значений производных по (слева) и по (справа). Внизу: их дисперсия.

    Из рисунка 1.3 видно, что значения производных на заднем фоне (выше и ниже текста) достаточно низкие. Производная по имеет большие значения в центральной области, где и находится непосредственно текст. А производная по принимает большие значения на границе текста и фона, а в центральной части она мала. Также дисперсия производной по имеет большие значения в центре, из-за того, что символы имеют разнообразную форму и размер. А у производной по значения дисперсии отличаются слабо.

    Исходя из данного наблюдения, рассчитываются признаки в различных областях фрагмента изображения (сверху, снизу, в центре). Границы областей взяты из анализа рисунка 1.1. Следующей группой признаков являются признаки, основанные на гистограммах интенсивности, направления и модуля градиента. В искусственных изображениях часто бывает резкая граница между текстом и фоном, поэтому можно легко разделить их по наличию двух пиков на гистограмме. В реальных изображениях, которые рассматриваются в этой работе, границы, как правило, смазаны, и гистограмма имеет только один пик. Поэтому используются кроме уже перечисленных гистограмм еще и совмещенные гистограммы интенсивности и градиента.

    Третьей группой признаков являются признаки, основанные на выделении границ, такие как количество граней, их размеры.

    По заявлению авторов их алгоритм детектирует 97% текста на изображениях( точность детектирования не называется). Из-за выбора первых признаков, алгоритм не детектирует негоризонтальный текст и, по заявлению авторов, плохо работает с одиночными символами.

    Надежда Рубцова и ее коллеги в работе [19] представили интегрированную систему для распознавания текста, реализующую все этапы подобной системы: от обнаружения до распознавания. Главная идея их работы состоит в интеграции отдельных этапов и использовании результатов одних этапов на других.

    Для выделения текста они используют следующий подход: как и во всех остальных работах, использующих анализ регионов, происходит построение пирамиды изображений с различными масштабами. Далее, каждое изображение разбивается на фрагменты размером 20 на 20 пикселей, которые называют нодами. Первый этап называется анализом нод. На данном этапе, похожие ноды объединяются в более крупные формации — регионы. Для определения степени схожести используется несколько признаков. Первый из них это гистограмма интенсивности из десяти интервалов.

    Кроме того ноды характеризуются гранями. Гранью, в терминологии данной работы, является переходная область, выделенная высокими значениями градиента, между областями с разной интенсивностью. Авторы используют грани, как локальную характеристику, и не рассчитывают их для всего изображения, так как значения градиента могут сильно отличаться между его различными областями. Этот локальный анализ состоит в разделении всех величин градиента на существенные и не существенные, при помощи EM-алгоритма [1] [8]. Области, которым соответствуют существенные величины градиента, помечаются на маске локальных граней. На этой маске указаны широкие области перехода и игнорируются узкие, однопиксельные, грани.

    Третий признак, характеризующий ноды, рассчитывается на основе преобразования ширины штриха [9]. Рассчитывается преобразование для изображения в каждом из масштабов, штрихи шириной более пяти пикселей при этом отбрасываются. Далее, чтобы заполнить незначительные пустоты на стыках фрагментов символов оставшихся после преобразования или убрать случайный шумы, результат преобразования складывается с результатом детектора границ Кэнни [5] и размывается. Так как после размытия маска перестает быть бинарной, то полученный результат называют уже содержимым ширины штриха. Характеристикой нода является сумма значений содержимого: если оно находится ниже определенного порога, то это значит, что фрагмент изображения в ноде однороден и не будет сливаться с другими нодами.

    После объединения соседних схожих нод в регионы наступает этап анализа регионов. Регионы классифицируются на текстовые и нетекстовые, при помощи классификатора, на основе метода опорных векторов [25] [26]. Для классификации используются семь признаков, почти все из которых основаны на построении, так называемой, ЕМ-модели. Авторы предлагают при помощи EM-алгоритма разложить распределение интенсивности в небольшой области вокруг граней, в пределах региона на два класса: ”текст” и ”фон”. А в качестве признаков использовать разницу между математическими ожиданиями полученных распределений: отношению между количеством пикселей региона относящихся к одной из моделей к общему количеству пикселей и отношению разницы бинаризованного EM-моделью региона и маски локальных граней, от всех нод входящих в регион к бинаризованному региону. Также продемонстрирована попытка смоделировать то же распределение интенсивности, только одним распределением, и отношение ошибок показывает, на сколько точнее модель при помощи одного распределения чем при помощи двух распределений. Признаки Тамуры [27], отношение размера областей перехода к размеру региона и сам размер региона являются единственными признаками не основанными на ЕМ-модели. Полученный классификатор обучался на наборе данных ICDAR 2003.

    Далее следует дополнительная обработка регионов и распознавание текста, но это выходит за рамки данной работы.

    В самой работе приведены только результаты работы всей системы и не вполне ясно насколько хорошо работает выделение текста. Несмотря на это, в ней используются интересные признаки, которые можно использовать в дальнейшем.

    1.2 Методы, основанные на анализе компонент связности

    В работе [9] Б. Эпштейна, Э. Офека и Е. Векслера представлен способ выделения независимых компонент на основе оператора ширины штриха. Оператор ширины штриха — это оператор, ставящий в соответствие каждому пикселю исходного изображений ширину штриха, к которому он наиболее вероятно относится. Сначала, выделяются грани при помощи оператора Собеля. Затем, начиная от точки на выделенной грани, в сторону увеличения градиента, для светлого текста на темном фоне, или уменьшения, для темного на светлом, помечаются все пиксели до следующей грани. Для всех помеченных пикселей, указывается ширина их штриха, равная их количеству. Если пиксель был помечен ранее, то значение его ширины штриха меняется только на меньшее.

    Соседние пиксели, значения ширины штриха для которых отличаются не более чем в три раза, группируются вместе, формируя компоненты связности. Далее ко всем отдельным компонентам применяются правила, которые позволяют отбросить те из них, которые скорее всего не являются буквами. Все пороговые параметры для правил получены из набора данных ICDAR 2003. Авторы делают умозаключение, что дисперсия ширины штриха в пределах одной компоненты не должна быть слишком большой. Отношение высоты к ширине должно находится в пределах от 0:1 до 10, также отношение диаметра компоненты к медиане ширины штриха должно быть меньше чем 10. Это правило позволяет отфильтровать слишком длинные и узкие компоненты. Так же, отфильтровываются слишком большие или слишком малые компоненты, то есть те, которые не входят в диапазон от 10 до 300 пикселей. И, в заключение, чтобы не учитывать рамки вокруг текста, удаляются из рассмотрения те компоненты, прямоугольник описывающий которых, содержит более двух других компонент.

    Далее, прошедшие фильтрацию компоненты группируются в строки. На этом этапе компоненты дополнительно отфильтровываются. Так, например, не рассматриваются отдельные компоненты. Текст внутри одной строки должен иметь примерно одинаковые ширину штриха, расстояние между символами, размер символов. Также сравнивается средний цвет соседних символов.

    Результаты, заявленные в статье, достаточно высоки: точность 71% при полноте 60%. Так же этот алгоритм относительно быстрый, в 15 раз быстрее ближайшего аналога. Правда неизвестно, как и на каких машинах тестировалась его производительность. Еще благодаря тому, что компоненты связности уже выделены, то не требуется дополнительное извлечение текста. Из недостатков следует отметить то, что при фильтрации отбрасываются все отдельно стоящие символы и негоризонтальные строки, что сильно снижает полноту.

    В работе [13] представлен интересный метод выделения текста, в основе которого лежит бинаризация исходного изображения. Из исходного изображения получается изображение в оттенках серого (монохромное), называемое в работе , и инвертированное монохромное,. Далее, при помощи адаптивной бинаризации, вычисляются два бинаризованных изображения, и соответственно. Из этих двух выбирают одно, которое содержит текстовую информацию. Для этого оба бинаризованных изображения разбиваются на компоненты связности и эти компоненты проверяют на текстовость. То изображение, в котором больше компонент похожих на символы, считается содержащим текстовую информацию. Из него убирают компоненты не прошедшие проверку. Для фильтрации регионов используют такие признаки как размер компоненты, расстояние между соседними компонентами по горизонтали. Кроме признаков, используются проверки, такие как имеют ли компоненты схожую высоту и принадлежат ли они одной строке.

    По заявлению разработчиков им удалось выделить “почти все” текстовые области в наборе данных ICDAR 2003. Несмотря на это, недостатки данного метода видны из самого его описания. Как и все методы, на основе анализа компонент связности, данный отфильтровывает одиночные символы, кроме того, разработчиками установлены искусственные ограничения на количество символов в строке: от 3 до 100. Как и в большинстве методов, невозможно выделить рукописный текст, текст со сливающимися символами, из-за того что он будет выделятся как одна компонента и отбрасываться при фильтрации.

    1.3 Гибридные методы

    Гибридные методы представляют собой попытку объединить в себе анализ независимых компонент и анализ регионов для выделения текста. Так в работе [17] предложена система, состоящая из трех этапов.

    На первом этапе, предварительной обработки, используется анализ регионов для поиска областей, которые могут содержать текст. В качестве признака, используется гистограмма направленных градиентов, а в качестве классификатора — каскадный классификатор WaldBoost [24]. Следует отметить, что целью этого этапа является не точное выделение текста, а определение вероятности того, что в данной области может быть текстом. Для этого, для каждого фрагмента изображения, не зависимо от того принят он или отклонен, выходные значения классификатора переводятся в апостериорную вероятность, используя метод калибровки классификатора. Апостериорная вероятность установки значения , зависящего от результата работы классификатора , на стадии , может быть получена с использованием формулы Байеса:

    Все вероятности рассчитываются заранее, на этапе обучения. Таким образом, строятся карты вероятностей для каждого изображения в пирамиде, затем они проецируются на исходное изображение и получается карта вероятностей для исходного изображения. Эта карта используется для того, чтобы провести адаптивную бинаризацию по адаптированному алгоритму Ниблака. Новое значение интенсивности вычисляется по формуле:

    где и — значения математического ожидания и дисперсии для значений интенсивности внутри круга радиуса вокруг пикселя . Сглаживающий коэффициент подобран эмпирическим путем. Значение радиуса рассчитываетсяна основе значения вероятности текста из полученной карты вероятностей. Дальше следует переход к анализу независимых компонент. Для этого выделяются компоненты со значениями интенсивности 0 или 255, а те, чьи значения интенсивности равны 100 — не рассматриваются.

    Для анализа компонент используется модель условных случайных полей (CRF, conditional random field) со следующими признаками:

    · Признаки отдельных компонент:

    o Нормализованные ширина и высота;

    o Отношение ширины к высоте;

    o Отношение количества пикселей принадлежащих компоненте к количеству пикселей принадлежащих минимальному описывающему прямоугольнику;

    o Среднее значение вероятности того что пиксели внутри компоненты являются частью текста. Для этого признака используется карта вероятностей, полученная на этапе анализа регионов;

    o Компактность — отношение между площадью описывающего прямоугольника и квадратом периметра компоненты. Она позволяет отфильтровать компоненты слишком сложной формы;

    o Среднее значение градиента на границе компоненты.

    · Признаки пары компонент, вычисляемые для пар соседних независимых компонент:

    o Отношения между минимальными и максимальными шириной и высотой двух компонент. Текстовые компоненты обычно не отличаются слишком сильно друг от друга по размерам;

    o Расстояние между центрами компонент;

    o Перекрытие рассчитывается как отношение между площадью пересечения компонент с площадями самих компонент;

    o Модуль разности средних значений интенсивности компонент.

    Уже из анализа самих признаков видно, что данный подход позволяет находить строки любой формы, но отфильтровывает отдельностоящие символы. Результаты же тестирования описанной системы на наборе данных ICDAR 2003: точность 67:4%, полнота 69:7%. По скорости этот метод сильно превосходит методы, основанные на анализе регионов, но уступает методам на основе анализа компонент.

    Метод, предложенный в статье [16], использует обратный порядок. Сначала выделяются компоненты связности из бинаризованного изображения. Из них строится дерево компонент, в каждой вершине которого находится компонента связности, если одна из компонент лежит в другой, то она становится ее поддеревом. Это дерево обходится в ширину и каждая из его вершин проверяется на текстовость с использованием методов на основе анализа регионов. Для этого используется трехступенчатый каскадный классификатор. В каждом каскаде используется только один признак. В первом — размер.

    Слишком мелкие компоненты, которые невозможно распознать, даже если они являются символами, и слишком крупные компоненты, занимающие более половины изображения, отбрасываются. Стоит отметить, что система, описанная в статье, рассчитана на выделение текста в видео потоке, и ее авторы считают, что на других кадрах слишком крупный текст может быть показан с другого расстояния в более читаемом виде. Во втором каскаде — энергия границы. Для этого рассчитываются значения градиента из исходного изображения вдоль границы компоненты, а затем считается энергия полученных значений по формуле:

    — количество пикселей вдоль границы, а — значения градиента, полученные с использованием оператора Собеля. Этот признак показывает контраст между регионом и фоном. В третьем каскаде используется самый затратный по вычислительной мощности признак, названный авторами текстурностью. Для этого рассчитываются собственные числа для интенсивностей внутри, описывающий области вокруг компоненты. Их среднее значение используется в качестве признака. Высокие значения текстурности соответствуют высоким изменениям частот в пределах региона.

    Затем все отфильтрованные компоненты-символы объединяются в текст. Для этого используются только расстояния между компонентами и отношение их размеров. На этом, последнем, шаге не учитывается их положение, что позволяет выделять строки любой длины: единственное, что отфильтровывается — отдельностоящие символы. Численных результатов в работе не приводится, но не следует ожидать, что они будут очень высокими, так как даже сами разработчики указывают на то, что выделение проводится довольно грубо, чтобы увеличить количество кадров в секунду.

    2.Выбор средств разработки

    2.1 Выбор библиотеки

    При разработке сложных приложений для работы с изображениями крайне важно правильно выбрать библиотеку, которая позволяет выполнять все необходимые задачи. В настоящее время существует всего несколько альтернатив: OpenCV Официальный сайт проекта OpenCV URL:http://opencv.org/ Дата обращения: 27.04.2014 , SimpleCV Официальный сайт проекта SimpleCV URL:http://www.simplecv.org/ Дата обращения: 27.04.14 , Intel Integrated Perfomance Primitives Intel, Intel Developer Zone URL:http://software.intel.com/en-us/intel-ipp

    Дата обращения: 27.04.14 , Java Advanced Images APIOracle, Java Advanced Imaging API URL:http://www.oracle.com/technetwork/ java/javase/tech/jai-142803.html Дата обращения: 27.04.14 , Python Imaging Library Pythonware, Python Imaging Library (PIL) URL:http://www.pythonware.com/ products/pil/ Дата обращения: 27.04.14 .

    OpenCV — библиотека с открытым исходным кодом, распространяемая под лицензией BSD. В этой библиотеке реализованы функции компьютерного зрения, обработки изображений, машинного обучения и математических алгоритмов. Библиотека написана на C++, но может быть использована в проектах на языках Java, Python, Ruby, Matlab и других. Существуют реализации библиотеки для различных операционных систем, в том числе и для Android. Однако, для некоторых задач библиотека может быть слишком универсальной и включать в себя много лишнего.

    Intel Integrated Perfomance Primitives — коммерческая библиотека разработанная компанией Intel. Реализует множество математических функций, функций обработки сигналов и изображений. Библиотека очень высоко оптимизирована и использует все расширенные наборы инструкций современных процессоров, как Intel так и AMD. Работает под операционными системами Linux, Windows и Max OS. Из недостатков следует отметить высокую стоимость: 199$ за однопользовательскую лицензию.

    SimpleCV — библиотека является попыткой сделать компьютерное зрение доступным людям без специальной подготовки. Все реализованные функции максимально упрощены, чтобы не вводить пользователя в смущение. Реализована на Python и предназначена для работы с ним. Так как проект еще молодой, то его документация не слишком полная и состоит в основном из примеров использования тех или иных функций.

    Java Advanced Images API — библиотека является частью Java SE. Она содержит лишь несколько основных функций для работы с изображениями, какие-то более или менее сложные функции (поворот изображения, например) приходится писать самостоятельно.

    Python Imaging Library — библиотека распространяется в двух версиях: свободной и проприетарной. Под свободной лицензией выпускаются старые проприеритарные версии. Как видно из названия может использоваться только в проектах на языке Python. У библиотеки почти полностью отсутствует документация, в расчете на то, что люди будут покупать коммерческую поддержку. Функции реализовано мало и они рассчитаны в первую очередь на дизайнерскую обработку изображений и практически отсутствуют возможности для их анализа.

    Среди всех рассмотренных альтернатив, было решено, что наиболее подходящей, в условиях моей задачи, является библиотека OpenCV. В ней реализовано множество функций, в том числе и для машинного обучения. У нее имеется достаточно подробная документация. Библиотека распространяется под свободной лицензией, что позволяет бесплатно использовать ее, в том числе и в коммерческих приложениях. Кроме того, следует отметить разнообразие платформ и языков программирования, которые работают с данной библиотекой.

    2.2 Выбор языка программирования

    Список альтернатив определяется возможностями выбранной библиотеки. Так как библиотека написана на C++, то и ее интерфейс в первую очередь предназначен для работы с C++, но также существует полная поддержка интерфейсов для языков Java и Python. Интерфейсы для других языков реализованы частично или не стабильно, поэтому рассмотрены только уже перечисленные четыре языка.

    Главным критерием для выбора языка программирования является скорость работы и объем потребляемой памяти программами, написанными на том или ином языке, так как количество данных, которые предстоит обработать, достаточно велико.

    Для сравнения использовался сервис The Computer Language Benchmarks Game Brent Fulgham, The Computer Language Benchmarks Game URL:http://benchmarksgame. alioth.debian.org/ Дата обращения: 27.04.2014 . Данный сервис позволяет сравнивать скорость программ, количество потребляемой памяти и даже объем кода у аналогичных программ на различных языках программирования.

    Для сравнения, используются одиннадцать различных тестов, с исходными кодами можно ознакомится на веб-сайте проекта. Так же можно выбрать платформу для тестирования приложения: одноядерный или четырехядерный процессор и 32х или 64х битная система.

    Рисунок 2.1. Сравнение производительности программ на языках C++ и Java.

    Рисунок 2.2. Сравнение производительности программ на языках C++ и Python.

    Из графика 2.1 видно, программы написанные на языке С++, выполняются быстрее до трех раз, а памяти занимают более чем в тридцать раз меньше. Преимущество С++ над Python (см. рис. 2.2) еще более очевидно. Конечно в обоих случаях программы на С++ проигрывают по такому показателю как количество строк кода. Это значит что процесс разработки идет дольше.

    Из недостатков языка С++ следует отметить то, что в нем отсутствуют сборщики мусора и другие инструменты, которые делают разработку на Java и Python более удобной и безопасной, хотя при этом и замедляют выполнение программ. Но с не удобствами можно мириться, а для контроля утечек памяти существуют специальные инструменты.

    3.Разработка классификатора

    3.1 Выбор классификатора

    Существует множество различных классификаторов. В библиотеке OpenCV реализованы следующие:

    Нормальный байесовский классификатор

    Эта простая модель подразумевает, что вектора признаков из каждого класса имеют нормальное распределение, и распределены независимо. Поэтому распределение всех данных можно представить как смесь гауссианов, по одной компоненте на класс. Используя обучающее множество, алгоритм получает вектор математических ожиданий и матрицы ковариации для каждого класса, а затем использует их для предсказания.

    Достоинством метода является то, что не требуется много данных для обучения. Но требуется выполнения условия независимости переменных, хотя и при зависимых он может работать успешно.

    Алгоритмы на основе метода опорных векторов.

    Основная идея метода опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей наши классы. Оптимальным решением считается то, которое максимизирует расстояние от разделяющей гиперплоскости, до ближайших векторов признаков из обоих классов (в случае двух классов). Ближайшие к гиперплоскости вектора называются опорными векторами, это значит, что положение остальных векторов не влияет на гиперплоскость.

    Деревья принятия решений

    Это бинарные деревья, которые могут использоваться для классификации или для регрессии. При решении задач классификации, каждая листовая вершина помечается меткой класса, несколько вершин могут иметь одну метку. При решении задач регрессии в листовые вершины помещаются константы, поэтому задача регрессии сводится к выбору константы. А во всех остальных вершинах находятся пороговые значения, полученные в результате обучения классификатора, и номер переменной в векторе признаков, значение которой должно проверяться в этой вершине. Начиная из корня, и до достижения листовой вершины, классификатор выбирает левое поддерево, если значение признака меньше порога, или правое, если значение больше порога.

    Бустинг это мощный подход к машинному обучению, который позволяет объединять несколько слабых классификаторов в один мощный. Даже если каждый из составляющих классификаторов работает чуть лучше чем генератор случайных чисел, то результирующий может быть сравним по точности работы с методом опорных векторов или с нейронными сетями.

    Самым популярным слабым классификатором, использующимся в бустинге, является дерево принятия решений. Можно использовать даже деревья, в которых есть только одна не листовая вершина, так называемые пеньки. Реализация бустинга в библиотеке OpenCV не позволяет выполнять многоклассовую классификацию, но этого и не требуется в моей работе.

    Градиентные усиленные деревья

    Эта модель представляет собой набор деревьев принятия решений. Каждое следующее дерево уточняет результат предыдущего и уменьшает общую ошибку. Она позволяет решать задачи классификации, в том числе и многоклассовой, и регрессионного анализа.

    Алгоритм позволяет решать задачи классификации и регрессионного анализа. Случайные деревья — это сборка деревьев принятия решений, в терминологии авторов метода лес. Классификация работает следующим образом: классификатору на вход приходит вектор признаков, он классифицируется всеми деревьями, а результат выбирается путем голосования.

    Все деревья обучаются на одних и тех же признаках, но на разных наборах данных. Эти наборы генерируются из исходного случайным образом, так чтобы в каждом из полученных наборов было одинаковое количество векторов. В каждом узле обучаемого дерева переменные, по которым будет происходить разделение выбираются из некоторого их подмножества, определяемого для каждого узла случайным образом.

    В библиотеке OpenCV есть реализация такой разновидности нейронных сетей, как многослойные перцептроны. Они состоят из входного, выходного и одного или нескольких промежуточных слоев. Каждый слой включает в себя один или несколько нейронов, напрямую связанных с нейронами из предыдущего и следующего слоя. Все нейроны внутри перцептрона одинаковы. Каждый из них имеет несколько входных связей, принимающих выходные значения с нейронов предыдущего слоя, и выходных связей, передающих результат на следующий слой. Все входные значения умножаются на определенные весовые коэффициенты, индивидуальные для каждого нейрона, и суммируются. Сумма преобразуется при помощи активирующей функции, которая тоже может отличаться для разных нейронов, но определяется программистом. Обучение сводится к определению весовых коэффициентов.

    Алгоритмы бустинга, такие как дискретный AdaBoost, вещественный AdaBoost, LogitBoost, Gentle AdaBoost, используются в задачах распознавания образов, потому что они слабо подвержены переобучению, по сравнению с другими алгоритмами машинного обучения. Кроме того использование бустинга позволяет легко использовать вектора признаков большой размерности.

    Все алгоритмы бустинга близки по своей структуре, поэтому в дальнейшем будет рассмотрен вещественный AdaBoost, который, согласно результатам, приведенным в статье [11] является лучшим из всех алгоритмов бустинга для двуклассовой классификации.

    3.2 Вещественный AdaBoost

    Классификатор вещественный AdaBoost [21] является обобщением дискретного AdaBoost [20]. Рассмотрим оба классификатора.

    Пусть мы имеем обучающее множество , где — вектор признаков,а — метка класса. Тогда классификатор:

    где — слабый классификатор, возвращающий значения из множества -1,1, а — константы. Результат работы классификатора определяется как знак функции :

    Процедура AdaBoost обучает слабые классификаторы на взвешенном обучающем множестве, увеличивая веса тех элементов, которые были неверно классифицированы. Это делается для последовательности взвешенных значений, а затем итоговый классификатор представляется как линейная комбинация классификаторов, полученных на каждом из шагов. Ниже представлен подробный алгоритм Descrite AdaBoost:

    1. Задаются начальные веса

    a. Обучить классификатор используя взвешенной обучающее множество.

    b. Подсчитать ошибку классификации

    — представляет собой математическое ожидание, вычисленное для взвешенного обучающего множества, а — идентификатор множества

    c. Обновить веса

    и нормализовать их, так чтобы

    На каждой итерации увеличиваются веса неверно классифицированных векторов на значение, определяемое взвешенной ошибкой классификации.

    Л. Брейман в работе [3] продемонстрировал, что использование классификаторов основанных на деревьях в качестве слабых дает хорошие результаты. Кроме того в различных тестах было показано, что с увеличением количества классификаторов увеличивается точность работы алгоритма на тестовых множествах, что демонстрирует устойчивость AdaBoost к переобучению. Более того, бустинг работает сравнительно хорошо, даже когда в качестве классификаторов используются пеньки — деревья только с одной корневой вершиной и двумя терминальными.

    Обобщением дискретного AdaBoost стал вещественный AdaBoost, использующий предикторы возвращающие значение вероятности принадлежности к классу. Множество значений слабого классификатора находится уже в области вещественных чисел. Знак определяет класс, а вероятность. Ниже представлен алгоритм вещественного AdaBoost:

    1. Задаются начальные веса

    a. Обучается классификатор, возвращающий вероятность принадлежности к классу, используя обучающее множества с весами :

    b. Обновить веса

    и нормализовать их, так чтобы

    Для уменьшения времени вычислений для подобных моделей без существенной потери в точности используется техника обрезания. По ходу выполнения алгоритма и роста количества деревьев большое количество примеров из обучающего множества начинают классифицироваться корректно все с возрастающей вероятностью. Следовательно, вес таких примеров уменьшается.

    Примеры с малым весом дают соответственно малый вклад в обучение слабых классификаторов. Поэтому такие примеры могут быть удалены при обучении, без большого вреда для результатов обучения слабого классификатора. Для этого может быть задано пороговое значение для обрезания обучающего множества. Надо заметить, что эта процедура повторяется индивидуально для каждого слабого классификатора, и обрезанные на одной стадии примеры могут быть использованы при обучении на следующих стадиях.

    3.3 Деревья решений

    В реализации алгоритмов бустинга в библиотеке OpenCV в качестве слабых классификаторов используются деревья принятия решений.

    Дерево принятия решений — это бинарное дерево (дерево, у которого каждая не листовая вершина имеет две дочерних). Оно может быть использовано, как для задач классификации, так и для регрессии.

    Классификация с использованием деревьев осуществляется следующим образом. Процедура предсказания начинается с корневой вершины. Из каждой нелистовой вершины процедура предсказания идет налево или направо, в зависимости от значения определенной переменной из вектора признаков, чей индекс хранится в текущем узле. Для этого значение переменной сравнивается с пороговым значением хранящимся в узле. Если значение меньше порога, то процедура идет налево, иначе — направо.

    В каждом узле используется пара индекс переменной, порог. Эта пара называется разбиением. Когда достигается листовой узел, значение хранящееся в нем используется как результат работы классификатора.

    Деревья строятся рекурсивно, начиная с корневого узла. Все обучающее множество используется для разбиения корня. В каждом узле лучшее разбиение выбирается при помощи какого-то критерия. В машинном обучении для классификации используется критерий чистоты Джини, который показывает как часто случайно выбранный элемент из множества будет неверно классифицирован, если он будет классифицирован случайным образом в соответствии с распределением меток в подмножестве. Он может быть рассчитан как произведение суммы вероятностей каждого элемента быть выбранным на вероятность неверной классификации этого элемента.

    А для задач регрессии, численного предсказания, используется в качестве критерия сумма квадратов ошибок.

    Все данные разделяются в соответствии с выбранным разбиением на два подмножества, которые используются для обучения левого и правого поддеревьев. На каждом шаге рекурсивная процедура может остановится в одном из следующих случаев:

    · Достигнута максимальная глубина дерева.

    · Мощность обучающего множества в узле меньше заданного порога, и не является представительной.

    · Все примеры в узле принадлежат одному множеству или, в случае регрессии, вариация между ними мала.

    · Лучшее выбранное разделение не дает заметного выигрыша в сравнении со случайным выбором.

    3.4 Признаки для классификации

    Из рассмотренных ранее работ мной были отобраны следующие:

    Среднеквадратичное отклонение интенсивности. Текст, как правило, выделяется на фоне. Если значения интенсивности варьируется очень слабо в пределах фрагмента изображения, то скорее всего этот фрагмент не содержит текста.

    Среднеквадратичное отклонение градиента показывает разброс значений градиента в пределах фрагмента. Как и предыдущий признак может отфильтровывать сплошные области, но требует дополнительного расчета значений градиента.

    Энтропия вычисляемая для значений интенсивности так же используется в качестве признака. Величина рассчитывается по формуле:

    Статистики производной по X. Этот признак использует наблюдения описанные в статье [6], заключающиеся в разных значениях производной в разных областях фрагмента изображения, содержащего текст (см. рис. 1.3).

    Сначала рассчитываются производные по Х, с использованием оператора Собеля. Затем для каждой области, представленной на рисунке 3.1(a), рассчитываются значения математического ожидания и среднеквадратичного отклонения значений производной в этой области. В итоге получается шесть значений.

    Рисунок 3.1. Шаблоны областей для расчета статистик производных: (a) — производной по X; (b) — производной по Y.

    Статистики производной по Y. Эти статистики рассчитываются идентично предыдущим, только используются области представленные на рисунке 3.1(b). Получается десять значений.

    Гистограмма значений градиента. В той же работе было описано использование в качестве признаков значений гистограмм градиента. Перед вычислением значения признаков исходный фрагмент изображения всегда масштабируется до размера 20 на 20 пикселей, в результате чего отпадает необходимость в нормировании значений гистограммы. Значения разбиваются на двадцать равных интервалов, в результате чего этот признак дает нам двадцать значений.

    Гистограмма значений интенсивности. Таким же образом рассчитывается гистограмма значений интенсивности. Значения разбиваются также на двадцать интервалов.

    Гистограмма интенсивности-градиента. Это гистограмма построенная по двум значениям. Все величины входящие в один интервал гистограммы интенсивности разбиваются на интервалы по значению градиента. Разбиение в обоих случаях происходит по двадцати интервалам. В общей сложности в результате получается четыреста значений.

    Гистограмма ширин штриха. Идея, лежащая в его основе, состоит в том, что в текстовых областях ширины штрихов распределены не так как в нетекстовых. Для вычислений используется реализация преобразования ширины штриха представленная в работе [9]. Перед вычислением, изображение сжимается до размера 20 на 20 пикселей, для увеличения скорости работы, потому что преобразование является затратной по времени операцией. Все значения распределяются, как и в других признаках, использующих гистограммы, на двадцать интервалов.

    Вес текста. Этот признак заимствован из работы [19]. Он представляет собой отношение количества текстовых пикселей к общему количеству пикселей фрагмента изображения. Разделение пикселей происходит на основе построения, так называемой EM-модели.

    EM-модель — это смесь двух гауссианов, представляющая распределение значений интенсивности на фрагменте изображения. В модели решено использовать два гауссиана, исходя из свойства самой задачи: должен отслеживаться контраст между передним планом (символами) и задним планом (фоном), допускающий читабельность текста. Для получения значений гауссовых распределений используется EM-алгоритм. Если брать для обучения значения интенсивности со всего фрагмента изображения, тогда преобладающий фон (его, как правило, гораздо больше текста) будет сильно влиять на результаты обучения. Поэтому выбираются значения только из областей перехода. Для этого сначала рассчитывается градиент фрагмента, затем он бинаризуется. Пороговое значение вычисляется как , где и — максимальное и минимальное значения градиента соответственно. Получается, таким образом, маска областей перехода.

    Значение самого признака вычисляется по формуле:

    где — количество пикселей принадлежащих одной или второй гауссовой составляющей EM-модели, из них выбирается меньшее значение, исходя из предположения, что текста меньше чем фона; — общее количество пикселей фрагмента изображения.

    Разделенность гауссианов. Этот признак как и предыдущий основан на EM-модели. Он показывает на сколько разделены математические ожидания гауссианов. Если они практически сливаются друг с другом, то и текст с фоном не различимы. Вычисляется по формуле:

    — математическое ожидание гауссиана, 255 — максимальная разница интенсивностей в восьмибитном изображении.

    Из-за того, что построение EM-модели весьма затратно по времени, и даже сжатие изображения не сильно ускоряет процесс, то последние два признака вычисляются вместе и выступают как один признак с двумя значениями. Представленные выше признаки были протестированы на коллекции изображений ICDAR 2011. Для каждого из признаков обучался классификатор и затем проверялся на всех изображениях тестового набора. Далее, полученные результаты для каждого из признаков были сравнены с результатами, полученными случайной маркировкой фрагментов без использования классификатора. Так получилось, что четыре признака из десяти показали результаты не лучше чем генератор случайных чисел. Поэтому в дальнейшем было решено использовать только:

    · среднеквадратичное отклонение градиента;

    · статистики по обеим производным;

    · гистограмма ширин штриха;

    · признаки, основанные на EM-модели.

    При разделении признаков по каскадам будем отталкиваться от скорости работы признаков. Самым быстрым из отобранных является гистограмма значений градиента, поэтому она будет использовать на первом этапе. На втором этапе — гистограмма ширин штриха и среднеквадратичное отклонение градиента. Статистики по производным и признаки на основе EM-модели будут использоваться на последнем третьем этапе. Таким образом, получается каскад из трех классификаторов.

    3.5 Каскадный классификатор Виолы и Джонса

    В работе [28] П. Виола и М. Джонс представили интересный подход к построению классификаторов, который они использовали для поиска лиц на изображении. Их идея заключается в построении каскада из нескольких классификаторов, на каждом шаге которого будут постепенно отбрасываться отдельные фрагменты.

    Давно известно, что чем сложнее функция классификации, тем она точнее, но тем меньше ее способность к обобщению. Если главный фактор — это уменьшение ошибки, то минимизация структурных рисков предоставляет формальный метод для выбора классификатора с правильным балансом сложности и порождаемой ошибки.

    Другое важное ограничение — сложность вычислений. Так как время вычислений и ошибка — совершенно разные вещи, то теоретически невозможно выбрать оптимальный баланс. Тем не менее для многих функций классификации время вычислений напрямую зависит от структурной сложности. В таких случаях сокращение временных затрат напрямую зависит от уменьшения сложности.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *