ТЕХНОЛОГИЯ СОЗДАНИЯ И ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ

ОПРЕДЕЛЕНИЯ, КЛАССИФИКАЦИЯ ПРОГРАММ ДЛЯ СОЗДАНИЯ И РЕДАКТИРОВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ, ФОРМАТЫ ТЕКСТОВЫХ ФАЙЛОВ

Под текстовой информацией традиционно понимают информацию, представленную с помощью соответствующих символов — букв, цифр, знаков препинания, знаков, отражающих математические операции, специальных знаков и т.д. Основным носителем текстовой информации, т.е. материальным средством, на котором фиксируется или регистрируется текстовая информация, является документ. Современное понятие документа не является однозначным и зависит от сферы деятельности человека — экономики, материального производства, систем управления, науки, образования, культуры и т.д.

Например, в области экономики под документом понимают материальный носитель, на котором различными способами осуществляется фиксация или регистрация информации экономического характера. Современный документ кроме текстовой информации может содержать таблицы, диаграммы, графики, рисунки, фотографии и т.д.

и, следовательно, может содержать и графическую информацию. С развитием информационных технологий появилось понятие электронного документа — как упорядоченной совокупности данных, хранимых в электронном (кодированном) виде на соответствующем носителе — в оперативной памяти компьютера, компьютерной дискете, накопителе на жестком магнитном диске, компакт-диске, флэш-памяти (Flash USB drive) и т.д. Электронный документ также может включать текстовую, графическую, служебную информацию и иметь сложную организационную структуру. Преобразование электронного документа в документ традиционного вида происходит при его печати на бумажном носителе.

Программы для создания и обработки текстовой информации можно условно разделить на программы общего и специализированного назначения. Условность обусловлена гем, что новые версии таких программ постоянно расширяют свои функциональные возможности и приводят к размыванию границ ранее принятой классификации. Таким образом, в настоящее время классификация программ для создания и обработки текстовой информации не является устоявшейся.

Программы общего назначения ориентированы на широкий круг пользователей и включают, как правило, текстовые редакторы и текстовые процессоры общего назначения.

К текстовым редакторам относят программы, предназначенные для создания, редактирования, форматирования, сохранения и печати документов. При этом под редактированием понимается преобразование документа, обеспечивающее удаление или добавление, исправление или перемещение содержания документа, а под форматированием — преобразование документа, изменяющее его форму представления. К текстовым редакторам можно отнести следующие компьютерные программы: Notepad, WordPad, Lexicon ит.д.

К текстовым процессорам относят программы, имеющие более широкий спектр возможностей в плане создания документов (использование шаблонов, выбор стилей форматирования, поиск и замена символов, средства проверки орфографии, работа с таблицами, графиками и др.) по сравнению с текстовыми редакторами. В России наибольшей популярностью в настоящее время среди текстовых процессоров пользуется Microsoft Office Word (MS Word), который входит в интегрированный пакет программ Microsoft Office. Корпорация Microsoft (США) за последнее десятилетие выпустила несколько пакетов программ Microsoft Office и соответственно текстовых процессоров MS Word различных версий: MS Office Word 97—2003, MS Office Word 2007, MS Office Word 2010.

Программы специального назначения ориентированы на достаточно узкий круг специалистов и могут включать текстовые редакторы, текстовые процессоры и издательские системы. К текстовым редакторам специального назначения можно отнести текстовые редакторы систем программирования (инструментальные системы), использующие языки программирования Pascal, C++, Delphi, Visual Basic и т.д., к специализированным текстовым процессорам — процессоры, ориентированные на определенную область деятельности, например математики, где для подготовки научных статей широко используется текстовый процессор Latex 2е.

К издательским системам (DTP, DeskTop Publishing) относят программные комплексы, которые автоматизируют процесс верстки полиграфических изданий в различных издательствах с целью подготовки любых документов к публикации. Издательские системы отличаются расширенными средствами управления взаимодействия текста с параметрами страницы и графическими объектами, но имеют более слабые возможности по автоматизации ввода и редактированию текста. Примером таких издательских систем являются программы Xerox Ventura Publisher, Adobe Page Maker, QuarkXPress, InDesign и np.

Документы, созданные с помощью вышеперечисленных компьютерных программ, сохраняются во внутренней или внешней памяти компьютера в виде текстовых файлов. При этом под текстовым файлом будем понимать документ, которому присвоено имя (идентификатор) по определенному правилу. Способ хранения текстовой информации в файле определяет формат файла. В литературе, связанной с информационными технологиями, формат файла называют также расширением файла. В настоящее время существует достаточно много форматов текстовых файлов, которые можно разделить на универсальные и оригинальные форматы. Первые могут быть прочитаны (однозначно интерпретированы) большинством программ, вторые — только специальными программами. Для преобразования текстового файла из одного формата в другой в состав современных текстовых процессоров входят специальные программы-конверторы. Такая программа входит и в состав текстового процессора MS Word. Выбор требуемого формата текстового документа или его преобразование производится в процессе сохранения или открытия в текстовом процессоре MS Word. Например, для сохранения нового документа в MS Word 2003 необходимо выполнить команду: [Файл — Сохранить как ...] и с помощью появившегося диалогового окна «Сохранение документа» выбрать папку для сохранения документа, в списке «Имя файла:» присвоить документу имя и в раскрывающемся списке «Тип файла» выбрать необходимый формат файла. Для текстового процессора MS Word 2003 диалоговое окно «Сохранение документа» показано на рис. 3.1.

Рассмотрим некоторые форматы текстовых файлов из раскрывшегося списка «Тип файла», часто используемые при создании документа.

Документ Word (*.doc) — формат файла .doc, оригинальный формат используемой версии MS Word 2003, полностью сохраняет форматирование, может использовать 16-битную кодировку символов (шрифты Unicode).

Web-страница (*.htm; *.html) — форматы файлов .htm и .html форматы хранения Web-страниц в сети Интернет. Содержат управляющие коды (теги) языка разметки гипертекста.

Шаблон документа (*.dot) — формат файла .dot, оригинальный формат используемой версии MS Word 2003 для хранения шаблона документа. Шаблон можно рассматривать как стандартный бланк, подготовленный для заполнения. Этот бланк содержит параметры настройки меню и инструментальных панелей, элементы автотекста, макрокоманды и т.д. В документе, создаваемом на основе конкретного шаблона, по умолчанию используются элементы оформления и значения параметров из соответствующего шаблона. В текстовом процессоре MS Word 2003 имеется большой набор шаблонов для создания разнообразных документов от обычных деловых бумаг до коммюнике (заявлений). Если после запуска программы MS Word пользователь

начнет набирать текст в «пустом» окне документа, то документ будет базироваться на шаблоне Normal.dot, который визуально представляет собой чистый лист бумаги формата А4 (210 х297 мм) и содержит все стандартные стили форматирования и панели инструментов. Шаблон Normal.dot активен по умолчанию, т.е. если пользователь не предпринимает действий по установке оригинального шаблона, то текстовый процессор MS Word 2003 загружает шаблон Normal.dot автоматически.

ее

Мн и.mH

і Ы 8ct?*.a Сдсвис іаСлчіа їссглт*

IJjjj o jAM

и____

iJLL__' Л

*У'

[Z] > і • I • і * I • і • л • і • 1 ” • • 2 • • • I • • • 4 • l • f • • *4* і • ? • • • • 4 • • • ? • • • II • • • 12 • • • l> • • • 14 • і • It • • • It • і • ф • '

I lhhoiwi «uni і|мішсі.ws исиильіусмьіс диидаїичпи mi? ими имдамии дилумсша.

і « 14 n v Т mi Ne%v Roman _• 14

Ж Ж а x*

Документ Word (*.doc) - формат файла doc, оригинальный формат

ІІСҐ

ІІСП

Соиранеимв до^імені а

[а пособ по ин*вн*т»*д 2

v a «д х Qga* с»*•

хр

яз Ы

ПСІ

мо

Этс

эле

KOI

l.doc

I Bla doc

іпоспедте -djcnoeap» «*ссмет ТфмотОвбХ

jDoacMdoc ЮввЫи jHDTv.doc j OIE doc • 7 doc

і Асю doc ]W**k*v* Vela doc THiWdoc j Aoc

l»PBPH»0

J Век рвэрабог«» и rpcrpOMMOfo doc

) Дкло— и npt юкт aiKwni f раФ>* a doc J Импорт дат« и/и no*» до«*’** к »ми doc ] Иисгру-ісигдси« технологии прстрм-мроваиия бос )Ии*оомги*4І чібос )Иирорм#п«а1 м2д doc |Ин»орицр.о 2 ч 2 doc ] Ипфармвт»»* 3 ч 2 doc ] Ин»оомат»«а S N 2 doc ) ПаБОРАТО^НЫЙ ПРАМИГ.УМ 1 бос

»файла: 1*«РорнАТиСА З ч 2.60С

aor умен» ы

Рдб*+*і<го*

документы

ЯУ Обзор ант>«ир*лое 4эс )0С**и даммьаии doc )Оэор антиемрмоо doc ІООП doc

речень осиом« craaeonta протре» ОС W doc )Прі«лмнне fWpaTV 1 dx

) Прж ладим програм** doc

)Прогр»а*Tpwapwa 'р«Фииdoc ІПУП doc JPASAArtl doc jPv< n 7 doc )CwM no раздел 2.doc Й]Ядро сшрааоной остамыбос

1 g»p—»

докуиеит wofd р dot)_

таотиа в синей ііммлг (* тЫ; лжНяі)

F

Оті

анис, может

гп1 форматы коды (теш)

шп формат та Шаблон заполнения ых панелей. л на основе ормленпя II

ІСТ0ОнидА(#.Літ; •.NM) | &<тр*#4іАСфнгьтрсмГ.Г№, •ho*)

значения парам

^тагст(-.М)

V

і

О

«

? ОІВІ ъ СІЗ <

з.

Стр. 4

Род I

Не 13*и Ст 14 Коп 26

русской ро -j

7 пуск

п

? П * с е

nocod по т#о

iVtpcрнапга З ч 2.... ? **«$0р*4ТИС4 1 ч 2.

ви R Ч ь О 2Ы»

Рис. 3.1. Диалоговое окно «Сохранение документа» MS Word 2003

Текст в формате RTF (Rich Text Format) (*.rtf) — универсальный формат, который сохраняет все форматирование. Осуществляет преобразование управляющих кодов в команды, которые могут быть прочитаны и интерпретированы многими текстовыми процессорами.

Обычный текст (Text Only) (*.txt) — универсальный формат. Сохраняет текст без форматирования, в текст вставляются только управляющие символы конца абзацев.

Документ Word (*.doc) — формат файла .doc, используемой версии MS Word 2003 и предыдущих версий, имеет ряд недостатков. Поскольку он является оригинальным (закрытым) форматом, то его нельзя использовать для переноса документов, созданных на его основе, на другие компьютерные программы, не принадлежащие линейке программ Microsoft Office. Это обстоятельство особенно важно в наши дни, когда подключение компьютеров к сетям распространено как никогда раньше и все больше файлов передается с одного компьютера на другой. В таких условиях требуются дополнительные усилия для того, чтобы файлы занимали меньше места, были устойчивы к повреждениям и совместимы с различными платформами. Данные недостатки отчасти привели к появлению нового открытого формата: Документ Word — формат файла *.docx, который используется текстовыми процессорами MS Office Word, начиная с версии 2007. Буква «х» в конце расширения «doc» подчеркивает тот факт, что данный формат основан на открытом формате Open XML (Extensible Markup Language — формат расширенного языка разметки гипертекста Web-страниц Интернета, позволяющий описывать структурированные данные). Новый формат, основанный на XML, обеспечивает такой способ сохранения файлов MS Office Word 2007, при котором они невелики по размеру, менее уязвимы и хорошо интегрированы с информационными системами и внешними источниками данных. Новый формат является сжатым, сегментированным файловым форматом. Он позволяет резко уменьшить размеры файлов и легко восстанавливать их в случае повреждения. Формат «docx» использует сжатие информации по алгоритму ZIP для уменьшения информационного объема файла (по сравнению с форматом «doc» на 75%, т.е. в среднем в четыре раза).

Для открытия файлов формата *.docx в MS Office Word 97—2003 необходимо установить пакет совместимости Microsoft Office Compatibility Pack (FileFormatConverters.exe) с официального сайта корпорации Microsoft. В MS Office Word 2007 и MS Office Word 2010 при открытии файлов формата *.doc автоматически включается режим совместимости, и файлы открываются в режиме ограниченной функциональности. Включение режима совместимости гарантирует, что при работе с документом не будут использоваться новые и расширенные возможности MS Office Word 2007 и пользователи более ранних версий MS Office Word смогут редактировать любую часть этого документа. Таким образом, корпорация Microsoft сохранила совместимость программного обеспечения по принципу «сверху-вниз» для MS Office Word.

Для сохранения нового документа в MS Word 2007 необходимо выполнить команду: [Кнопка «Office» — Сохранить как] и с помощью появившегося диалогового окна «Сохранение документа» выбрать папку для сохранения документа, в списке «Имя файла:» присвоить документу имя и в раскрывающемся списке «Тип файла:» выбрать необходимый формат файла. Для текстового процессора MS Word 2007 диалоговое окно «Сохранение документа» показано на рис. 3.2. Как видно из рис. 3.2, некоторые форматы текстовых файлов из рас-

Диалоговое окно «Сохранение документа» MS Word 2007

Рис. 3.2. Диалоговое окно «Сохранение документа» MS Word 2007

крывшегося списка «Тип файла:», совпадают с форматами файлов, представленных на рис. 3.1.

 
< Пред   СОДЕРЖАНИЕ     След >