Простой Python. современный стиль программирования - читать онлайн бесплатно полную версию книги . Страница 166

>>> bdata = fin.read()

>>> len(bdata)

1

>>> bdata[0]

255

Эти функции наиболее полезны при работе с бинарными файлами. Вы можете

использовать их и для работы с текстовыми файлами, но если файл содержит в себе

не только символы формата ASCII (занимающие по одному байту в памяти), вам

будет трудно определить смещение. Оно будет зависеть от кодировки текста, самая

популярная кодировка (UTF-8) использует разное количество байтов для разных

символов.

Структурированные

текстовые файлы

Для простых текстовых файлов единственным уровнем организации является

строка. Но иногда вам может понадобиться более структурированный файл.

Вы можете захотеть сохранить данные своей программы для дальнейшего исполь-

зования или отправить их другой программе.

Существует множество форматов, которые можно различить по следующим

особенностям.

 Разделитель, символ вроде табуляции ('\t'), запятой (',') или вертикальной

черточки ('|'). Это пример формата со значениями, разделенными запятой,

(CSV).

 Символы '<' и '>', окружающие теги. Примеры включают в себя XML и HTML.

 Знаки препинания. Примером является JavaScript Object Notation (JSON).

Структурированные текстовые файлы

219

 Выделение пробелами. Примером является YAML (что в зависимости от ис-

точника может означать YAML Ain’t Markup Language —«Не язык разметки»,

вам придется исследовать его самостоятельно).

 Прочие файлы, например конфигурационные.

Каждый из этих форматов структурированных файлов может быть считан и за-

писан с помощью как минимум одного модуля Python.

CSV

Файлы с разделителями часто используются в качестве формата обмена данными

для электронных таблиц и баз данных. Вы можете считать файл CSV вручную, по

одной строке за раз, разделяя каждую строку на поля, расставляя запятые и до-

бавляя результат в структуру данных вроде списка или словаря. Но лучшим реше-

нием будет использовать стандартный модуль csv, поскольку парсинг этих файлов

может оказаться сложнее, чем вы думаете.

 Некоторые файлы имеют альтернативные разделители вместо запятой: самыми

популярными являются '|' и '\t'.

 Некоторые файлы имеют управляющие последовательности. Если символ-раз-

делитель встречается внутри поля, все поле может быть окружено символами

кавычек или же перед ним будет находиться управляющая последовательность.

 Файлы имеют разные символы конца строк. В Unix используется '\n', в Micro-

soft — '\r \n', а Apple раньше применяла символ '\r', но теперь перешла на

использование '\n'.

 В первой строке могут содержаться названия колонок.

Для начала взглянем, как читать и записывать список строк, каждая из которых

содержит список колонок: