|bear | 800| 2|
|elk | 100| 1|
|marmoset| 250| 1|
+--------+--------+------------+
2014-03-11 19:46:36,807 INFO called pretty_print(records)
Обработка бизнес-данных
401
Если вы прочитали документацию, то можете избежать вывода на экран строк
с отладочной информацией и, возможно, изменить формат таблицы.
Сравнивая два примера, можно заметить, что пример с bubbles использовал один
вызов функции (aggregate), чтобы заменить чтение и подсчет данных в формате
CSV вручную. В зависимости от того, что вам нужно, инструментальные средства
работы с данными могут сберечь вам много времени.
В более реалистичном примере наш файл может содержать тысячи строк (он
становится опасным), в которых можно встретить опечатки вроде bare, запятые
в числах и т. д. Чтобы найти хорошие примеры практических задач, связанных
с данными, и их решений на Python и Java, обратитесь к книге Грега Уилсона (Greg
Wilson) Data Crunching: Solve Everyday Problems Using Java, Python, and More (из-
дательство Pragmatic Bookshelf).
Инструменты очистки данных могут сэкономить кучу времени, и Python имеет
множество таких инструментов. Например, PETL (http://petl.readthedocs.org/) по-
зволяет выполнять извлечение и переименование рядов и колонок. В приложении В
рассматриваются особенно полезные инструменты для работы с данными: Pandas,
NumPy и IPython. В дополнение к их широкой известности в научной среде они
стали популярными инструментами среди разработчиков, работающих с финанса-
ми и данными. На конференции PyData в 2012 году компания AppData (http://
bit.ly/py-big-data) рассматривала, как эти три и другие инструменты Python помога-
ют обработать 15 Тбайт данных ежедневно. Это не опечатка — Python может об-
рабатывать очень большие объемы реальных данных.
Дополнительные источники
информации
Иногда вам нужны данные, которые появляются где-то в другом месте. Рассмот-
рим некоторые источники данных из области бизнеса и правительственной инфор-
мации.
data.gov (https://www.data.gov/). Открывает доступ к тысячам наборов данных
и инструментов. Его API созданы на основе CKAN, системы управления дан-
ными Python.
Opening government with Python (http://sunlightfoundation.com/). Посмотрите
видеоролики (http://bit.ly/opengov-py) и слайды (http://goo.gl/8Yh3s).
python-sunlight (http://bit.ly/py-sun). Библиотеки, позволяющие получить доступ
к Sunlight API (http://sunlightfoundation.com/api/).
Froide (http://stefanw.github.io/froide/). Платформа, основанная на django, для
управления свободой информационных запросов.
30 places to find open data on the Web (http://blog.visual.ly/data-sources/). Различные
полезные ссылки.
402
Приложение Б. За работой
Python в области финансов
С недавнего времени в финансовой индустрии развился значительный интерес