Моложенко Е.С., научный рук.: к.ф-м.н., профессор Куликов В.П.

Северо-Казахстанский государственный университет имени Манаша Козыбаева, г. Петропавловск, Республика Казахстан

10 причин использовать R

 

Для некоторых людей R - это всего лишь 18 буква латинского алфавита. Для других - обозначение электрического сопротивления или буква, отображающая возрастные ограничения для просмотра некоторых фильмов. Но также R - это и название популярного языка программирования, используемого растущим числом аналитиков, инженеров, статистиков, сотрудников различных компаний и ученых самых престижных учебных заведений мира [1].

R - язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом. R имеет огромный набор математических и статистических функций, а также дополнительные возможности, которые предоставляются в подключаемых пакетах. Он был разработан сотрудниками статистического факультета Оклендского университета Россом Айхэкой и Робертом Джентлменом.

Возможности R в корне изменили природу исследовательского программного обеспечения. R стал мощным и незаменимым инструментом  анализа  и визуализации данных для аналитиков, инженеров, статистиков ученых различных областей знаний и сотрудников крупнейших компаний. R становится их языком общения отчасти и потому что анализ данных вступил в золотой век, и открывает широкие перспективы для развития любой отрасли жизни. Такие компании как Google, Pfizer, Merck, Bank of America, the InterContinental Hotels Group и Shell используют R в своей работе.  В чем же кроются причины успеха этого некоммерческого проекта? Их несколько и они в совокупности позволили стать R тем, чем он является на данный момент.

1.            R можно использовать, имея только начальные представления о нем.

Технически R является языком выражений с очень простым синтаксисом. Именно поэтому R легко привлекает к себе новых пользователей среди статистиков, инженеров,  ученых и сотрудников крупных компаний тем, что его можно быстро освоить, имея начальные навыки программирования.

2.            Гибкий набор инструментов для статистического анализа.

В R реализованы многие классические и современные статистические методы. Есть около 25 пакетов, поставляемых с R (так называемые «стандартный» и «рекомендованный» наборы пакетов), гораздо больше можно получить через CRAN и из других источников.

3.            Графика и визуализация данных.

Графические средства являются важной и очень гибкой частью среды R. Можно использовать эти возможности для широкого спектра предопределенных статистических графиков, а также для того, чтобы создавать совершенно новые виды графиков.

4.            Пользовательская настройка окружения.

В отличие от коммерческих сред предоставляющих предопределенные настройки рабочего окружения, R позволяет пользователю настраивать свое рабочее пространство несколькими способами. Существует системный файл настроек запуска, каждый каталог также может иметь свои собственные специальные файлы инициализации. Наконец могут быть использованы специальные функции .First() и .Last() [2].

5.            R имеет неимоверную гибкость и свободный код.

Гибкость позволяет создавать приложения (пакеты) практически на любой случай жизни. Свободный код – это не просто бесплатность программы, но и возможность разобраться, как именно происходит анализ, а если в коде встретилась ошибка – самостоятельно исправить ее и сделать исправление доступным для всех.

6.            Интеграция R и современных СУБД.

К R написаны интерфейсы ко многим системам управления базами данных. В октябре 2011 года корпорация Oracle выпустила аппаратно-программный комплекс Big Data Appliance - NoSQL-кластер серверов массово-параллельной обработки, с интегрированным программными средствами на основе языка R и Apache Hadoop, а в феврале 2012 года язык встроен в Oracle Database. Также массово-параллельный анализ средствами R поддержан в аппаратно-программных комплексах Netezza корпорации IBM.

7.            R работает на всех доступных платформах, включая Windows, GNU/Linux, Mac OS.

Каждая операционная система имеет свои особенности при работе с R. Но в целом можно сказать, что под все три вышеупомянутые операционные системы существует так называемый «терминальный» способ запуска, а под Mac и Windows имеется свой графический интерфейс с некоторыми дополнительными возможностями.

8.            Качественный состав основной группы разработчиков, а так же поддержка крупнейших компаний лидеров различных направлений бизнеса.

Специалисты Google, Facebook, Boeing, Bank of America и других крупных компаний успешно применяют R в своей работе.

«Значение R трудно переоценить» - говорит Daryl Pregibon, исследователь, работающий в компании Google, который постоянно применяет R в своей работе, - «Он позволяет статистикам проводить очень сложные виды анализа без глубокого знания вычислительных систем».

9.            Большое количество литературы на разных языках

На настоящий момент издано более 100 книг про R для различных областей применения от применения R для статистических исследований,  до методов применения в фармакологии и экологии.

10.       R бесплатен.

 

Литература:

1.            Ashlee Vance. Data Analysts Captivated by R’s Power. The New York Times, 6.01.2009.;

2.            А.Б. Шипунов, E.М. Балдин, П.А. Волкова, А.И. Коробейников, С. А. Назарова, С.В. Петров, В.Г. Суфиянов. Наглядная статистика. Используем R! - М.: ДМК Пресс, 2012. - 298с.