PUBLICIDADE

Poder da linguagem R fascina analistas

10 jan 2009 - 15h14
(atualizado em 16/1/2009 às 17h19)
Compartilhar

Para algumas pessoas, o R é apenas a 18ª letra o alfabeto. Para outras, é uma classificação que a censura dos Estados Unidos atribui a filmes ousados, ou a exclamação preferida dos piratas de cinema. Mas R também é o nome de uma popular linguagem de programação que está em uso por crescente número de analistas de dados, em empresas e no mundo acadêmico.

Ross Ihaka, um dos criadores da linguagem R, é professor de estatística em Auckland, na Nova Zelândia
Ross Ihaka, um dos criadores da linguagem R, é professor de estatística em Auckland, na Nova Zelândia
Foto: Kieran Scott / The New York Times

» Fórum: opine sobre a linguagem R

A linguagem está se tornando padrão porque os processos de mineração de dados vivem uma era dourada, quer estejam em uso para determinar preços de publicidade, descobrir novos medicamentos mais rápido ou fazer a sintonia fina de modelos financeiros. Empresas as mais diversas, como por exemplo Google, Pfizer, Merck, Bank of America, InterContinental Hotels Group e Shell, estão usando a linguagem R.

Mas a R também encontrou rápida aceitação entre os estatísticos, engenheiros e cientistas que não conhecem bem a programação de computadores e a consideram fácil de usar. "A R é realmente importante - tanto que é difícil superestimá-la", disse Daryl Pregibon, cientista do Google que usa o software para muitas finalidades. "Ela permite que os estatísticos realizem análises muito intricadas e complicadas sem que precisem conhecer em detalhe o funcionamento dos sistemas de computação".

E a R também é grátis. Ela vem na forma de um programa de fonte aberta, e sua popularidade reflete uma virada no tipo de software preferido pelas empresas. O software de fonte aberta pode ser usado e modificado livremente por todos. IBM, Hewlett-Packard e Dell faturam milhões de dólares ao ano vendendo servidores acionados pelo sistema operacional aberto Linux, que concorre com o Windows, da Microsoft.

A maioria dos sites da web funciona com um aplicativo de fonte aberta chamado Apache, e as empresas dependem cada vez mais do software de banco de dados MySQL, de fonte aberta, para armazenar informações essenciais. Muita gente contempla os resultados finais de toda essa tecnologia por meio do navegador Firefox, mais um software de fonte aberta.

A R é semelhante a outras linguagens de programação, como C, Java e Perl, porque ajuda as pessoas a executar ampla variedade de tarefas de computação ao lhes fornecer acesso a diversos comandos. Para os estatísticos, porém, a R é especialmente útil porque contêm diversos mecanismos incorporados para a organização de dados, execução de cálculos sobre informações e criação de representações gráficas de conjuntos de dados.

Algumas pessoas que conhecem bem a linguagem R a descrevem como uma versão superdimensionada do software de planilhas Microsoft Excel, capaz de ajudar a iluminar certas tendências de dados mais claramente do que seria possível pela inserção de informações na forma de colunas e fileiras.

O que torna a R tão útil - e ajuda a explicar sua rápida aceitação - é que estatísticos, engenheiros e cientistas podem melhorar o código de software básico ou escrever variações para tarefas específicas. Pacotes escritos para a linguagem R acrescentam algoritmos avançados, gráficos coloridos e texturizados e técnicas de mineração para vasculhar bancos de dados mais a fundo.

Perto de 1,6 mil pacotes estão disponíveis em apenas um dos muitos sites dedicados à R, e o número de pacotes está crescendo exponencialmente. Um deles, chamado BiodiversityR, oferece uma interface gráfica cujo objetivo é realizar com mais facilidade cálculos de tendências ambientais. Outro pacote, conhecido como Emu, analisa padrões de fala, enquanto o GenABEL é usado para estudar o genoma humano.

O setor de serviços financeiros demonstrou especial afinidade pela R; existem diversos pacotes para análise de derivativos, por exemplo.

"A grande beleza da R é que se pode modificá-la para realizar diversas coisas diferentes", disse Hal Varian, economista chefe do Google. "E há muito material pré-produzido disponível de imediato, de modo que você pode basear seu trabalho nas realizações de grandes predecessores".

Criadores

A R apareceu inicialmente em 1996, quando os professores de estatística Ross Ihaka e Robert Gentleman, da Universidade de Auckland, Nova Zelândia, começaram a distribuir o código como um software de fonte aberta. De acordo com eles, a idéia de desenvolver algo como a R surgiu de conversas que tinham nos corredores da universidade.

Ambos desejavam tecnologia mais adaptada às necessidades de seus alunos de estatística, que precisam analisar dados e produzir modelos gráficos dessas informações. A maioria do software comparável havia sido criada por cientistas da computação, e seu uso era complicado.

Por não terem muito treinamento em computação, os professores viam seus esforços de criação de software mais como jogo acadêmico do que como qualquer coisa mais séria. Mas mesmo assim, a partir de 1991, eles passaram a dedicar muito tempo à R. "Por cinco ou seis anos, trabalhávamos juntos o tempo todo", disse Gentleman. "Um digitava e o outro pensava".

Alguns estatísticos que estudaram as primeiras versões do software consideraram que havia muito a refinar, mas a despeito dessas deficiências a R imediatamente conquistou adeptos entre as pessoas que viam as oportunidades que o software livre personalizado poderia oferecer.

Os co-criadores da R estão satisfeitos com o sucesso de seu trabalho e do trabalho de centenas de voluntários. Ihaka ainda leciona estatística em Auckland, e Gentleman hoje trabalha no Centro Fred Hutchinson de Pesquisa do Câncer, em Seattle.

"A R é uma demonstração real do poder da colaboração, e não creio que fosse possível criar algo parecido de qualquer outra maneira", disse Ihaka. "Se tivéssemos escolhido lançar o software como produto comercial, teríamos vendido cinco cópias".

Tradução: Paulo Migliacci

The New York Times
Compartilhar
Publicidade