publicidade
31 de maio de 2012 • 08h24 • atualizado às 15h19

Controle corporativo de dados compromete pesquisas na era da web

Para Huberman, cientista da HP, dados privados estavam ameaçando os próprios fundamentos da pesquisa científica
Foto: Divulgação
 
John Markoff

Quando os cientistas publicam suas pesquisas, eles também disponibilizam os dados subjacentes para que os resultados possam ser verificados por outros cientistas. É assim, pelo menos, que o sistema deveria funcionar. Mas ultimamente, os cientistas sociais têm se posicionado contra uma exceção que é, fazendo jus ao seu nome, enorme. Trata-se dos "grandes volumes de dados", enormes conjuntos de informações coletadas por pesquisadores de empresas como Facebook, Google e Microsoft a partir de padrões de chamadas de celular, mensagens de texto e cliques na internet registrados por milhões de usuários ao redor do mundo.

As empresas muitas vezes se recusam a tornar públicas essas informações, às vezes por razões de concorrência e às vezes para proteger a privacidade dos clientes. Porém, para muitos cientistas, a prática é um convite à má ciência, ao sigilo e mesmo a possíveis fraudes.

A questão se mostrou candente no mês passado em uma conferência científica realizada em Lyon, na França, quando três cientistas do Google e da Universidade de Cambridge se recusaram a liberar os dados que haviam compilado para um artigo sobre a popularidade dos vídeos do YouTube em diferentes países.

O presidente do painel de conferências ¿ Bernardo A. Huberman, físico que dirige o grupo de computação social no HP Labs, em Palo Alto ¿ reagiu irritado. No futuro, disse ele, a conferência não deveria aceitar trabalhos de autores que não disponibilizassem os seus dados ao público. Ele foi saudado por aplausos da plateia.

Em fevereiro, Huberman tinha publicado uma carta na revista Nature alertando para o fato de que os dados privados estavam ameaçando os próprios fundamentos da pesquisa científica. "Se um outro conjunto de dados não validar os resultados obtidos com os dados privados", perguntou, "como saberemos se é porque eles não são universais ou se é porque os autores cometeram um erro?".

Ele acrescentou que o controle corporativo de dados pode vir a dar acesso preferencial a um grupo de cientistas de elite, provenientes das maiores corporações. "Se essa tendência continuar", escreveu ele, "vamos ver um pequeno grupo de cientistas tendo acesso a repositórios de dados privados e desfrutando de uma atenção injusta da comunidade, em detrimento de pesquisadores igualmente talentosos cuja única falha é a falta das 'conexões' certas a dados privados".

O Facebook e a Microsoft se recusaram a comentar o assunto. Hal Varian, economista-chefe do Google, afirmou simpatizar com a ideia de dados abertos, mas acrescentou que as questões de privacidade eram significativas.

"Essa é uma das razões pelas quais o padrão geral do Google é tentar liberar dados para todos ou para ninguém", disse ele. "Eu tenho trabalhado para incentivar as empresas a divulgarem mais dados sobre suas atividades. A ideia é de que é possível disponibilizar dados proprietários agregados de uma maneira que não coloque ameaças à privacidade."

O debate só deverá se intensificar à medida que as grandes empresas com altos recursos fizerem mais pesquisas sobre seus usuários. "Na era da internet", disse Andreas Weigend, físico e ex-cientista-chefe da Amazon, "a pesquisa saiu das universidades para os Googles, Amazons e Facebooks do mundo".

Contudo, embora os cientistas sociais e de dados estejam de acordo quanto à importância da replicação de resultados experimentais, há menos consenso quanto ao que deve ser feito e como lidar com as preocupações referentes à privacidade.

Nos principais periódicos de ciências sociais, há poucas orientações claras sobre o compartilhamento de dados. "O American Journal of Sociology não dispõe atualmente de uma posição formal sobre os dados proprietários", escreveu seu editor, Andrew Abbott, sociólogo da Universidade de Chicago, por e-mail. "Também não dispõe atualmente de políticas formais que imponham o compartilhamento de dados."

O problema não é limitado às ciências sociais. Uma análise recente mostrou que 44 entre 50 periódicos científicos de renome instruíam seus autores quanto ao compartilhamento de dados, mas que menos de 30% dos trabalhos publicados integralmente por eles respeitavam essas instruções. Uma análise de requisitos de compartilhamento de dados genéticos publicada em 2008 revelou que 40 entre 70 periódicos pesquisados tinham políticas, que eram "fracas" em 17 deles.

A política de compartilhamento de dados da revista Science diz: "Todos os dados necessários para compreender, avaliar e ampliar as conclusões do manuscrito devem estar disponíveis para qualquer leitor da revista Science". Contudo, no caso de um artigo publicado em 2010 com base em dados de padrões de telefonia celular , um acordo legal com o provedor de dados impediu os pesquisadores de revelarem até mesmo o país de origem.

Ginger Pinholster, porta-voz da Associação Americana para o Avanço da Ciência, que publica a revista, reconheceu que a Science, em "raras ocasiões", permite exceções às diretrizes de proteção de privacidade da publicação. "Disponibilizar informações sobre os movimentos em determinados locais" poderia fornecer informações pessoais, disse ela, "e os autores também tiveram que prometer privacidade para obter as informações da companhia telefônica". A revista não destacou a exceção à política quando publicou o artigo.

Da mesma forma, um artigo publicado em abril de 2011 na revista PLoS One afirmou que a pesquisa tinha sido "baseada em registros de 72,4 milhões de chamadas e 17,1 milhões de mensagens de texto acumulados ao longo do período de um mês", mas não identificou quem havia fornecido a informação.

Um dos fundadores do PLoS, Michael Eisen, biólogo celular da Universidade da Califórnia, em Berkeley, e defensor vigoroso da "ciência aberta", pareceu lamentar o ocorrido com o artigo em uma mensagem enviada por e-mail. "É antiético com as normas básicas da ciência fazer afirmações que não podem ser validadas porque os dados necessários são proprietários", escreveu ele.

A questão foi prenunciada em um ensaio publicado em 2009 pela Science, cujos autores incluíam Albert-László Barabási, físico da Universidade Northeastern, que também era um dos autores dos artigos controversos da Science e da PLoS One.

"Talvez os desafios mais espinhosos existam no que diz respeito aos dados, no que diz respeito ao acesso e à privacidade", escreveram eles. Eles chamaram atenção para o fato de que mesmo conjuntos de dados anônimos podem ser imperfeitos, e defenderam a formação de novos modelos de colaboração entre indústria e academia para auxiliar na pesquisa e salvaguardar a privacidade.

No ano passado, a Fundação Nacional de Ciência disse que os pesquisadores que recebem seus financiamentos "deveriam" compartilhar dados com outros pesquisadores. Muitos cientistas concordam que é assim que as coisas deveriam ser.

"A resposta óbvia é que é preciso haver mais acesso aos dados", disse Alex Pentland, diretor do Laboratório de Dinâmica Humana do Instituto de Tecnologia de Massachusetts. "Isso está começando a acontecer, à medida que os governos e a indústria percebem que precisam compreender melhor as potencialidades e os limites dos grandes volumes de dados. Nós, por exemplo, vamos anunciar uma enorme divulgação multinacional de dados sobre telefonia em breve."

The New York Times