Lorsque grand ne est pas mieux: Comment le bit de virus de la grippe Google

sponsored links

Les chiffres et les données peuvent être des outils critiques de placer les questions complexes en mise au point nette. La compréhension des maladies, par exemple, bénéficie d'algorithmes qui aideront à contrôler leur propagation. Mais sans contexte, un certain nombre ne est peut-être un nombre, ou pire, trompeuse.

Lorsque grand ne est pas mieux: Comment le bit de virus de la grippe Google

Ryan Kennedy est un professeur de sciences politiques à l'Université de Houston.

Crédit: Université de Houston

"La parabole de Google Flu: Piège à Big Data Analysis" est publié dans la revue Science, financé, en partie, par une subvention de la National Science Foundation. Plus précisément, les auteurs examinent l'outil de données-agrégation de Google Google Flu Tendance (GFT), qui a été conçu pour fournir une surveillance en temps réel de cas de grippe dans le monde sur la base de recherches Google qui correspondent à termes pour l'activité de la grippe-connexes.

"Google Flu Tendance est un étonnant morceau de l'ingénierie et un outil très utile, mais il illustre également où l'analyse« big data »peut aller mal», a déclaré Ryan Kennedy, Université de Houston professeur de sciences politiques. Lui et co-chercheurs David Lazer (Northeastern University / Université Harvard), Alex Vespignani (Northeastern University) et Gary King (Université Harvard) en détail nouvelle recherche sur l'utilisation problématique de grands volumes de données à partir agrégateurs comme Google.

Même avec des modifications à la GFT depuis de nombreuses années, l'outil qui a entrepris d'améliorer la réponse aux épidémies de grippe a surestimé cas de grippe de pointe aux États-Unis au cours des deux dernières années.

"De nombreuses sources de 'Big Data' proviennent d'entreprises privées, qui, tout comme Google, sont en constante évolution de leur service conformément à leur modèle d'affaires," a dit M. Kennedy, qui enseigne également les méthodes de recherche et statistiques pour les politologues. "Il nous faut une meilleure compréhension de la façon dont cela affecte les données qu'ils produisent, sinon nous courons le risque de tirer des conclusions erronées et adopter des politiques inappropriées."

GFT surestimé la prévalence de la grippe durant la saison 2012-2013, ainsi que les niveaux réels de la grippe en 2011-2012, de plus de 50 pour cent, selon la recherche. En outre, à partir de Août 2011 to Septembre 2013, GFT surestimé la prévalence de la grippe dans 100 sur 108 semaines.

L'équipe se interroge également sur les collections de données à partir de plates-formes tels que Twitter et Facebook (comme les tendances de vote et de la popularité du marché) que les campagnes et les entreprises peuvent manipuler ces plates-formes pour se assurer que leurs produits sont orientés.

Pourtant, l'article soutient qu'il ya place pour les données de l'Googles et Twitters de l'Internet à combiner avec des méthodes plus traditionnelles, au nom de la création d'une compréhension plus profonde et plus précis du comportement humain.

"Notre analyse de Google Flu démontre que les meilleurs résultats viennent de la combinaison de l'information et des techniques de ces deux sources," a dit M. Kennedy. «Au lieu de parler d'un« grande révolution de données, «nous devrions être discuter d'un« toute révolution de données, 'où les nouvelles technologies et techniques nous permettent de faire plus et mieux l'analyse de toutes sortes. "