Computer égale ou mieux que les humains à la science catalogage

sponsored links

En 1997, l'ordinateur Deep Blue d'IBM a battu assistant d'échecs Garry Kasparov. Cette année, un système informatique développé à l'Université de Wisconsin-Madison a égalé ou battu scientifiques à la tâche complexe d'extraction de données à partir de publications scientifiques et de le placer dans une base de données qui répertorie les résultats de dizaines de milliers d'études individuelles.

"Nous avons démontré que le système ne était pas pire que les personnes sur toutes les choses que nous avons mesurées, et ce était mieux dans certaines catégories," explique Christopher Ré, qui a guidé le développement de logiciels pour un projet alors qu'il était professeur UW des sciences informatiques.

Le développement, décrit dans le numéro actuel de la revue PLoS One, marque une étape importante dans la quête de rapidement et précisément résumer, rassembler et indice la grande sortie de scientifiques du monde entier, dit premier auteur Shannan Peters, professeur de géosciences à l'UW-Madison .

Peters et ses collègues mis en place la mise au jeu entre PaleoDeepDive, leur nouveau système de lecture automatique, et les scientifiques humains qui étaient entrés manuellement les données dans la base de données Paléobiologie. Ce référentiel, compilé par des centaines de chercheurs, est la destination pour les données provenant d'études de paléontologie financés par la National Science Foundation et d'autres organismes à l'échelle internationale.

Les connaissances produites par les paléontologues est fragmenté en centaines de milliers de publications. Pourtant, de nombreuses questions de recherche exigent ce que Peters appelle une «approche synthétique:? Par exemple, combien d'espèces étaient sur la planète à un moment donné"

Faire équipe avec Ré, qui est maintenant à l'Université de Stanford, et UW-Madison sciences informatiques professeur Miron Livny, le groupe construit sur le système de lecture automatique scaphandrier et le système de gestion de l'emploi de Condor distribués pour créer PaleoDeepDive. "Nous avons été chanceux que Miron Livny apporté le haut débit capacités de calcul du campus UW-Madison à supporter», dit Peters. "Mise en route nécessaire un million d'heures de temps d'ordinateur."

Imite PaleoDeepDive Les activités humaines nécessaires pour assembler la base de données Paléobiologie. "Nous avons extrait les mêmes données à partir des mêmes documents et le mettre dans la même structure exacte que les chercheurs humains, nous permettant d'évaluer rigoureusement la qualité de notre système, et les humains", dit Peters.

Au lieu d'essayer de deviner la signification correcte unique, la tactique était de «se pencher sur l'ensemble du problème de l'extraction comme un problème probabiliste», dit-Ré, qui attribue une grande partie de la levée lourd à UW-Madison Ph.D. Ce candidat Zhang.

Les ordinateurs ont souvent du mal à déchiffrer même de simples déclarations à consonance, dit Ré. Ré imagine une étude contenant les termes «Tyrannosaurus rex» et «l'Alberta, Canada." Est de l'Alberta où le fossile a été trouvé, ou où il est stocké? "Nous adoptons une approche plus détendue: Il ya des chances que ces deux sont liées de cette manière, et une chance qu'ils sont liés de cette manière."

Dans ces tâches grand-données, PaleoDeepDive a un avantage majeur, dit Peters. "Information qui a été entré manuellement dans la base de données Paléobiologie par les humains ne peut être évaluée ou amélioré sans revenir aux documents originaux bibliothèque et ré-examen. Notre système de la machine, d'autre part, peut se étendre et améliorer les résultats essentiellement à la volée comme neuf l'information est ajoutée. "

D'autres avantages peuvent résulter de l'amélioration des outils informatiques. "Comme nous obtenons plus de rétroaction et des données, il fera un meilleur travail sur toute la ligne», dit Peters.

Le procès lecture machine nécessaire accès à des dizaines de milliers d'articles, dit Jacquelyn Crinion, directeur adjoint des services de licences ou par acquisitions à la Library System général UW-Madison. Et le volume de téléchargement menacé blocages dans la livraison de documents. Finalement, Elsevier donné à l'équipe un large accès UW-Madison à 10 000 téléchargements par semaine.

Comme texte- et l'extraction de données décolle, Crinion affirme que le système de bibliothèque et les éditeurs vont se adapter. "Le défi pour nous tous est de fournir des services spécialisés pour les chercheurs tout en continuant à répondre aux besoins de base de la grande majorité de nos clients."

La base de données Paléobiologie a déjà généré des centaines d'études sur l'histoire de la vie, dit Peters. "En fin de compte, nous espérons avoir la possibilité de créer un système informatique qui peut faire presque immédiatement ce que de nombreux géologues et paléontologues tentent de le faire sur une plus petite échelle sur une durée de vie: lire un tas de papiers, organiser un tas de faits, et les relier un à l'autre afin de répondre grandes questions ".