WCalazans: Informações não estruturadas em conhecimento útil

A inteligência artificial (IA) é uma das áreas mais empolgantes da ciência da computação. Décadas atrás, em meados da década de 1970, uma equipe do Watson Research Center da IBM, já dava seus primeiros passos e esforços rumo ao que temos em 2005. Outros projetos, como o lançado no Japão na década de 1980 chamado The Fifth Generation Computer Project, também deram passos importantes; mas esse e outros projetos falharam, por uma variedade de razões, muitas coisas estavam erradas e pelo que eu li e analisei, muitos projetos foram estruturados em um modelo pensado em que poderíamos programar computadores para agir de forma inteligente e, ingenuamente, subestimaram o tipo de poder de computação e armazenamento necessários para resolver tais problemas.

Na década de 1990, finalmente alguém projetos começaram a progredir, com uma abordagem diferente. Desta vez, adotaram uma abordagem de força bruta — confiando na capacidade de um computador de armazenar enormes quantidades de informações e analisá-las com vastas quantidades de poder computacional — e então, desta vez, descobriu-se que essa mistura, quando feita de forma correta e focada em um problema, produzia algo semelhante à inteligência ou conhecimento. O Deep Blue, o supercomputador da IBM, demonstrou esse ponto ao derrotar o então campeão de xadrez Gary Kasparov em uma partida celebrada em maio de 1997 usando essa abordagem de força bruta.

Desde então, analisar ou pesquisar grandes quantidades de informações se tornou cada vez mais importante e comum. Hoje, a maioria de nós usa mecanismos de busca como o mecanismo principal para encontrar informações na World Wide Web e, cada vez mais, em nossos PCs. Os mecanismos de busca dependem principalmente de encontrar palavras ou frases específicas. É incrível o quão úteis essas abordagens, baseadas em palavras, provaram ser no uso diário, uma solução muito boa para o modelo de consultas na web.

A próxima grande fronteira envolve descobrir o conhecimento valioso que está embutido em coleções de informações, não apenas na WWW, mas nas enormes quantidades de informações não estruturadas ao nosso redor que agora estão sendo digitalizadas, incluindo todas as bibliotecas do mundo, todos os tipos de documentos comerciais e governamentais, manuais técnicos, relatórios de atendimento ao cliente, e-mails, conversas de voz, imagens, vídeos, blogs, podcasts e assim por diante. Não estamos apenas digitalizando quase tudo à vista, mas agora somos capazes de armazenar, acessar e analisar essa crescente massa de informações não estruturadas confiando em nossas tecnologias cada vez mais poderosas e baratas. Novas classes de aplicativos estão surgindo para alavancar todo esse conhecimento descoberto para satisfazer os clientes, antecipar problemas e encontrar rapidamente uma solução e desenvolver novas oportunidades de negócios em assistência médica, produtos farmacêuticos, atendimento ao cliente, segurança e muitas outras áreas.

Para tornar possível extrair ou descobrir conhecimento útil, as informações não estruturadas devem ser analisadas para localizar as entidades e relacionamentos básicos de interesse, que devem então ser estruturados para que tecnologias de busca poderosas possam encontrar eficientemente o que você precisa, quando você precisa. Como há tantos tipos de informação e tantas formas que o conhecimento útil pode assumir, não há (até agora) um mecanismo de análise universal que possa fazer tudo. Em vez disso, você precisa de uma plataforma na qual desenvolver e executar a variedade de mecanismos de análise e busca que são necessários para fazer a ponte entre os mundos não estruturados e os estruturados.

A Unstructured Information Management Architecture (UIMA) desenvolvida na IBM Research nos últimos quatro anos, é uma arquitetura de software e estrutura para dar suporte ao desenvolvimento, integração e implementação de tecnologias de pesquisa e análise.

Dada a complexidade do assunto, bem como sua importância para a comunidade geral de TI, o UIMA é uma iniciativa aberta e colaborativa na qual a IBM está desempenhando um papel de liderança. O projeto recebeu apoio significativo da DARPA, o braço de pesquisa do Departamento de Defesa dos EUA, que é provavelmente mais conhecido por ter financiado o desenvolvimento da Internet. Várias universidades têm participado do projeto, incluindo Carnegie Mellon, Columbia, Stanford e The University of Massachusetts (Amherst). Outras organizações que apoiam ativamente o UIMA incluem Science Applications International Corp., BBN Technologies, Mayo Clinic e MITRE Corporation.

Para incentivar todos a experimentar o UIMA, o software está disponível para download gratuito e já estão dando outros passos adiante, ao anunciar planos de doar o UIMA para a comunidade de código aberto, integrando recursos do UIMA em plataforma de pesquisa empresarial, WebSphere Information Integrator OmniFind Edition, e que mais de 15 empresas estão anunciando planos para desenvolver software, soluções e serviços compatíveis com o UIMA.

Então, muita coisa mudou desde os primeiros avanços em inteligência artificial e problemas baseados em conhecimento, há trinta anos. No meu ponto de vista, o mais importante é o fato de estamos aprendendo, evoluindo e entendendo o quão complicado é fazer com que os computadores transformem dados dispersos em informações valiosas e inteligentes, talvez ainda o maior desafio de todos. Mas nossas tecnologias avançam muito além de nossas expectativas; temos a Internet como a plataforma mais importante para inovação que alguém já criou; e estamos aprendendo a colaborar uns com os outros para enfrentar os problemas mais difíceis. Temos muito a fazer e os progressos são reais.

WCalazans

08/08/2005

Informações não estruturadas em conhecimento útil

Nenhum comentário:

Postar um comentário

Além da Guerra de Preços: O Oceano Azul na Conectividade Brasileira

Denunciar abuso