WCalazans: O valor do conhecimento humano x IA generativa

No início de 2021, o então editor e contribuidor da Wikipédia Jon Gertner viu algo na internet que lhe chamou a atenção: a ascensão do GPT-3, um precursor dos novos chatbots da OpenAI, e ele decidiu escrever o artigo “Wikipedia's Moment of Truth”, para a NY Times Magazine . “Quando experimentei a nova tecnologia, me pareceu não tão confiável. O bot misturava elementos fictícios em respostas factuais e coerentes. Mas não tive dúvidas sobre seu potencial.”

O artigo chamou minha atenção porque há muito tempo uso a Wikipédia como meu site de referência para pesquisar tópicos sobre os quais quero aprender, além de usar links para artigos da Wikipédia como referências nos blog que publico desde 2005.

Na última década, a Wikipédia se tornou muito mais do que uma enciclopédia, — “um tipo de comunidade que mantém todo o mundo digital unido”. Google, Bing, Siri, Alexa e outros mecanismos de busca e assistentes digitais frequentemente contam com a Wikipédia para obter as informações necessárias para responder às perguntas dos usuários. A Wikipédia também tem sido uma das maiores fontes de dados, — estimada em cerca de 3% a 5%, — para treinamento de Large Language Models (LLMs) e chatbots relacionados. A Wikipédia tem desempenhado um papel importante no mundo digital porque suas grandes quantidades de dados são gratuitas, facilmente acessíveis, de alta qualidade e bem selecionadas.

Depois de experimentar o ChatGPT em 2021, um outro usuário, escreveu um ensaio com o título “Morte da Wikipédia”, no qual ele cita como a Wikipédia poderia perder seu lugar como a enciclopédia digital dominante. “Para alguma outra enciclopédia vencer a Wikipédia, ela teria que ser capaz de igualar algumas das vantagens construídas ao longo dos anos. Ou seja, que ter milhões de artigos e que esses artigos sejam atualizados rapidamente.”

Ele acrescentou que era improvável que uma enciclopédia sucessora tivesse os compromissos da Wikipédia com a transparência, objetivos não comerciais e a livre reutilização de seu conteúdo por meio de sua licença. “Esses valores ajudam na reputação e criam valor para os leitores no mundo todo.”

Eu, particularmente falando, não acreditava ser provável alcançar os feitos humanos da Wikipedia. Mas agora acredito que a inteligência artificial pode. A IA está melhorando exponencialmente a cada dia. No momento em que escrevo este artigo, já testei ser capaz de escrever um texto bastante competente, usando a IA. A longo prazo a IA pode substituir a Wikipédia e seus editores humanos, assim como a Wikipédia venceu a Enciclopédia Britånica.

“Na comunidade da Wikipédia, há cautela quando se fala em IA. Se administrada corretamente, ajudará a organização a melhorar em vez de quebrar”, citação do artigo da NYT Magazine . “Mesmo que os editores vençam a curto prazo, as máquinas vencerão no final”

Já houveram outras previsões sobre o fim da Wikipédia desde que foi fundada em 2001. Em comemoração ao 20º aniversário da Wikipédia, o professor Joseph Reagle da Northeastern University escreveu “As muitas (relatadas) mortes da Wikipédia”, um ensaio que explorou como a Wikipedia teve sua morte anunciada repetidas vezes nas últimas duas décadas e como ela encontrou maneiras de se adaptar e perdurar.

Reagle observou que, em seus primeiros anos, os críticos da Wikipédia e seus fundadores, exemplificaram três maneiras de pensar sobre o futuro:

1. Eles olharam para projetos de enciclopédia semelhantes para ter uma ideia do que é viável e aprenderam que, mesmo projetos bem financiados, como o Encarta da Microsoft, falharam em criar uma enciclopédia on-line sustentável.

2. Eles presumiram que os primeiros meses seriam muito difíceis - como no caso da Wikipédia.

“O único modelo que não usamos foi justamente o crescimento exponencial, que caracterizou a criação de artigos da Wikipédia até 2007”, escreveu Reagle.

Em seu primeiro ano, a Wikipedia esperava ter, um dia, 100.000 artigos, o que seria um pouco maior do que a maioria das enciclopédias impressas. Eles estimaram que se produzissem 1.000 artigos por mês, chegariam perto da meta em sete anos. E em 2007, a Wikipédia atingiu o inimaginável feito de ter dois milhões de artigos, — 20 vezes a estimativa original.

Mas em 2009, a inserção de novos artigos na Wikipédia diminuiu ou estagnou-se, e a atividade passou a tender cada vez para editores experientes em vez de continuar atraindo novos editores. O número de editores ativos caiu de 53.000 em 2007 para 30.000 em 2014.

A Wikipédia pode sobreviver?, perguntou um outro artigo de opinião do NYT de 2015. Sim. "Parece que o número de editores ativos tem se mantido estável desde 2014, não caindo abaixo de 29 mil", escreveu Reagle.

“A única previsão que eu arriscaria para os próximos dez anos é que a Wikipédia ainda existirá”, ele acrescentou. “A plataforma e a comunidade têm um ímpeto que nenhuma alternativa, a curto prazo, vencerá. A comunidade Wikipédia sem dúvida enfrentará desafios e crises, como sempre enfrentou.”

Em setembro de 2023, a Wikipédia tinha mais de 6,7 milhões de artigos e mais de 118.000 editores ativos — que fizeram uma ou mais edições nos últimos 30 dias. E, de acordo com o artigo da Gertner na NYT Magazine , “a Wikipédia tem versões em 334 idiomas e um total de mais de 61 milhões de artigos. Ela está classificada entre os 10 sites mais visitados do mundo, no seleto grupo cujos líderes habituais, que são Google, YouTube e Facebook, mas é única em evitar o motivo lucro.”

O valor mais crítico da Wikipédia para a IA Generativa é o fato de que seu conhecimento é criado por humanos.

"Os chatbots de IA geralmente só vomitam o que engoliram da Wikipédia”, escreveu Gertner. “Incorporado em suas respostas o conhecimento que foi compilado ao longo de anos de trabalho meticuloso por colaboradores humanos.”

Garantir que os sistemas de IA generativos sejam treinados com conteúdo meticulosamente criado por humanos é muito mais do que um caso de idealismo humano anti-IA. Acontece que, sem dados de treinamento gerados por humanos, os sistemas de IA inevitavelmente não funcionarão bem. Um outro artigo publicado em maio de 2023 definiu esse fenômeno em detalhes e o nomeou colapso do modelo.

Encontrei uma explicação mais simples sobre o colapso do modelo em um artigo recente da TechTarget “O colapso do modelo explicado: como os dados de treinamento sintético quebram a IA ”.

“O colapso do modelo ocorre quando novos modelos generativos treinam em conteúdo gerado por IA e gradualmente degeneram seus resultados. Nesse cenário, os modelos começam literalmente a esquecer a verdadeira distribuição de dados. Isso significa que os modelos perdem a referência de informações sobre os aspectos menos comuns — mas ainda importantes — dos dados. À medida que as gerações de modelos de IA progridem, os modelos começam a produzir saídas cada vez mais semelhantes e menos diversas.”

“Modelos de IA generativa precisam treinar em dados produzidos por humanos para funcionar de forma adequada. Quando treinados em conteúdo gerado por modelos, esses novos modelos exibem defeitos irreversíveis. Suas saídas se tornam cada vez mais 'erradas' e homogêneas. Pesquisadores descobriram que, mesmo nas melhores condições de aprendizado, o colapso do modelo era inevitável.”

" Estudar e entender o colapso do modelo é importante porque a IA generativa está pronta para trazer mudanças significativas no mundo digital. Mais e mais comunicações online estão sendo geradas usando ferramentas de IA. E esse fenômeno tem o potencial de criar poluição de dados em larga escala. Embora a criação de grandes quantidades de texto seja mais eficiente do que nunca, o estudo do colapso do modelo afirma que nenhum desses dados será valioso para treinar a próxima geração de modelos de IA.”

WCalazans

21/07/2024

O valor do conhecimento humano x IA generativa

Nenhum comentário:

Postar um comentário

Além da Guerra de Preços: O Oceano Azul na Conectividade Brasileira

Denunciar abuso

21/07/2024

O valor do conhecimento humano x IA ​​generativa

Nenhum comentário:

Postar um comentário

Além da Guerra de Preços: O Oceano Azul na Conectividade Brasileira

O valor do conhecimento humano x IA generativa