Novo dataset do YouTube reúne mais de 500.000 horas de vídeo

Por Redação | 29 de Setembro de 2016 às 14h26

Na última quarta-feira (28), o YouTube anunciou a criação do YouTube-8M, uma gigantesca base de dados com 8 milhões de URLs de vídeos da plataforma. Isso significa que a riqueza de informações armazenadas no serviço de streaming agora estará organizada e disponível para pesquisadores.

Ao todo, o projeto reúne mais de meio milhão de horas de vídeo, que são classificados em 4.800 etiquetas diferentes. Com essa organização é possível classificar os vídeos e entender melhor a magnitude de cada uma das categorias disponíveis na plataforma.

As etiquetas são palavras-chave descritivas que podem ser adicionadas aos vídeos para ajudar as pessoas a encontrar o conteúdo e, no Gráfico de Conhecimento (Knowledge Graph), elas são chamadas de entidades e organizadas em 24 diferentes categorias (identificadas como Vertical). Cada entidade representa um tema semântico que é visualmente reconhecível nos vídeos, enquanto as etiquetas descrevem os principais temas de cada vídeo.

YouTube-8M

Imagem: Divulgação

Para controlar a qualidade do conjunto de dados do YouTube-8M, o Google usou apenas vídeos públicos com mais de 1.000 views e associados ao vocabulário das entidades já existentes no mapeamento do Gráfico de Conhecimento.

De acordo com o Google, o YouTube-8M "pode acelerar significativamente as pesquisas sobre a compreensão de vídeos, uma vez que permite aos pesquisadores e estudantes sem acesso a grandes volumes de dados ou máquinas potentes fazer suas pesquisas em uma escala sem precedentes".

Via Google Blog

Gostou dessa matéria?

Inscreva seu email no Canaltech para receber atualizações diárias com as últimas notícias do mundo da tecnologia.