Novo dataset do YouTube reúne mais de 500.000 horas de vídeo

Por Redação | 29 de Setembro de 2016 às 14h26

Na última quarta-feira (28), o YouTube anunciou a criação do YouTube-8M, uma gigantesca base de dados com 8 milhões de URLs de vídeos da plataforma. Isso significa que a riqueza de informações armazenadas no serviço de streaming agora estará organizada e disponível para pesquisadores.

Ao todo, o projeto reúne mais de meio milhão de horas de vídeo, que são classificados em 4.800 etiquetas diferentes. Com essa organização é possível classificar os vídeos e entender melhor a magnitude de cada uma das categorias disponíveis na plataforma.

As etiquetas são palavras-chave descritivas que podem ser adicionadas aos vídeos para ajudar as pessoas a encontrar o conteúdo e, no Gráfico de Conhecimento (Knowledge Graph), elas são chamadas de entidades e organizadas em 24 diferentes categorias (identificadas como Vertical). Cada entidade representa um tema semântico que é visualmente reconhecível nos vídeos, enquanto as etiquetas descrevem os principais temas de cada vídeo.

YouTube-8M

Imagem: Divulgação

Para controlar a qualidade do conjunto de dados do YouTube-8M, o Google usou apenas vídeos públicos com mais de 1.000 views e associados ao vocabulário das entidades já existentes no mapeamento do Gráfico de Conhecimento.

De acordo com o Google, o YouTube-8M "pode acelerar significativamente as pesquisas sobre a compreensão de vídeos, uma vez que permite aos pesquisadores e estudantes sem acesso a grandes volumes de dados ou máquinas potentes fazer suas pesquisas em uma escala sem precedentes".

Via Google Blog

Fique por dentro do mundo da tecnologia!

Inscreva-se em nossa newsletter e receba diariamente as notícias por e-mail.