Clustering de comentários (Multicanal) de vários comentários de vídeo do youtube usando deep learning e kmeans

deep_learning pytorch python youtube restricted_boltzman_machines kmeans

Objetivo

  • Conhecer a rede neural Boltzman machiners
  • Conhecer o pytorch
  • Organizar a extração de dado e guardar no minio s3
  • Registrar, experimentos, métricas e modelos com Mlflow
  • Identificar padrões de linguagem , tópicos e tendencias de cada canal e vídeo
  • Interpretar para a equipe de negócio

Tecnologias Utilizadas

  • 🐍 Python (PyTorch, Scikit-learn, SpaCy, NumPy, Pandas)
  • 🧠 SpaCy para processamento de linguagem natural
  • ⚡ Boltzmann Machines para extração de representações latentes
  • 📊 MLflow para registro de experimentos, métricas e artefatos
  • ☁️ MinIO (S3) para armazenamento de datasets e modelos
  • 📈 Plotly / Matplotlib / UMAP / t-SNE para visualizações interativas
  • 🎥 APIs do YouTube para coleta de comentários

Estrutura do Pipeline de coleta

1 – Coleta de comentários: Usar a api do youtube para buscar os comentários seguindo a sequência busca id_canal, busca_id_video, comentários.

2 – Pré-processamento: Remolçao de links, emojis, potuação, stopwords. Lematização. Tratamento para deixar em mínusculos e salvar o dataset processado no Minio.

3 – Vetorização embedings: TF-IDF ou embeddings (Word2Vec, FastText, GloVe)., Boltzman Machine para gerar representação lattente e registrar no mlflow o aterfatro

4- Experimentos com Mlflow: Registrar: hiperparâmetros RBM (n_hidden, learning_rate), clustering (n_clusters, algoritmo), métricas (Silhouette, Calinski-Harabasz) e salvar gráficos, embeddings e artefatos no MinIO via Mlflow.

5 - Clustering: K-Means sobre embeddings latentes, Salvar labels e embeddings finais no MinIO e Registrar métricas de clusterização no Mlflow.

6 - Interpretação de Clusters: Extração de comentários representativos, palavras-chave top-n por cluster. ags emergentes podem ser usadas para auto-tagging futuro .

7 – Visualização: t-SNE dos embeddings., Cores = cluster, símbolos = canal. E Salvar figuras no MinIO e registrar no Mlflow.

8 - Comparação entre Canais / Vídeos: Comparação entre Canais / Vídeos, Detectar segmentos comuns ou exclusivos. Detectar segmentos comuns ou exclusivos.

Construção do pipeline

Para a extração dos comentários do youtube, eu coletei comentários de vídeo desde o dia 01 de janeiro de 2026 usando o padrão de projeto cadeia de responsábilidade. Este padrão me permitiu criar classes, onde cada classe representa uma etapa de processamento do pipeline e os método, indicam o tipo de processamento em cada etapa, quando aplicavel, além de caso ela de erro em alguma etapa de processamento, a cadeia é interrompida.

Estrutura da rede neural

Para esse projeto, eu construi uma rede neural do tipo Boltzman Machines. Ela é uma rede neural que aprende uma representação latente doc comentários.

  • Cada neurônio oculto pode se tornar um neurônio especialista, capturando padrões de liguagem ou tópicos
  • Esta representatção facilita a clusterização, visualização e interpretação de tendências em multiplos canais e vídeos.
  • Logo em seguida, usi o kmeans para fazer os agrupamentos dos comentários.

Resultados obtidos

Com base no treinamento da rede neural, eu separe em seguintes clusters:

Cluster 0: Promoção:

Esse cluster está relacionado a links de promoções, afiiados e parcerias. Aparecem referencias a plataforma de lojas e streaming como, instant Gaming, Twitch, live pix e instragram.
Expressão como “Parceira oficial do canal” e “oficial canall https” indicam comentários promocionais ou automático de parceiros, ou seja, comentários de marketing e divulgação. Não há opinião sobre o conteúdo do vídeo.

Palavras chaves: “instant gaming”, “canal https”, “parceira oficial”, “livepix gg”, “lives twitch”.
Nota: Expressões como “valeu”, “Bora”, “Salve”, mesmo pertecente ao cluster 0, se aglomeraram e ficaram distante dos outros pontos.

Cluster 1 : Dicas de gameplay e Gestão de base

É grupo onde os inscritos discutem sobre as mecanicas do jogo. Apresenta linguagem causal com abreviações e também interação com o criador como: “Você vai e você pode”, ou seja, é um cluster de feedback e sugestões.

Palavras chaves : “fábrica precisa”, “precisa crescer”, “usina nuclear”, “vc pode”.

Cluster 2: Feedback:

É o grupo que apresenta feedbacks posivos e discursão de lore da série. Apresenta cuprimentos sazonais de feliza natal e ano novo.

Palavras chaves: “pra fazer”, “vc vai”, “pra vc”, “próximo vídeo”, “jogo bom”, “desse jogo”, “nesse jogo”, “pra frente”, “vai dar”, “ai vc”

Cluster 3: Comentários técnicos

É o grupo onde há discusão sobre construção de base, relacionados a simuladores de estrátegia e construção de cidades/ jogos complexos

Palavras chaves: “pra fazer”, “dá pra”, “main bus”, “painel solar”, “usina nuclear”, “cidade”, “acho ficaria”, “japonesa”,

Contato

Entre em contato comigo por e-mail ou redes profissionais.