Pontifícia Universidade Católica de São Paulo (PUCSP).
2024-11-07 18:30:00 - AUDITORIO 2
Nos últimos anos, o campo da inteligência artificial e do aprendizado de máquina tem avançado rapidamente, trazendo novas abordagens para armazenar e consultar dados. Uma dessas abordagens inovadoras é o uso de bancos de dados vetoriais e embeddings para melhorar a eficiência e a precisão na busca e no processamento de informações.
Bancos de Dados Vetoriais são uma nova classe de sistemas de gerenciamento de banco de dados projetados especificamente para lidar com dados representados como vetores. Esses vetores, muitas vezes gerados por modelos de aprendizado profundo, são representações numéricas de dados que capturam semântica e características importantes, tornando-os ideais para tarefas como busca semântica, recomendação e análise de similaridade.
Embeddings são representações vetoriais densas de dados, como palavras, frases ou imagens, que facilitam a análise e a comparação desses dados em um espaço de alta dimensão. Eles são fundamentais em aplicações como processamento de linguagem natural, visão computacional e sistemas de recomendação.
Nesta apresentação, exploraremos como o pgvector, uma extensão para PostgreSQL, oferece uma solução robusta e escalável para trabalhar com dados vetoriais e embeddings. Vamos examinar a arquitetura e os principais conceitos por trás do pgvector, discutir suas aplicações práticas e considerar os desafios e oportunidades associados a essa tecnologia.
Estrutura da Apresentação
1 - Introdução
1.1. Definição e importância de bancos de dados vetoriais e embeddings.
1.2. Exemplos de aplicações e impacto na indústria.
1.3 Conceitos Fundamentais
2. Embeddings?
2.1 Definição e propósito.
2.2 Tipos comuns de embeddings (e.g., Word2Vec, BERT, embeddings de imagem).
2.3 O que são Bancos de Dados Vetoriais?
2.4 Definição e finalidade.
2.5 Comparação com bancos de dados tradicionais.
2.6 Introdução ao pgvector
3 PGVector.
3.1 O que é e por que é relevante.
3.2 Comparação com outras soluções (e.g., Pinecone, Faiss).
3.3 Intalação do pgvector
3.4 Arquitetura e funcionamento.
4 Principais Funcionalidades do pgvector
4.1. Armazenamento e manipulação de vetores.
4.2 Consultas vetoriais e buscas de similaridade.
4.3 Indexação e otimização de desempenho.
5 Exemplos práticos
5.1 Implementação de um caso de uso típico (e.g., busca semântica de textos).
5.2 Seleção prévia de conteúdo para submissão a GenAI
5.3 Demonstração de código e resultados.
5.4 Exemplos de integração com aplicações reais.
6 Desafios e Considerações
6.1 Desafios técnicos (e.g., escalabilidade, precisão).
6.2 Considerações sobre o custo e desempenho.
6.3 Melhores práticas para uso efetivo do pgvector.
6.4 Futuro dos Bancos de Dados Vetoriais e Embeddings
Busca semântica com PGVector
José de Jesus Filho
Pontifícia Universidade Católica de São Paulo (PUCSP).
2024-11-07 18:30:00 - AUDITORIO 2
Nos últimos anos, o campo da inteligência artificial e do aprendizado de máquina tem avançado rapidamente, trazendo novas abordagens para armazenar e consultar dados. Uma dessas abordagens inovadoras é o uso de bancos de dados vetoriais e embeddings para melhorar a eficiência e a precisão na busca e no processamento de informações. Bancos de Dados Vetoriais são uma nova classe de sistemas de gerenciamento de banco de dados projetados especificamente para lidar com dados representados como vetores. Esses vetores, muitas vezes gerados por modelos de aprendizado profundo, são representações numéricas de dados que capturam semântica e características importantes, tornando-os ideais para tarefas como busca semântica, recomendação e análise de similaridade. Embeddings são representações vetoriais densas de dados, como palavras, frases ou imagens, que facilitam a análise e a comparação desses dados em um espaço de alta dimensão. Eles são fundamentais em aplicações como processamento de linguagem natural, visão computacional e sistemas de recomendação. Nesta apresentação, exploraremos como o pgvector, uma extensão para PostgreSQL, oferece uma solução robusta e escalável para trabalhar com dados vetoriais e embeddings. Vamos examinar a arquitetura e os principais conceitos por trás do pgvector, discutir suas aplicações práticas e considerar os desafios e oportunidades associados a essa tecnologia. Estrutura da Apresentação 1 - Introdução 1.1. Definição e importância de bancos de dados vetoriais e embeddings. 1.2. Exemplos de aplicações e impacto na indústria. 1.3 Conceitos Fundamentais 2. Embeddings? 2.1 Definição e propósito. 2.2 Tipos comuns de embeddings (e.g., Word2Vec, BERT, embeddings de imagem). 2.3 O que são Bancos de Dados Vetoriais? 2.4 Definição e finalidade. 2.5 Comparação com bancos de dados tradicionais. 2.6 Introdução ao pgvector 3 PGVector. 3.1 O que é e por que é relevante. 3.2 Comparação com outras soluções (e.g., Pinecone, Faiss). 3.3 Intalação do pgvector 3.4 Arquitetura e funcionamento. 4 Principais Funcionalidades do pgvector 4.1. Armazenamento e manipulação de vetores. 4.2 Consultas vetoriais e buscas de similaridade. 4.3 Indexação e otimização de desempenho. 5 Exemplos práticos 5.1 Implementação de um caso de uso típico (e.g., busca semântica de textos). 5.2 Seleção prévia de conteúdo para submissão a GenAI 5.3 Demonstração de código e resultados. 5.4 Exemplos de integração com aplicações reais. 6 Desafios e Considerações 6.1 Desafios técnicos (e.g., escalabilidade, precisão). 6.2 Considerações sobre o custo e desempenho. 6.3 Melhores práticas para uso efetivo do pgvector. 6.4 Futuro dos Bancos de Dados Vetoriais e Embeddings