Ferramentas para ETL para linux

jaymeproni1 · May 30, 2018, 2:04pm

Alguém aqui faz uso de ferramentas para ETL para linux. Poderia recomendar por favor?

nathan · May 30, 2018, 2:45pm

Você quer exportar dados de quais ferramentas? Acho que isso pode dar uma filtrada de qual ferramenta utilizar.

Eu não utilizo linux mas acredito ser o caminho para conseguir o que precisa :-)

jaymeproni1 · May 30, 2018, 3:12pm

Chat Facebook, E-mails, SAC B2W, VTEX API, Nosso ERP, Google Shopping, Google Analytics, Google Meu Negócio, Navegg, Twitter, Facebook(fanpage) e WhatsApp, Google Plus, Reclame Aqui e Scrap de Sites de E-coomerce e de conteúdo. Não verifiquei a API do Instagram ainda.

Finalidades:

- Criar base de dados reais para treinamento de chatbot;

- Análise SEO: determinação de palavras-chave e outros quesitos (usando comparação)

- Precificação automática

- Determinação de região de marketing pago

- Outros

- Análise de histórico de cliente para predição de compra/venda/mercado esquecido

- Outros

Te mais fonte, mas eu não botei no papel ainda. Pensei nisso hoje e acredito ser interessante.

Observação:

- O chat me permite colocar um robô em quatro canais de comunicação;

- Já a preficicação, me permite analisar através do BS Model (modelo Black Scholes) a variação de estratégias de preço para o varejo.

O BS é para precificação de ações de bolsa que estão em constante especulação. Tenho ajustado o BS de forma a pensa que a especulação é o blá blá blá do cliente e qual o impacto disso no produto. Qual atitude deve-se tomar: Retirar da venda? Trocar o canal? Trocar a região? Aumentar o prezo e/ou prazo, reduzir. Como capitalizar na crise.

O caso dos caminhoneiros. Como agir em cima disso? Qual deveria ser a dinâmica para esse evento. Como fazer o cliente comprar sem previsão para receber e ainda mantê-lo satisfeito. A ideia é essa. Através dessas e de outras fontes de dados estudar cenários para antecipar eventos ou decisões.

Eu já executo o processo de ETL com linguagem Python e suas libs, mas é trabalhoso demais montar a estrutura de coleta de dados. uma ferramenta reduziria muito o tempo de coleta e eu teria mais tempo para fazer a transformação e limpeza dos dados.

Eu nem pensei no modelo dimensional dos dados ainda. Estou preocupado com a coleta de dados apenas. Um coisa de cada vez.

jaymeproni1 · June 1, 2018, 4:38pm

@Augusto Garrucho , boa tarde.

Você poderia verificar com o time da VTEX uma recomendação.

nathan · June 1, 2018, 10:09pm

Conversei com o José da LINKAPI sobre seu caso, talvez eles possam te ajudar:

José Silva

+55 11 99667-2403

jose.silva@linkapi.com.br

jaymeproni1 · June 2, 2018, 12:53pm

Vou checar. Agradecido Nathan. Diga-se de passagem, eu estou verificando a Talend aqui. (https://www.talend.com/)

jaymeproni1 · June 13, 2018, 2:47pm

Vou aderir, pelo menos por agora as tecnologias para a infra em BI:

Hadoop + Spark + Hive + Pig (teste)
Mongo, Cassandra (teste) e PostgreSQL
Python e R
Talend Studio

Tudo isso em nó, pelo menos dois clusters de três nós cada. Onde cada um custer é o ETL para o data lake (staging area) e o outro para o DW + BI + BA.