Ferramentas para ETL para linux

Alguém aqui faz uso de ferramentas para ETL para linux. Poderia recomendar por favor?

Você quer exportar dados de quais ferramentas? Acho que isso pode dar uma filtrada de qual ferramenta utilizar.

Eu não utilizo linux mas acredito ser o caminho para conseguir o que precisa :-)

Chat Facebook, E-mails, SAC B2W, VTEX API, Nosso ERP, Google Shopping, Google Analytics, Google Meu Negócio, Navegg, Twitter, Facebook(fanpage) e WhatsApp, Google Plus, Reclame Aqui e Scrap de Sites de E-coomerce e de conteúdo. Não verifiquei a API do Instagram ainda.

Finalidades:

- Criar base de dados reais para treinamento de chatbot;

- Análise SEO: determinação de palavras-chave e outros quesitos (usando comparação)

- Precificação automática

- Determinação de região de marketing pago

- Outros

- Análise de histórico de cliente para predição de compra/venda/mercado esquecido

- Outros

Te mais fonte, mas eu não botei no papel ainda. Pensei nisso hoje e acredito ser interessante.

Observação:

- O chat me permite colocar um robô em quatro canais de comunicação;

- Já a preficicação, me permite analisar através do BS Model (modelo Black Scholes) a variação de estratégias de preço para o varejo.

O BS é para precificação de ações de bolsa que estão em constante especulação. Tenho ajustado o BS de forma a pensa que a especulação é o blá blá blá do cliente e qual o impacto disso no produto. Qual atitude deve-se tomar: Retirar da venda? Trocar o canal? Trocar a região? Aumentar o prezo e/ou prazo, reduzir. Como capitalizar na crise.

O caso dos caminhoneiros. Como agir em cima disso? Qual deveria ser a dinâmica para esse evento. Como fazer o cliente comprar sem previsão para receber e ainda mantê-lo satisfeito. A ideia é essa. Através dessas e de outras fontes de dados estudar cenários para antecipar eventos ou decisões.

Eu já executo o processo de ETL com linguagem Python e suas libs, mas é trabalhoso demais montar a estrutura de coleta de dados. uma ferramenta reduziria muito o tempo de coleta e eu teria mais tempo para fazer a transformação e limpeza dos dados.

Eu nem pensei no modelo dimensional dos dados ainda. Estou preocupado com a coleta de dados apenas. Um coisa de cada vez.

@Augusto Garrucho​ , boa tarde.

Você poderia verificar com o time da VTEX uma recomendação.

Conversei com o José da LINKAPI sobre seu caso, talvez eles possam te ajudar:

José Silva

+55 11 99667-2403

jose.silva@linkapi.com.br

Vou checar. Agradecido Nathan. Diga-se de passagem, eu estou verificando a Talend aqui. (https://www.talend.com/)

Vou aderir, pelo menos por agora as tecnologias para a infra em BI:

  • Hadoop + Spark + Hive + Pig (teste)
  • Mongo, Cassandra (teste) e PostgreSQL
  • Python e R
  • Talend Studio

Tudo isso em nó, pelo menos dois clusters de três nós cada. Onde cada um custer é o ETL para o data lake (staging area) e o outro para o DW + BI + BA.