Por Alex Santos.
Por Alex Santos.
Muitos especulam que a matéria Fluência de Dados também aparecerá na prova para Auditor Fiscal do Trabalho (AFT).
Antes de tudo, eu gosto de dividir as questões da área de tecnologia em 3 tipos: Teóricas, Teórico-Práticas e Práticas. Aquelas teóricas basta você ter lido o assunto e decorado, se você nunca leu ou não decorou, a questão fica difícil. São questões mais conceituais sobre o funcionamento de algo. As teórico-práticas vão exigir o entendimento de alguns conceitos e a aplicação de alguma fórmula em um novo contexto. Essas questões exigem que você entenda como uma coisa funciona e seja capaz de aplicá-la em uma situação diferente, exigem raciocínio, mas ainda não representam uma grande barreira para quem não é na área de TI.
Já as questões práticas são aquelas que mostram algum código e pedem a resposta ou alguma explicação sobre o que o código faz. Considero que essas são as mais difíceis, pois quem não é da área já lê a questão com um sentimento de insegurança no coração, isso pode prejudicar a sua chance de desvendar a questão. Portanto, leia toda questão com a seguinte frase em mente: "Eu quero, eu posso, eu vou acertar!"
Vamos as questões:
A primeira questão foi essa aqui:
56. A Análise de Componentes Principais (PCA) é uma técnica de transformação de dados que tem como objetivo encontrar as direções de maior variação nos dados, geralmente representadas pelos chamados componentes principais, e gerar novas representações dos dados. Assinale o objetivo principal dessa técnica.
(A) Discretização dos dados.
(B) Redução da dimensionalidade dos dados.
(C) Normalização dos dados.
(D) Padronização dos dados.
(E) Cálculo de distâncias entre os dados.
Eu classificaria em no assunto em Transformação de dados e Aprendizado de Máquina, pois o PCA é uma técnica muito utilizada em alguns algoritmos de aprendizado de máquina. Era uma questão Teórica com o gabarito B) Redução da Dimensionalidade dos Dados. Você precisava ter lido um pouco sobre o PCA e ter entendido que o objetivo dele é pegar um conjunto de dados e verificar quais são mais importantes, pensando que algo em 3D tem trê dimensões, x, y e z, certo? Altura, largura e profundidade.
Ocorre que alguns conjuntos de dados possuem várias "dimensões", o PCA identifica as mais importante e reduz, facilitando a análise.
Utilizando um referência da Amazon:
Algoritmo de Análise de componente principal (PCA)
O PCA é um algoritmo de machine learning não supervisionado que tenta reduzir a dimensionalidade (número de recursos) em um conjunto de dados enquanto mantém o maior número possível de informações. Para isso, ele encontra um novo conjunto de recursos chamados componentes, que são composições de recursos originais não correlacionados entre si. Eles também são limitados para que o primeiro componente represente a maior variabilidade possível nos dados, o segundo componente, a segunda maior variabilidade, e assim por diante.
Vamos para a segunda questão:
57 O objetivo principal do uso de técnicas de Agrupamento (Clustering) em Análise de Dados é dividir um grande conjunto de dados em subconjuntos, agrupando elementos similares em categorias distintas. Assinale a opção que indica o tipo de algoritmo que não se enquadra nessa descrição.
(A) K-Means.
(B) Gaussian Mixture Models (GMM).
(C) DBSCAN.
(D) K-Medoids.
(E) Regressão Linear.
Eu classificaria essa questão no assunto "Agrupamentos. Tendências. Projeções". Era novamente uma questão Teórica com o gabarito E) Regressão Linear. Você precisava conhecer os principais algoritmos de agrupamento ou clusterização e identificar que a Regressão Linear serve a outro propósito, sendo um algoritmo para fazer a projeção de um conjunto de dados.
Você não precisava conhecer cada um dos algoritmos de aprendizado não-supervisionado que a questão usou, bastava conhecer o que era e como funciona a regressão linear.
Seguimos para a terceira questão:
58 Considere a seguinte série temporal: {130, 140, 135, 145, 141, 148, 144, X}.
Aplicando o método de previsão de médias móveis de dois pontos de dados, o valor para a projeção do oitavo item (X) será
(A) 148.
(B) 146.
(C) 122.
(D) 138.
(E) 141.
Agora começou a ficar dificil né? Eu classificaria essa questão no assunto "Tendências. Projeções". Essa seria uma questão típica do tipo Teórico-Prática. Você precisava saber o que é e como aplicar o a previsão de médias móveis de dois pontos de dados e calcular o valor do oitavo item. Por favor, esse tipo de questão você precisa riscar a prova, não tente fazer de cabeça, essa questão aqui era fácil, mas em sua próxima prova pode utilizar números decimais ou uma média móvel com mais pontos. Não perca pontos com questões fáceis.
Como a questão indicou a média móvel de dois pontos, bastava você calcular a média dos últimos dois pontos: (148+144)/2, o próximo item teria a média móvel de 146. Gabarito (B) 146.
A série temporal de média seria: {135, 137.5, 140, 143.5, 144.5, 146}
Você consegue calcular aí?
Encerro por hoje com essas 3 questões, duas teóricas e uma teórico-prática ainda fácil. Ao todo a prova de analista tributário teve 15 questões de Fluência de Dados e quem estudou bastante esse assunto saiu na frente da concorrência.
Em breve volto aqui com as demais questões.
Deixo abaixo o conteúdo completo que veio no edital para esse tema.
Conteúdo previsto no edital
Fluência em dados: conceitos, atributos, métricas, transformação de Dados. Análise de dados. Agrupamentos. Tendências. Projeções. Conceitos de Analytics. Aprendizado de Máquina. Inteligência Artificial. Processamento de Linguagem Natural. Governança de Dados: conceito, tipos (centralizada, compartilhada e colegiada). Ciência de dados: Importância da informação. Big Data. Big Data em relação a outras disciplinas. Ciência dos dados. Ciclo de vida do processo de ciência de dados. Papeis dos envolvidos em projetos de Ciência de dados e Big Data. Computação em nuvens. Arquitetura de Big Data. Modelos de entrega e distribuição de serviços de Big Data. Plataformas de computação em nuvem para Big Data. Linguagens de programação para ciência de dados: linguagem Python e R. Bancos de dados não relacionais: bancos de dados NoSQL; Modelos Nosql. Principais SGBD’s. Soluções para Big Data.