Correlação é diferente de Causalidade!

Correlação é diferente de Causalidade!

Correlação é diferente de Causalidade!

Apesar da RELAÇÃO entre a posição do gato e o telhado amassado, o bom senso sabe que o gato não CAUSOU o amasso. O bom senso aqui vem do conhecimento que todos temos sobre o peso de gatos e a dureza de metais.

Bom senso é fruto de dados analisados, conhecimento, sabedoria, luxos que nem sempre estão disponíveis. Não para qualquer assunto, menos disponíveis ainda para assuntos longínquos, complexos e novos.

Fake news e “narrativas” mirabolantes exploram astutamente essa falta de dados e conhecimento das pessoas com o objetivo de fabricar uma causalidade na cabeça delas — “isto acontece por causa daquilo” — quando na verdade mal existe uma relação.

Agora imagine que você acabou de chegar no planeta, não conhece peso de gatos e tem a impressão que esses telhados são feitos de papel, pois aparentemente amassam como papel. Imagine que alguém adiciona um “malditos gatos” à imagem e que você recebe isso repetidas vezes, de formas diferentes. É bem provável que você comece a odiar os gatos “POR CAUSA do mal que fazem”. É assim que funciona nosso viés — começa com falta de informação — e é esta a fraqueza humana explorada por notícias falsas e memes em geral.

Cientistas de dados, estatísticos, economistas e pessoas que estudam fenômenos naturais e sociais, sempre, SEMPRE, precisam se lembrar que correlação observada não implica em causalidade para não cairem na armadilha do viés, que leva a conclusões erradas.

A foto do gato apareceu neste tweet: https://twitter.com/packetlevel/status/1451584653748408323

Mais correlações espúrias aqui:

https://tylervigen.com/spurious-correlations

https://pt.wikipedia.org/wiki/Relação_espúria

Publicado também no meu LinkedIn e Facebook.

Canção Um Índio, de Caetano

Esta canção voltou à minha cabeça creio que por causa das coisas que ando lendo sobre mudança climática, decadência social de grande quantidade de pessoas etc.

Fala de uma Terra depredada pela civilização e aí vem um índio-messias que deixa todos atonitos por falar e fazer nada mais do que o óbvio.

Uma pessoa — Caetano Veloso — que escreve uma letra profética como esta, já em 1976, 45 anos atrás, merece todo o meu respeito.


Um índio descerá de uma estrela colorida e brilhante
De uma estrela que virá numa velocidade estonteante
E pousará no coração do hemisfério sul
Na América, num claro instante
Depois de exterminada a última nação indígena
E o espírito dos pássaros das fontes de água límpida
Mais avançado que a mais avançada
Das mais avançadas das tecnologias
Virá, impávido que nem Muhammed Ali, virá que eu vi
Apaixonadamente como Peri, virá que eu vi
Tranquilo e infalível como Bruce Lee, virá que eu vi
O axé do afoxé, filhos de Ghandi, virá
Um índio preservado em pleno corpo físico
Em todo sólido, todo gás e todo líquido
Em átomos, palavras, alma, cor, em gesto, em cheiro
Em sombra, em luz, em som magnífico
Num ponto equidistante entre o Atlântico e o Pacífico
Do objeto, sim, resplandecente descerá o índio
E as coisas que eu sei que ele dirá, fará, não sei dizer
Assim, de um modo explícito
Virá, impávido que nem Muhammed Ali, virá que eu vi
Apaixonadamente como Peri, virá que eu vi
Tranquilo e infalível como Bruce Lee, virá que eu vi
O axé do afoxé, filhos de Ghandi, virá
E aquilo que nesse momento se revelará aos povos
Surpreenderá a todos, não por ser exótico
Mas pelo fato de poder ter sempre estado oculto
Quando terá sido o óbvio

Publicado também no Facebook.

Aos que foram nas manifestações golpistas de 7 de Setembro

Eu conheço gente que foi na manifestação golpista do 7 de Setembro. Gente que foi lá combater “o sistema”, convocados pelo próprio sistema. Sendo que quem chamou — o presidente fraco e demente — usa o sistema em sí (Medidas Provisórias, PGR, Congresso, foro privilegiado, dinheiro público etc) prá proteger pessoalmente ele próprio e sua própria família.

É um amontoado de contradições e incongruências distópicas que essas pessoas não entendem e isso as faz passarem uma vergonha inacreditável.

Sinto um misto de pena e vergonha alheia dessas pessoas.

Também no meu Facebook.

Cuide de suas finanças

Quando sai da CI&T (grande empresa) uns meses atrás, mandei um e-mail de despedida pros colegas que tinha este trecho:

Prá fechar, eu queria deixar aqui um conselho bem anti-trabalho. Sobre dinheiro, gaste seu tempo de maior valor (depois de família, viagens, amores etc) cuidando de seus investimentos financeiros. Aprenda a operar na bolsa de valores, aprenda sobre taxas de juros, rentabilidade, arriscar um pouco com criptoativos, montar um portfolio rentável com risco balanceado. Não terceirize isso para os bancos de investimentos. No longo prazo, são essas coisas — e não exatamente trabalho eterno — que vão garantir uma aposentadoria tranquila para você. Quanto antes começar, melhor.

Conta de padeiro: se você cuidar direitinho de seus investimentos, se fizer rendimento médio de 7%, 10% ao ano, em 10 ou 12 anos você dobra o seu capital. Se começar cedo, antes dos filhos nascerem, até chegarem a idade adulta você quadruplica seu capital. Se deixar os bancos de investimento cuidarem de suas finanças, você renderá só uns 3% ao ano.

Pense nisso.

Também no meu LinkedIn.

Good luck to Kyndryl

To all friends that I’ve worked with at IBM and that are now moving to Kyndryl, I wish you success and good luck. The Cloud and IT services opportunity will continue to be huge forever. The countdown you have promoted here was warm and vibrant.

For the still-on-IBM friends, please keep on doing such a great company that always was and continues to be a brilliant reference to the world, not just IT. IBM is an unforgettable school for me and for anybody else that has spent even just a minute working there.

Business worldwide, as we know it, is shaped by companies such as IBM, even if you’ve never heard about it (well, that’s quite impossible).

Also on LinkedIn.

Meus Alunos de Dados

Que satisfação ver meus alunos da Digital House ingressando em novas empresas, em cargos de dados.

Como eu vivo dizendo a eles, Dados é uma oportunidade continental, equivalente a descoberta do Novo Mundo em 1492. E é também como sexo de adolescente: todo mundo diz que está fazendo, mas na verdade ninguém, praticamente ninguém mesmo, está fazendo direito.

E é essa geração de profissionais de dados que farão acontecer.

Mãos à obra!

Também no LinkedIn.

Zona de Conforto ou Empreender?

Numa discussão ali argumentavam que a pessoa precisa ganhar dinheiro o suficiente para passar a ser um empreendedor, para sair da zona de conforto, para sempre evoluir.

Não posso concordar menos com isso. Qual é o problema com a zona de conforto? É o ministro da economia que quer que tudo sempre evolua, não o indivíduo. Por que não seria válido a pessoa ganhar dinheiro suficiente para levar uma vida confortável sendo meramente empregada numa empresa?

Empreender envolve muita responsabilidade e dedicação. Isso certamente te remunera no médio prazo, se você também tiver sorte. Mas é incrivelmente estressante, tira sua tranquilidade e não deve ser a única forma de ter uma boa vida numa sociedade avançada da nossa era.

As pessoas querem viver em paz, viajar com os filhos, estender os finais de semana, ter dias de folga, consumir cultura, cuidar da saúde, dormir bem. Empreendedor estressado e que “sempre busca evoluir” tende a não ter nada disso nos anos bons de sua vida.

Também no LinkedIn.

Como Escolher e Comprar um Laptop

Como Escolher e Comprar um Laptop

Um laptop funcional, poderoso e elegante para a maioria das pessoas custa em torno de $1000. Um MacBook da Apple nessa faixa de preços deve atender bem 95% das pessoas: navegar na Internet, editar documentos, editar fotos/videos/multimídia simples, assistir a filmes/videos, jogos comuns e ter bateria de longa duração. Mas se você quer ir de Windows, prepare-se para atravessar a nado um oceano de ofertas confusas que fabricantes despejam no mercado em seu esforço para se diferenciarem para conquistar clientes, com características que o consumidor poderia dispensar.

Read More

How programmers should record time

We the data people immediately identify a poorly designed system when we see it handling date and time as plain local time, instead of the number of seconds since January 1st 1970 of time zone 0.

  • This post was published on 1,626,425,523 (UTC, always UTC).
  • Jesus was born -62,399,513,432.
  • Man visited the moon between -14,552,880 and 93,172,200.
  • And so on…

Just your daily dose of nerdy facts…

Also on my LinkedIn

What means to be Driven By Data

I’ve seen companies saying they have Big Data because they implemented Hadoop or a data lake and maybe Spark.

That’s just wrong.

Big Data, or more precisely, to be Data Driven, is a state where the data a company produces can be reused, as soon as possible, to optimize itself. And there are many ways to reuse data: all meetings and decisions happen with abundance of data, or recently generated data instantly feeds machine learning algorithms to optimize transactions, just to name a few situations.

To be Driven by Data is part culture and part infrastructure. On the infrastructure side, IT teams still struggle with limited visions about how data should flow pervasively and how access should be granted. They fear about security and performance while they should fear of missing out the data opportunity.

Data Streaming is a breakthrough recent technology that is here to help with more fluent data access. For an agile and effective data architecture, Data Streaming is much more strategic and important than just a bigger data warehouse because it is the component that can unleash your data and finally make it useful.

On my LinkedIn

Cartão de Crédito e Educação Financeira

Cartão de Crédito nada mais é do que empréstimo de dinheiro pré-aprovado a juros altíssimos, disponível na hora que se deseja/precisa usar.

Sua fatura mensal é uma comodidade banal para quem tem dinheiro, mas é a corda no pescoço para o pobre no caixa do supermercado com a compra de comida para a família. Na farmácia e na loja de indulgências também. Uma corda que sempre aperta mais e ele não vê perspectiva de soltar. Mesmo que num mês irreal ele não gaste nada, os juros farão trazer uma fatura sempre mais alta.

Read More
Se eu fosse rico

Se eu fosse rico

Todo mundo quer ser rico e eu também.

E aí numa conversa descobri que meu ideal sagitariano e estóico de riqueza não é muito comum.

Prá começar, carro de luxo nem pensar. Prá que continuar preocupado com multas, batidas, lugar prá estacionar, depreciação? Quando eu for rico, só vou andar de táxi. Atravessar a cidade prá visitar a irmã? Táxi. Viagenzinha pro interior com a família? Táxi. Prá ver a paisagem, ler, conversar, cochilar.

Refeições eu faria em restaurantes. Todas as 3 refeições do dia. Todos os dias. Nunca mais me preocuparia se tá faltando ovo e brócolis e nem se as coisas na geladeira já vão estragar. Louça suja não existiria para mim. E o melhor: nunca mais teria que pensar 3 vezes ao dia o que preparar para as crianças comerem. Eu quero é ver o cardápio. Mas aí eu seria tão rico que também teria nutricionista prá prestar serviço ao vivo de montar refeição saudável e balanceada em todos os lugares que fossemos comer.

Cobertura? Casa de luxo? Faço nenhuma questão porque ainda teria que me preocupar com decoração que impressione amigos, manutenções sem fim, despensa de comida e material de limpeza, o que acumular e o que jogar fora. Quero não. Eu moraria em hotel mesmo. Cinco estrelas, claro. Tipo suíte do Copacabana Palace ou do Tangará, que já provei e aprovei para morar longas temporadas. Enjoei da decoração, do bairro, da cidade? Fácil, é só pagar a conta e ir a outro hotel. Ou resort. Ou outro lugar com serviço completo, daqueles que você sai para tomar café e volta e já tá tudo arrumado e dobrado.

“Ah, mas alguma hora cê não vai querer voltar prum canto que é só seu?” Não. Entendo que “voltar” presume “ter ido embora”, e creio que nunca fui embora de mim mesmo. A nossa morada somos nós mesmos, né não?!

“Ah, mas onde você vai guardar suas coisas?” Na nuvem e numas 2 malas de roupas, ou menos. O resto das coisas eu abriria mão imediatamente por esse estilo de vida desprendido e sem planejamento.

“Ah, mas aí cê estraga os filhos”. Verdade, eu precisaria pensar melhor nessa parte, mas dá uma preguiça…

Dizem que eu tenho uma concepção de pobre sobre essa riqueza pretérita. Chame do que quiser, eu só não quero compromissos, responsabilidades, ter que fazer compras, contratar manutenções para eletrodomésticos etc. Desprendimento seria o centro. Até a própria riqueza seria um acessório só para viabilizar conforto e mais desprendimento.

Pronto falei, podem jogar as pedras.

Publicado também no Facebook.

Diversidade, mulheres e homens no trabalho

Se homens nadam e mulheres voam, não vamos esperar que mulheres queiram nadar e vice-versa.

É inegável que mulheres e homens são diferentes. Eu não sei como e porque isso acontece. E me é difícil entender se essas diferenças (ou partes delas) são causadas pela sociedade e ambiente (preconceitos) ou se são naturais. Só sei que não podemos mais tolerar as diferenças causadas claramente por preconceitos, enquanto devemos sim estimular e aproveitar diferenças naturais para que cada ser humano realize o máximo de sua natureza e potencial.

Tudo isso também se aplica a outros tipos de diversidade. LGBT, PcD, grupos étnicos etc.

— extraído de comentário que escrevi num post da colega Cintia Barcelos

Também no LinkedIn

Nação dos Nômades Digitais

Me colocaram num grupo de nômades digitais cujas discussões são nada menos que absolutamente inspiradoras.

São pessoas desprendidas e provavelmente sem filhos que têm profissões que levam de forma remota, pela Internet, e que passam a vida viajando.

Discutem se os próximos meses devem passar nas Maldivas, Tenerife ou Tailândia. Contam o paraíso que foi tal e tal lugar onde ficaram N meses.

Não é algo novo, mas a cultura do trabalho remoto recebeu o aval maior pela pandemia e a Nação dos Nômades Digitais deve crescer nos próximos anos.

Claro que algumas coisas ajudam: ter renda em moeda forte — para pagar barato por produtos e serviços em lugares distantes do planeta —, ter um trabalho que permite essa situação — ou ser rico mesmo — e não ter filhos — para ser desprendido e ganhar agilidade para ir e vir.

Mesmo achando que já vivo no paraíso, preciso confessar que esse modo de viver me atrai e faço planos secretos de catar a namorada e virarmos nômades assim que os filhos alcançarem a alta adolescência.

Alguns lugares que eu voltaria ou passaria com prazer uma temporada:


Hibiki, Tashkent, Nova York, interiorizão dos EUA, Piemonte, Tenerife, Hamburgo, Carolina do Norte em maio, Addis Abeba, Ibiza, Belém do Pará…

E você?

Do meu LinkedIn

Renúncia Já

Eu não concordo com essa tese de que “o bozo tá aí por causa do petêêê”. É tentativa de lacração batida, surrada e simplória de mais. Só mané compra isso.

O genocida tá aí porque os eleitores jogaram a toalha depois de terem sido massacrados com anos de manchetes sobre 1 assunto singular e monotemático — corrupção — sem ter a capacidade de entender o contexto político do Brasil onde reina o famigerado Presidencialismo de Coalizão e onde a PGR era independente pela 1ª vez.

O mentecapto tá aí porque o assunto de corrupção fez as pessoas só se preocuparem com dinheiro e esquecerem completamente a importância de políticas públicas e projetos sociais, ambientais, educacionais e de saúde, coisas importantes que o pequi-roído mostrou inépcia já na campanha de 1º turno e em seu programa escrito de governo.

O infame tá aí porque ele é populista. Aproveitou astutamente toda essa situação, promete o impossível, o povo tem zero educação política e acreditou. Prova é que inúmeros votaram nele já no 1º turno. Ele tá aí porque eleitores são, em geral, iletrados políticos. Não fez muita diferença terem alta formação em medicina, economia ou ciência de dados.

O sádico tá aí porque eleitores jogaram a toalha, porque são analfabetos políticos, porque só se preocuparam com dinheiro, porque caíram na lábia do populista e talvez também por consequência de gestões passadas, as que vão até o século 16.

Eu lamento muito essa situação e eu espero que da próxima vez eleitores se preparem melhor para votar, começando por se livrarem de alguns vícios mentais e conceitos pré-fabricados, começando por sermos adultos e não terceirizar a culpa. Não falta informação gratuita, analítica e de boa qualidade.

#RenúnciaJá

Também no meu Facebook.

What is Apache Spark

Apache Spark is like Python’s Pandas and is like SQL databases. It can manipulate datasets, filter, integrate, transform.

But Spark was designed from scratch with horizontal scalability and parallelism in mind, which makes it capable of handling datasets with billions or even unknown number of rows — even if a bit less flexible than Pandas.

This is not new in the industry. Enterprise editions of commercial SQL databases are parallel and scalable since a very long time, being also very expensive in all levels of the stack: service/support, software and hardware.

But Spark is free software. And can use Hadoop — also a free software — as scalable and highly available storage, on cheap commodity hardware. In addition, it has a vibrant community and a democratic ecosystem of services and support.

As with all Open Source, Apache Spark changes the economic landscape of massive data processing systems market, taking money out of a few proprietary HW and SW vendors and pulverizing it locally on people and support.

From my LinkedIn

Aborto protege mulheres e meninas

A questão da legalização do aborto não tem nada a ver com proteger ou não bebes, levar para este lado é apelação errada e desonesta. A questão é a realização de que mulheres e meninas eventualmente farão aborto DE QUALQUER MANEIRA por uma opção de vida ou de situação social, não importa o que você ache disso, não nos cabe julgá-las. Por isso, a sociedade precisa garantir que elas poderão fazê-lo de forma segura, acessível, acolhida e não clandestina.

É uma questão de proteger a vida e a saúde de mulheres, meninas e filhas.

Também no meu Facebook

Achados e perdidos na praia de Calhetas

Achados e perdidos na praia de Calhetas

Ontem eu perdi na praia chave do carro, chinelos e máscara de mergulho.

A chave achei metros de distância embrulhada numa toalha nada a ver.

Os chinelos, depois de ½ hora procurando desesperado, o amigo me diz que foram usados prá marcar os limites do gol 50m prá lá. E tavam lá mesmo, enfiados bonitinhos na vertical na areia.

A máscara de mergulho a onda me levou num belo dum caldo que arruinou os planos de snorkeling. 3 horas depois a maré trouxe de volta e meu filho achou.

Na volta encontrei a redenção no sorvete de doce de abóbora com coco no Rocha de Maresias.

Praia linda, dia perfeito, final feliz.

Publicado também no Facebook.

Sonhos de uma viagem pós-pandemia

Saudade de uma bela viagem de férias. Se a pandemia nos ancora em casa, podemos pelo menos lembrar as passadas e planejar as próximas. Abaixo estão as memórias de algumas viagens que fiz e farei. Quero me inspirar com as suas também.

Saudade de férias em hotel de luxo de alguma praia europeia, Biarritz (que só passei num dia de chuva), Noli na costa da Ligúria, ou a que fiz em Sitges na Cataluña, mesmo que a trabalho. Ilha da Madeira, Tenerife, Ibiza, me aguardem!

Read More

List of Hard Skills for Data Professionals

2020 list of desired hard skills for data professionals. From the most essential to the more difficult ones.

  1. The English language
  2. SQL
  3. Spreadsheets
  4. Descriptive Statistics (median, variance, correlation etc)
  5. Notions of Data visualization
  6. Notions of Time Series
  7. Handling computer files and folders (this one entered the list because we observed many people simply don’t have it)
  8. Notions of digital information storage (numbers and their limits, time, time zones, text, Unicode, compression)
  9. Probability
  10. Probability Distributions
  11. Linear and Logistic Regressions
  12. Python libraries ecosystem, pip, PyPi
  13. Python’s Pandas, DataFrame and Series wrangling
  14. Linux and the computer command line
  15. NoSQL, JSON, YAML, XML, SVG, APIs, HTTP, protocols and data representation
  16. Cloud and infrastructure as code
  17. Notions of symmetric and asymmetric cryptography, digital signatures and applications
  18. “Big data” systems (Hadoop, Spark)
  19. Software Engineering (classes, modularisation, versioning, containerisation, packaging, DevOps)
  20. Inferential Statistics (confidence intervals, hypothesis testing)
  21. Machine Learning algorithms for regression and classification
  22. Calculus and Numerical Calculus (integrals, derivaties)
  23. Natural Language Processing
  24. Computer vision
  25. Neural Networks

Please remember this list has only hard skills. Ethics, domain and industry knowledge, communication are very important soft skills that won’t fit in this list.

Generally speaking, beginning of the list is where Data Analysts are (up to ≈11). Data Engineers get up to the middle of list (up to ≈18). And Scientists get all the list.

There is also the following graph that I’ve produced:

data professions competencies
Leitor de dedo não

Leitor de dedo não

Podemos agradecer ao virus corona por ajudar a erradicar os leitores de dedo para uso banal como catraca de academias, recepções de prédios comerciais e residenciais etc. Eu nunca relei meus dedos nesses leitores e você deveria fazer o mesmo, pois da perspectiva de Segurança da Informação aquilo é um engodo. E da perspectiva de Higiene, é nojento.

Leitores de dedo são uma “maravilha” para armazenar e socializar germes, bem como sucos vitais que todos nós expelimos (suor e todo tipo de meleca). Se você está envolvido em projetos que implantam esse tipo de tecnologia, prefira outras biometrias superiores que já estão em todo lugar, como reconhecimento facial de múltiplas câmeras.

Este post tem a objetiva intenção de te dar asco de leitores de dedo.

Publicado também no Facebook.

O que vegetarianos realmente preferem

O que vegetarianos realmente preferem

O que vegetarianos realmente preferem

Sobre esse tweet, eu queria dizer que não é bem isso; deixe-me explicar do ponto de vista de um vegetariano.

Nós VGs, passamos muito bem sem carne. E também nem faço questão da tal proteína vegetal texturizada (imitação de carne) porque não é assim “gostoso” e é muito processado.

A questão central é que é muito fácil fazer comida gostosa com carne. Só por um salzinho e fritar que fica ótimo. Dá muito mais trabalho cozinhar gostoso sem carne, exige mais temperos, mais conhecimento de pratos internacionais, mais ingredientes, mais tempo de preparo etc. E os estabelecimentos geralmente não estão preparados para isso, ou não têm tempo, ou seus cozinheiros têm conhecimento elementar (só sabem cozinhar gostoso com carne). Isso acontece com todas as pessoas que cozinham para nós, em todos os lugares e épocas da nossa vida.

Read More

Jupyter and Data Science on a Mac (without Anaconda)

macOS Catalina doesn’t ship with Python 3, only 2. But you can still get 3 from Apple, updated regularly through system’s official update methods. You don’t need to get the awful Anaconda on you Mac to play with Python.

Python 3 is shipped by Xcode Command Line Tools. To get it installed (without the heavy Xcode GUI), type this in your terminal:

xcode-select --install

This way, every time Apple releases an update, you’ll get it.

Settings window will pop so wait 5 minutes for the installation to finish.

If you already have complete Xcode installed, this step was unnecessary (you already had Python 3 installed) and you can continue to the next section of the tutorial.

Clean Old Python Modules

In case you already have Python installed under your user and modules downloaded with pip, remove it:

rm -rf ${HOME}/Caches/com.apple.python/${HOME}/Library/Python \
${HOME}/Library/Python/ \
${HOME}/Library/Caches/pip

Install Python Modules

Now that you get a useful Python 3 installation, use pip3 to install Python modules that you’ll need. Don’t forget to use –user to get things installed on your home folder so you won’t pollute your overall system. For my personal use, I need the complete machine learning, data wrangling and Jupyter suite:

pip3 install --user sqlalchemy
pip3 install --user matplotlib
pip3 install --user pandas
pip3 install --user jupyterlab
pip3 install --user PyMySQL
pip3 install --user configobj
pip3 install --user requests
pip3 install --user seaborn
pip3 install --user bs4
pip3 install --user xgboost
pip3 install --user scikit_learn

But you might need other things as Django or other sqlalchemy drivers. Set yourself at home and install them with pip3.

For modules that require compilation and special library, say crypto, do it like this:

CFLAGS="-I/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.7/include" \
LDFLAGS="-L/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.7/lib" \
pip3 install --user pycrypto

Use Correct Python 3 Binary

For some reason, Apple installs many different Python 3 binaries in different places of the system. The one that gets installed on /usr/bin/python3 has problems loading some libraries and instrumentation with install_name_tool would be required. So lets just use the binary that works better:

export PATH=/Library/Developer/CommandLineTools/usr/bin:$PATH

Run Jupyter Lab on your Mac

Commands installed by pip3 will be available in the ~/Library/Python/3.7/bin/ folder, so just add it to your PATH:

export PATH=$PATH:~/Library/Python/3.7/bin/

Now I can simply type jupyter-lab anywhere in the terminal or command line to make it fire my browser and get a Jupyter environment.

More about Xcode Command Line Tools

Xcode Command Line Tools will get you a full hand of other useful developer tools, such as git, subversion, GCC and LLVM compilers and linkers, make, m4 and a complete Python 3 distribution. You can see most of its installation on /Library/Developer/CommandLineTools folder.

For production and high end processing I’ll still use Python on Linux with my preferred distribution’s default packages (no Anaconda). But this method of getting Python on macOS is fastest and cleanest to get you going on your own data scientist laptop without a VM nor a container.

Projeto anti-crime de Moro

Um conhecido do ex-trabalho, alto executivo, boa gente de mais, mandou uma propaganda do governo sobre o projeto de lei anti-crime do Moro argumentando que não apoiar o projeto é como ser a favor de crime e corrupção.

Respondi que não há quem goste de crime e corrupção. Mas que juristas e especialistas chamam tal projeto de “anti-medo” porque ele é de fato inefetivo contra o crime. E que, desnecessária e inconstitucionalissimamente, coloca o policial num nível de super-ser acima da lei com licença para matar, que dá medo. Que eu não apoio tal projeto mas que, como ele, sou também contra crime e corrupção. Recomendei também ouvir especialistas no assunto, não só propaganda do governo.

Me des-amigou na hora.

¯\_(ツ)_/¯

Também no meu Facebook.

Restaurantes bem brasileiros de São Paulo

Restaurantes bem brasileiros de São Paulo

No circuito dos restaurantes bem-brasileiros de São Paulo, lanço aqui 3 que são notáveis: o Capim Santo, o Jiquitaia e o Tordesilhas. Valorizam tudo da nossa cultura, culinária, música, decoração e sobremesas e por isso são também ótimas opções para turistas que visitam a cidade.

A foto é do maravilhoso curry de camarão com leite de coco do Capim Santo, onde há também um delicioso caldinho de milho entre outras entradas muito elaboradas. Do Tordesilhas, lembro da maravilhosa seleção de cachaças, loucas para se misturarem aos cajus e maracujás, e também os bobós, moquecas, farofas, xinxins e pimentas. O Jiquitaia também tem batidas inusitadas, ingredientes brasileiríssimos e uma mão no fusion.

Toda baianidade também se experimenta no Rota do Acarajé, lá na Santa Cecília, onde além dos pratos impecáveis, oferecem um extenso cardápio de cachaças e batidas de frutas. O Mestiço também tem alma brazuca mas criou uma ponte de sabores com a Ásia remota.

E não se pode esquecer os milhares de restaurantes de esquina paulistanos que tipicamente e religiosamente servem toda 2ª virado à paulista e feijoada na 4ª. Mas não se comparam a busca da perfeição em todos os sentidos dos que citei no começo.

E você, teria mais dicas ?

Publicado também no Facebook.

O problema dos agrotóxicos

O problema dos agrotóxicos, se bem entendi (e não sou especialista no assunto), é menor para quem consome os alimentos e maior, bem maior, para quem os aplica, quem mora perto de onde são aplicados e principalmente para os insetos bem-vindos perto das lavouras, como as abelhas, que são essenciais para todo o ciclo das plantas.

Read More
Oráculos do século XXI: O Papel do Cientista de Dados

Oráculos do século XXI: O Papel do Cientista de Dados

A profissão de Cientista de Dados ganhou notoriedade e eminência nos últimos anos. Uma figura que tem saído do círculo hipster das startups e invadindo empresas de todos os tamanhos. Até os mais tradicionais executivos já compreendem que, tendo seu negócio entrando na era da informação e se tornado uma usina de dados, há que se lançar mão de profissionais especializados, que saibam como tirar proveito de todos esses dados.

Mas será que está claramente compreendido qual é o papel do Cientista de Dados? Sabe-se o que esperar dele? Consegue-se usufruir de todo o seu potencial?

Enquanto os outros profissionais da área de dados, se aproximam ou mais do TI (como o engenheiro de dados) ou mais do negócio (como o analista de dados), o Cientista trabalha o tempo todo junto às duas áreas.

Enquanto os outros profissionais de dados tratam da curadoria, performance, qualidade, apresentação de informações que existem, o foco principal do Cientista de Dados é calcular tendências e inferir dados que ainda não existem.

Os Dados que Não Existem e seu Valor para o Negócio

O Cientista de Dados está próximo do negócio. Entende sua semântica, desafios e necessidades. E tem plena consciência das informações que tem a sua disposição, sejam privadas ou públicas. E quais novas informações pode derivar delas. Navegar nesses dois mundos — dados e negócios — permite ao Cientista de Dados fazer melhores perguntas e já trazer respostas sobre o negócio — respostas que são os dados que ainda não existem. Por exemplo:

  • Quem são os clientes que têm mais tendência para comprar produto A ou B ?
  • Quais estudantes têm propensão para abandonar o curso? Para cada um deles, quais os fatores que mais influenciam o abandono ?
  • Quais clientes têm propensão para cancelar contratos e por que? Para evitar, devo dar desconto, mudar o atendimento ou resolver certo problema ?
  • Quais características físico-químicas (densidade, cor, concentração de álcool) de um determinado vinho influenciaram positivamente sua nota? Quais características influenciaram negativamente ?
  • Quais característica fisiológicas de um bebê prematuro estão relacionadas a doenças que se desenvolvem mais tarde em sua vida ?
  • Quais imóveis estão super-valorizados? E quais têm preço muito bom e representam uma oportunidade ?
  • Como salvar proativamente o paciente de um infarto ?
  • No meu conjunto de processos judiciais, quais tenho mais propensão de ganhar? E de perder ?
  • Qual é o melhor equilíbrio entre risco e oportunidade ?
  • Qual equipamento vai falhar e quando ?
  • Quem está me fraudando e quais são os padrões comportamentais de fraudadores ?
  • Quando terei um pico incomum de chamados no meu call center ?
  • Quais grupos de clientes tenho? Como agrupá-los por características ocultas comuns ?

Repare que muitas dessas perguntas estão relacionadas ao futuro, a informações que não existem ainda. Cientistas de Dados conseguem prever o futuro — ou a probabilidades de eventos acontecerem — e é por isso que são verdadeiros oráculos.

Essa capacidade do Cientista de Dados também coloca-o na posição de literalmente poder calcular a chance de sucesso de uma determinada iniciativa de negócio.

O Cientista de Dados no Mapa da TI Corporativa

Em 2013, Gartner explicou ao mundo o nexo das novas forças de TI, onde Dados, Mobilidade e Redes Sociais têm um papel determinante para o sucesso de qualquer empresa que quer se manter moderna. 

Gartner Nexus of Forces

Fica claro que a Mobilidade é a rota para uma organização chegar nas pessoas, sejam elas clientes ou colaboradores. Alavancar também o poder colaborativo das Redes Sociais para fomentar uso e fazer os Dados circularem. No começo dessa era, houve uma corrida para empresas criarem suas apps, que nada mais eram do que o catálogo digital de seus produtos, ou seu site institucional no smartphone, ou até mesmo prover diretamente os dados a seus usuários, como seu saldo ou extrato. Pouca novidade até aqui. Mas a era da Mobilidade representa o momento histórico em que organizações passam a estar constantemente ao lado de seus clientes e colaboradores, quando acordam, quando trabalham, quando almoçam, quando vão dormir. Mais ainda: se o usuário der permissão para a app, ela poderá chamá-lo para interagir ou entregar uma novidade, através das notificações que aparecem na tela.

Mas qual informação a app vai entregar proativamente ao usuário? Quando? Onde? É o Cientista de Dados que tem a responsabilidade de fazer a ponte entre os dados virgens e a app do usuário, no sentido de entregar a informação certa na hora e no lugar adequado, com o objetivo de tocar o coração de quem usa.

As possibilidades são infinitas. Um exemplo no varejo é determinar quais são os clientes que devem receber uma notificação às 11:45 da manhã informando que já está disponível na loja nas redondezas onde ele costuma almoçar um produto que vai lhes interessar.

Um outro campo interessantíssimo para o Cientista de Dados é próximo ao fenômeno da Internet das Coisas, onde sensores coletam constantemente dados do ambiente a sua volta. Inclui-se aqui também sensores biométricos, que medem indicadores do corpo humano, como características do sono, pressão sangüínea, alimentação etc. O Cientista de Dados é a figura que agrega esses dados — que isoladamente têm baixa significância — encontra correlações pouco óbvias e é capaz de re-injetá-los no processo do negócio para assim transformá-lo, otimizando ações que outrora eram reativas, em proativas.

A Caixa de Ferramentas do Cientista de Dados

Dizem que o Cientista de Dados é um estatístico que conhece mais ferramentas computacionais que um estatístico médio. Ou também um programador que conhece mais estatística que um programador médio.

Base sólida em matemática, probabilidade e pensamento estatístico, boas noções de econometria, bons conhecimentos em ferramentas computacionais como machine learning, fazem um Cientista de Dados ser prático e mão-na-massa. Multidisciplinaridade e traquejo para circular nos corredores do negócio são extremamente importantes também. Apesar de seu pé na programação, o estereótipo engraçado do programador que vive a base de pizza e cafeina não combina muito bem com o Cientista de Dados.

Claro, há bons profissionais que não programam ou deixaram de ser mão-na-massa. Estes acabam atuando coma uma espécie de CDO (chief digital officer), com o adicional de que têm experiências mais concretas sobre onde pode-se chegar com os dados. Mesmo assim, ele terá que lançar mão de outros Cientistas de Dados que programam e são mais mão-na-massa.

O Cientista de Dados geralmente programa em Python, usa Jupyter e é bom conhecedor do ferramental de visualização e gráficos dessa linguagem, bem como as de machine learning e inferência estatística. SciKit Learn, StatsModel, Pandas, Seaborn, XGBoost, Shapley é o arroz-com-feijão deste profissional.

Cientista de Dados lança mão de gráficos para analisar o comportamento matemático de preços de casas e sua aderência a Curva Normal de Gauss.
Estudo da distribuição de uma variável aleatória, extraído de um notebook de um cientista de dados

Jornada para a Ciência de Dados

Respire fundo e arregace as mangas caso escolha ser um Cientista de Dados. A gama de disciplinas exigidas é larga. Vai de matemática, programação, TI, até o negócio, cultura e intuição sobre o mundo a sua volta. Prepare-se para programar com ferramentas avançadas e que sempre estarão em voga. Prepare-se para conhecer o negócio em nível matemático e também multicultural e multidisciplinar.

Mas chegando lá, você será singular em sua roda. Terá uma posição sob os holofotes em seu meio profissional, devido a sua bagagem de conhecimentos e capacidade de transformação.

Para se apreciar uma bela vista, é necessário escalar uma alta montanha. E o Cientista de Dados é o que está em seu topo.

Publicado também no LinkedIn.

Fascínio Sempre

Esta campanha presidencial foi uma das experiências mais incríveis e inesperadas da minha vida. Contundente também.

Nos revelamos nas redes e deixamos positiva e negativamente surpresos muitos amigos. Mas nossa faceta política é só uma entre muitas que nos constituem como humanos legítimos e complexos. Se a faceta de gostos políticos de um amigo me decepcionou, sua faceta musical, profissional, culinária ou de pai/mãe pode me fascinar. E vice-versa.

Meu objetivo de vida é eliminar minhas complexidades interiores para viver em constante fascínio com todos. Conectando o meu elementar humano com o elementar humano de todos a minha volta.

Como o WhatsApp foi usado para disseminar fake news e como combater

Ao contrário do que se pensa, os robôs da campanha via WhatsApp não enviaram as fake news diretamente para milhões de brasileiros. Enviavam só para algumas centenas de grupos extremistas enormes como “Direita é o Poder”, “Parada Hétero” etc. A partir daí, seus usuários humanos propagavam organicamente os memes e fakes pelos seus grupos de família, escola e trabalho, que por sua vez também os propagavam. E foi assim que a maioria dos brasileiros receberam de seus próprios amigos (e não de robôs) a enxurrada de memes que vimos ao longo de setembro.

Todas as campanhas políticas da história lançaram mão de disseminação de boatos, propaganda enganosa, disseminação de medo, incerteza e dúvida. Essas construções da mente são, inclusive, uma das característica que nos diferenciam dos outros animais, conforme citam Yuval Harari em seu livro Sapiens e outros autores.

Mas na campanha presidencial brasileira de 2018 isso foi levado a níveis extremamente nocivos devido a junção inédita de 3 fatores:

  1. Conteúdos mais acessíveis, em forma de memes, imagens, charges, videos e também artigos. As mensagens são sutis e enviesadas, nem sempre são noticias falsas, às vezes são só piadas de mau gosto. Mas o objetivo é claro e sempre o mesmo: destilar escárnio, ódio e preconceito. Seus mensageiros, quando questionados quanto a ofensa contida na mensagem, frequentemente responderão que ela contém “a mais pura verdade”. O meme é facilmente produzido pelos próprios usuários em seus celulares ou por agências profissionais contratadas. O importante é capturar imediatamente a atenção de quem recebe o conteúdo. Veja alguns exemplos neste artigo do El Pais.
  2. Disseminação em massa do conteúdo por robôs, em grandes grupos de WhatsApp de muito interesse naquela mensagem. Trata-se de grandes grupos de WhatsApp onde a maioria dos participantes não se conhecem pessoalmente, nunca saberão se um dos números de telefone alí é um robô de disparo de mensagens. Quando o conteúdo é inserido pelo robô, a posição política coletiva do grupo entra rapidamente em sintonia com ele, e sua pitada de humor o livra de maiores questionamentos sobre sua veracidade. Um usuário mais questionador rapidamente perderia força num embate com o grupo extremista porque o massacrariam com “deixa disso”s. Depois da inserção intencional do conteúdo, começa a 2ª fase: os próprios usuários, felizes com um novo conteúdo divertido e importante, divulgam-no organicamente para seus outros grupos restritos e fechados que são da família, da escola, do trabalho e assim ele continua se propagando organicamente. A enorme maioria das pessoas acaba recebendo o conteúdo nessa segunda fase, de forma orgânica. Essa 2ª fase orgânica esconde a origem robótica e artificial da 1ª fase. A seleção inicial desses grandes grupos de WhatsApp, que têm afinidade com a mensagem que se quer transmitir, e a adição dos robôs neles, é a parte mais estratégica da campanha porque é o mecanismo para se plantar a semente. Os robôs enviam os memes somente para os grupos de interesse, nunca diretamente para pessoas avulsas, como alguns pensam.
  3. Mobilidade pervasiva. Este fator obviamente habilitou os dois anteriores. É o celular que nos chama o tempo todo e que só saberemos se é uma emergência médica de um parente ou uma bobagem qualquer depois de dar uma olhadinha.

Foi no começo de setembro que observei um aumento expressivo na disseminação de memes nos grupos da escola e da família que faço parte. É difícil saber se é puramente orgânico ou se foi estimulado por uma campanha de robôs alguns níveis antes. No meu caso, o conteúdo era encaminhado sempre por 3 usuários, um deles declaradamente de extrema direita e muito ativo politicamente.

O video da denuncia, que mostra o próprio Bolsonaro e a tela do WhatsApp em atualização frenética devido ao envio robótico de mensagens (que emergiu em 2 de outubro de 2018), revela os grupos de muito interesse através de seus nomes: “Direita é o Poder”, “Direita Ativa”, “Direita Agreste”, “BolsoMito”, “Direita Aprendiz”, “Parada Hétero” etc. Essa lista específica de grupos, aquela alta velocidade anormal de recebimento de mensagens, nas mãos de Bolsonaro, para mim comprovam o uso consciente de robôs de envio de mensagens de campanha. Todos os brasileiros puderam observar a eficácia dessa campanha visto a enxurrada de memes de ódio e escárnio que recebemos em nossos celulares. Muitos infelizmente foram permeáveis a esse ódio constante e insistentemente comunicado.

Como levantar provas sobre o conteúdo inserido no WhatsApp, ainda para as eleições de 2018

O aplicativo registra quando uma mensagem é encaminhada, pode-se ver o “Forward” ou “Encaminhado” sobre o balão da mensagem. Por trás dos panos, o aplicativo guarda uma série de metadados sobre a mensagem que numa análise forense nos servidores do WhatsApp permitiriam recriar toda a trajetória da mensagem, mesmo que o conteúdo em si é criptografado na transmissão entre usuários. Em outras palavras, via mandado judicial ou outro pedido formal, o WhatsApp seria capaz de dar um relatório completo sobre o conteúdo, incluindo quando o meme foi inicialmente publicado na rede, de qual endereço de internet, se foi usado um computador ou celular, de qual marca, de que região do planeta, número de telefone do usuário e eventualmente até seu usuário Facebook.

Como combater esse mal de forma mais definitiva no futuro

Qualquer tipo de limitação ou restrição não é a solução de longo prazo, mesmo porque o aplicativo não sabe diferenciar entre receitas de bolo e memes de ódio. Criar restrições para um tipo, valerão desnecessariamente para o outro tipo de conteúdo.

O que falta no WhatsApp é um mecanismo para que usuários denunciem conteúdo impróprio, colocando-o numa espécie de quarentena e assim evitar que outros usuários, inclusive em outros grupos façam qualquer coisa com tal conteúdo problemático. No Facebook, funcionalidade similar já foi implementada após os problemas nas eleições do Trump. Uma proposta para o WhatsApp seria o usuário selecionar o conteúdo ofensivo e denunciá-lo via alguma opção inédita no aplicativo. Uma vez decidido que é ofensivo/falso, o conteúdo passaria a ter uma moldura vermelha ou outra marca visual clara aos usuários informando que ele é problemático. O aplicativo inibiria e bloquearia outras operações sobre esse conteúdo também, como encaminhamentos, salvar no rolo da câmera etc.

Mas tudo isso, só para as próximas eleições.

Jupyter Notebook on Fedora with official packages and SSL

Jupyter Notebooks are the elegant way that Data Scientists work and all software needed to run them are already pre-packaged on Fedora (and any other Linux distribution). It is encouraged to use your distribution’s packaging infrastructure to install Python packages. Avoid at any cost installing Python packages with pip, conda, anaconda and from source code. The reasons for this good practice are security, ease of use, to keep the system clean and to make installation procedures easily reproducible in DevOps scenarios.

Jupyter Notebook on Fedora with MathJax and Python
Jupyter Notebook on Fedora with MathJax and Python

Read More

Encontro com Caetano Veloso

O coração pulou num show praticamente privado que Caetano Veloso nos concedeu na Casa do Povo. Uma hora de canções conhecidíssimas, que ele poderia ter extendido por muito mais tempo, pois tem repertório para tal. Performou super afinado, em ótima forma e técnica e fez questão de espontaneamente se declarar “de esquerda” no palco.

Caetano Veloso na Casa do Povo em 2018-05-27

Após o show tive o privilégio de conversar com a figura quase mítica. Contou histórias sobre as décadas de 60, 70, 80 etc. Contei que ao longo de seu show lembrei de sua canção «Prá Ninguém» e ele por sua vez contou sua história, desconhecida para mim. Em 1993 Chico Buarque escreveu a música «Para Todos» que Caetano ouviu pela primeira vez na casa do autor e chorou de emoção ali mesmo. «Prá Ninguém» é a resposta de Caetano para a canção de Chico, poema musicado que cita um monte de cantores e suas canções famosas compostas por outros. Disse também, quase como um segredo, que João Gilberto adora a canção de Chico, e a partir daí contou diversas histórias malucas sobre João.

Que noite !

Canção Paratodos, de Chico Buarque
Canção Prá Ninguém, de Caetano Veloso