Paulo is available for hire

保罗席尔瓦

验证专家 in 工程

数据开发人员

Location

贝洛奥里藏特-米纳斯吉拉斯州，巴西

至今成员总数

2022年8月29日

保罗是一名数据科学家，在多个业务领域拥有四年的经验. 使用Python作为主栈, 他研究了许多机器学习算法, 数据分析, 可视化, 和假设检验，如A/B, 统计分析, 甚至是数据工程工作. 保罗有工程背景，解决问题对他来说很自然.

Algorithms 机器学习统计数据分析数据分析数据可视化数据报告数据分析 Big Data Clustering 统计分析 Analytics SQL Python Python 3 Pandas

Portfolio

Oko Exchange公司.

Python，数据科学，机器学习，数据可视化，数据工程...

Quero Quitar

Databricks, Python，数据分析，数据科学，大数据

CBD工业有限责任公司

数据科学，数据可视化，SQL，数据库，qliksense...

Experience

数据库- 8年 Python - 6年统计- 5年机器学习- 5年数据可视化- 4年数据分析- 4年谷歌云平台(GCP) - 2年 BigQuery - 2年

Availability

Part-time

首选的环境

Python, 谷歌云平台(GCP), 亚马逊网络服务(AWS), Jupyter笔记本, PyCharm, Visual Studio Code (VS Code)

最神奇的...

...我所做的就是用数据科学来减少大学辍学的学生人数.

工作经验

数据科学家

2023年至今

Oko Exchange公司.

使用OpenAI的大型语言模型(llm) api (GPT-3).Turbo和GPT-4)将数据从非结构化文本解析为结构化格式.
利用Azure文档智能(以前的Azure表单识别器)从文件中提取文本，并利用LangChain和矢量存储来利用llm处理大型文本文件.
使用AWS Lambda提供模型服务，使用Amazon S3 (AWS S3)存储文件.

技术:Python，数据科学，机器学习，数据可视化，数据工程, 数据分析, Azure ML Studio, Azure, 人工智能(AI), OpenAI GPT-4 API, OpenAI GPT-3 API, GPT, AWS Lambda, Amazon S3 (AWS S3)

数据科学家

2023 - 2023

Quero Quitar

创建预测模型，指导债务回收机构向谁求助.
建立模型来指导联系债务人的机会, 使公司的方法更有效.
从Pandas迁移到Databricks以处理大量数据.

技术:Databricks, Python，数据分析，数据科学，大数据

Qlik Sense数据工程师/分析师

2022 - 2022

CBD工业有限责任公司

在Qlik Sense内部开发了ETL(提取-转换-加载)架构.
将多个第三方api集成到Qlik Sense中.
利用AWS服务为大数据环境扩展解决方案.

Technologies: 数据科学，数据可视化，SQL，数据库，qliksense, 亚马逊网络服务(AWS), AWS Lambda, Amazon S3 (AWS S3), APIs, API集成, 数据分析, Data Lakes, 数据仓库, 统计分析, Cloud, 统计数据分析, 数学分析, 数学, Apache火花

数据科学家

2021 - 2022

Limehome

为一家连锁酒店开发了动态定价算法.
执行临时数据分析以帮助推动业务向前发展.
帮助数据分析师进行研究，发现不一致之处, 给予反馈并提供整体技术支持.

技术:Python, 谷歌云平台(GCP), 机器学习, GitHub, 数据分析, Analytics, 数据科学, Data, 关系数据库, BigQuery, Databases, 数据可视化, 软件开发, Algorithms, Git, Jupyter笔记本, PyCharm, Statistics, Pandas, SQL, ETL, ETL Tools, 数据报告, 数据分析, Big Data, 线性回归, Clustering, Dashboards, 预测建模, 预测分析, 亚马逊网络服务(AWS), TensorFlow, Python 3, 热情好客, 谷歌BigQuery, 统计分析, Cloud, XGBoost, 统计数据分析, 数学分析, 数学, 统计方法, Tableau

数据科学家

2021 - 2021

Chama

为企业开发了一种动态定价算法，以连接瓶装天然气的买家和卖家.
协助实验以数据驱动的方式推出新功能.
与公司的分析部门合作，传播数据驱动的文化.

技术:Python, R, Docker, 机器学习, 数据分析, Git, Tableau, Back-end, APIs, API集成, Analytics, 商业智能(BI), 数据科学, Data, 数据库设计, 关系数据库, BigQuery, Databases, 数据可视化, 软件开发, Algorithms, GitHub, Jupyter笔记本, Statistics, Pandas, SQL, Pytest, ETL, ETL Tools, 工程数据, 数据报告, 数据分析, 数据挖掘, 网页抓取, Big Data, 线性回归, Clustering, Dashboards, 预测建模, 预测分析, TensorFlow, Python 3, 数据管道, Postman, REST APIs, 数据集成, Kubernetes, Swagger, 谷歌BigQuery, 数据仓库, 统计分析, Cloud, XGBoost, 统计数据分析, 数学分析, 数学, 统计方法, Azure ML Studio, Apache气流

数据科学家

2020 - 2021

Zup

帮助公司识别在旅行或与客户会面时滥用食品支出的员工.
协助公司找出对客户收费不正确的领导, 造成金钱损失.
创建了一个模型，帮助运营部门了解他们是否有足够的电脑供新员工使用, 基于过去的招聘行为.

技术:Python, 谷歌云平台(GCP), BigQuery, Google Data Studio, 机器学习, 数据分析, Git, Analytics, 商业智能(BI), 数据科学, Data, 数据库设计, 关系数据库, Databases, 数据可视化, 软件开发, Algorithms, GitHub, Jupyter笔记本, PyCharm, Statistics, Pandas, SQL, ETL, ETL Tools, 工程数据, 数据报告, 数据分析, 网页抓取, Big Data, 线性回归, Clustering, Dashboards, 预测建模, 预测分析, Python 3, 谷歌BigQuery, 数据仓库, 统计分析, Cloud, XGBoost, 统计数据分析, 数学分析, 数学, 统计方法, Tableau, 人工智能(AI)

数据科学家

2019 - 2020

CRM Educacional

开发了一个领先的评分模型，帮助私立大学获得更多的学生.
创建了一个模型来识别学生放弃大学的风险，并提供了避免这种风险的必要步骤.
改进了公司数据管道的工作，因为它是为小数据构建的, 这变得不可行了.

技术:Python, Azure DevOps, SQL Server 2016, Azure, 机器学习, Microsoft Power BI, Back-end, APIs, API集成, Analytics, 商业智能(BI), 数据科学, Data, 数据库设计, 关系数据库, Databases, 数据可视化, 软件开发, Algorithms, GitHub, Git, Jupyter笔记本, Statistics, C#, Pandas, SQL, ETL, ETL Tools, 工程数据, 数据报告, 数据分析, 数据挖掘, 网页抓取, Big Data, 线性回归, Clustering, Azure数据工厂, Dashboards, 预测建模, 预测分析, Python 3, 数据管道, Postman, REST APIs, 数据集成, Swagger, 数据分析, Data Lakes, 数据仓库, 统计分析, Cloud, XGBoost, 统计数据分析, 数学分析, 数学, 统计方法, Tableau, Apache火花, Azure ML Studio

数据科学家

2019 - 2019

Maxtrack

开发了一个模型，根据跟踪器数据和之前已知的用户行为来预测汽车是否被盗.
使用Spark改进了公司的数据管道，因为之前的管道对于处理的数据量不再可行.
分析数据以确定一些先前开发的模型是否如预期的那样工作.

技术:Python, MongoDB, Redis, 机器学习, 数据分析, Spark, Git, Back-end, APIs, 数据科学, Data, Databases, 数据可视化, 软件开发, Algorithms, GitHub, Jupyter笔记本, PyCharm, Statistics, Pandas, SQL, ETL, ETL Tools, 工程数据, 数据报告, 数据分析, 数据挖掘, 网页抓取, Big Data, 线性回归, Clustering, Dashboards, 预测建模, 预测分析, 亚马逊网络服务(AWS), Python 3, 数据管道, Postman, REST APIs, 数据集成, 数据仓库, 统计分析, Cloud, XGBoost, 统计数据分析, 数学分析, 数学, 统计方法, Apache火花

数据科学家

2019 - 2019

4hoofs

创建了一个模型来预测奶牛一天的产奶量.
根据牛奶生产商的公开数据，帮助公司找到新的营销场所.
开发了一种物联网设备来监测罐中的牛奶质量.

技术:Python, 机器学习, 数据分析, MongoDB, MySQL, JavaScript, Back-end, APIs, API集成, 数据科学, Data, 数据库设计, 关系数据库, Databases, 数据可视化, 软件开发, Algorithms, GitHub, Git, Jupyter笔记本, Statistics, C#, Android, 反应本地, PostgreSQL, Pandas, SQL, Pytest, ETL, ETL Tools, 工程数据, 数据报告, 数据分析, 数据挖掘, 网页抓取, 线性回归, Clustering, Dremio, Dashboards, 预测建模, 预测分析, 亚马逊网络服务(AWS), Python 3, 数据管道, Postman, REST APIs, 数据集成, Swagger, Data Lakes, 数据仓库, 统计分析, Cloud, XGBoost, 统计数据分析, 数学分析, 数学, 统计方法, Apache火花, 人工智能(AI)

Experience

大学辍学率预测

巴西的私立大学存在一个严重的问题. 因为他们不是全国顶尖的大学, 就像联邦大学一样, 加入他们的学生通常来自低收入家庭，往往经常辍学.

学生辍学主要是因为他们面临经济困难, 住得离校园太远, 不能同时工作和学习, 甚至在学业上挣扎，认为不值得努力.

辍学对学校来说是一个大问题，因为学校将失去从这些学生身上获得的多年收入. 因此，从长远来看，大学提供短期激励措施来留住学生是有益的.

考虑到这一点, 我开发了一个机器学习模型来识别辍学的风险和原因. 最后，我提出了学院可以提供什么激励措施来留住学生的见解.

使用跟踪数据预测汽车盗窃

一些保险公司要求他们的客户允许在他们的车上安装跟踪设备，因为通过跟踪汽车的位置, 它更容易检索. Typically, 报案需要一段时间, 有时候已经太晚了，因为小偷要么移除追踪器，要么转移到警察避免去的地方(通常是贫民窟)，因为这对他们来说太危险了.

我所从事的项目围绕着跟踪用户数据展开, 使用一个机器学习模型建立用户的典型行为, 然后使用另一种机器学习模型预测汽车是否被盗. 目标是在用户报告这些事件之前预测这些事件，以加快取回汽车的过程.

在这个项目中，我使用Python作为编程语言. 用于数据处理部分, 我们在Databricks平台上使用了Apache火花，因为它有很多数据, 单台机器上的处理对于需求来说太慢了(时间敏感)。. 历史数据存储在MongoDB数据库上, 我们用来服务这个模型的API是Flask.

动态定价出售烹饪煤气瓶

在巴西，有一个特殊的行业销售罐装烹饪用煤气. 很长一段时间以来，这个行业的运作基本上都是类似的. 客户会打电话给离他们最近的供应商，要求送货, 或者，供应商会开着卡车在社区里转悠，提供服务.

However, 当一个人做饭的时候，一旦煤气耗尽, 他们想要一个新罐头尽快送到他们家，因为没有它可能会毁了他们的饭.

考虑到这一点，该公司的业务通过一款移动应用程序将供应商和客户联系起来. 问题是这些供应商不习惯激烈的竞争，对我们很不满意.

为了平息局势, 我们开发了一种动态定价算法，使用机器学习将价格维持在供应商的可持续水平，同时对客户也有利.

对于这个项目, 我用Python编程, 弗拉斯克来服侍我的模特儿, 和Docker用API将模型容器化.

Skills

Languages

Python, SQL, Python 3, C, R, JavaScript, c#

库/ api

Pandas, REST api, XGBoost, TensorFlow

Tools

BigQuery, Tableau, GitHub, PyCharm, Git, Postman, Microsoft Power BI, Pytest, Qlik Sense, Azure ML Studio, Apache气流

Paradigms

数据科学、ETL、数据库设计、Azure DevOps、商业智能(BI)

Platforms

Jupyter笔记本, 谷歌云平台(GCP), Visual Studio Code (VS Code), 亚马逊网络服务(AWS), Docker, Azure, Android, Kubernetes, AWS Lambda, Databricks

Storage

数据管道, Databases, SQL Server 2016, MySQL, Redis, 关系数据库, 数据集成, MongoDB, PostgreSQL, Amazon S3 (AWS S3), Data Lakes

Other

机器学习, 数据分析, 数据可视化, 软件开发, Statistics, Algorithms, API集成, Analytics, Data, ETL Tools, 数据报告, 数据分析, Big Data, 线性回归, Clustering, Dashboards, 预测建模, 预测分析, 统计分析, 统计数据分析, 数学分析, 数学, 统计方法, Back-end, APIs, 工程数据, 数据挖掘, 信号处理, 热情好客, 谷歌BigQuery, 数据仓库, Cloud, 人工智能(AI), 工业,, Google Data Studio, 自然语言处理(NLP), 网页抓取, Azure数据工厂, Dremio, GPT, 生成预训练变压器(GPT), OpenAI GPT-4 API, OpenAI GPT-3 API

Frameworks

Flask, Apache火花, Spark, 反应本地, Swagger

Education

2012 - 2017

本科以上学历，控制与自动化工程专业

米纳斯吉拉斯州联邦大学-贝洛奥里藏特，米纳斯吉拉斯州，巴西

2015 - 2016

控制工程硕士学位

隆德大学-隆德，Skane，瑞典

认证

2021年2月至今

自然语言处理纳米级

Udacity