保罗席尔瓦
验证专家 in 工程
数据开发人员
保罗是一名数据科学家,在多个业务领域拥有四年的经验. 使用Python作为主栈, 他研究了许多机器学习算法, 数据分析, 可视化, 和假设检验,如A/B, 统计分析, 甚至是数据工程工作. 保罗有工程背景,解决问题对他来说很自然.
Portfolio
Experience
Availability
首选的环境
Python, 谷歌云平台(GCP), 亚马逊网络服务(AWS), Jupyter笔记本, PyCharm, Visual Studio Code (VS Code)
最神奇的...
...我所做的就是用数据科学来减少大学辍学的学生人数.
工作经验
数据科学家
Oko Exchange公司.
- 使用OpenAI的大型语言模型(llm) api (GPT-3).Turbo和GPT-4)将数据从非结构化文本解析为结构化格式.
- 利用Azure文档智能(以前的Azure表单识别器)从文件中提取文本,并利用LangChain和矢量存储来利用llm处理大型文本文件.
- 使用AWS Lambda提供模型服务,使用Amazon S3 (AWS S3)存储文件.
数据科学家
Quero Quitar
- 创建预测模型,指导债务回收机构向谁求助.
- 建立模型来指导联系债务人的机会, 使公司的方法更有效.
- 从Pandas迁移到Databricks以处理大量数据.
Qlik Sense数据工程师/分析师
CBD工业有限责任公司
- 在Qlik Sense内部开发了ETL(提取-转换-加载)架构.
- 将多个第三方api集成到Qlik Sense中.
- 利用AWS服务为大数据环境扩展解决方案.
数据科学家
Limehome
- 为一家连锁酒店开发了动态定价算法.
- 执行临时数据分析以帮助推动业务向前发展.
- 帮助数据分析师进行研究,发现不一致之处, 给予反馈并提供整体技术支持.
数据科学家
Chama
- 为企业开发了一种动态定价算法,以连接瓶装天然气的买家和卖家.
- 协助实验以数据驱动的方式推出新功能.
- 与公司的分析部门合作,传播数据驱动的文化.
数据科学家
Zup
- 帮助公司识别在旅行或与客户会面时滥用食品支出的员工.
- 协助公司找出对客户收费不正确的领导, 造成金钱损失.
- 创建了一个模型,帮助运营部门了解他们是否有足够的电脑供新员工使用, 基于过去的招聘行为.
数据科学家
CRM Educacional
- 开发了一个领先的评分模型,帮助私立大学获得更多的学生.
- 创建了一个模型来识别学生放弃大学的风险,并提供了避免这种风险的必要步骤.
- 改进了公司数据管道的工作,因为它是为小数据构建的, 这变得不可行了.
数据科学家
Maxtrack
- 开发了一个模型,根据跟踪器数据和之前已知的用户行为来预测汽车是否被盗.
- 使用Spark改进了公司的数据管道,因为之前的管道对于处理的数据量不再可行.
- 分析数据以确定一些先前开发的模型是否如预期的那样工作.
数据科学家
4hoofs
- 创建了一个模型来预测奶牛一天的产奶量.
- 根据牛奶生产商的公开数据,帮助公司找到新的营销场所.
- 开发了一种物联网设备来监测罐中的牛奶质量.
Experience
大学辍学率预测
学生辍学主要是因为他们面临经济困难, 住得离校园太远, 不能同时工作和学习, 甚至在学业上挣扎,认为不值得努力.
辍学对学校来说是一个大问题,因为学校将失去从这些学生身上获得的多年收入. 因此,从长远来看,大学提供短期激励措施来留住学生是有益的.
考虑到这一点, 我开发了一个机器学习模型来识别辍学的风险和原因. 最后,我提出了学院可以提供什么激励措施来留住学生的见解.
使用跟踪数据预测汽车盗窃
我所从事的项目围绕着跟踪用户数据展开, 使用一个机器学习模型建立用户的典型行为, 然后使用另一种机器学习模型预测汽车是否被盗. 目标是在用户报告这些事件之前预测这些事件,以加快取回汽车的过程.
在这个项目中,我使用Python作为编程语言. 用于数据处理部分, 我们在Databricks平台上使用了Apache火花,因为它有很多数据, 单台机器上的处理对于需求来说太慢了(时间敏感)。. 历史数据存储在MongoDB数据库上, 我们用来服务这个模型的API是Flask.
动态定价出售烹饪煤气瓶
However, 当一个人做饭的时候,一旦煤气耗尽, 他们想要一个新罐头尽快送到他们家,因为没有它可能会毁了他们的饭.
考虑到这一点,该公司的业务通过一款移动应用程序将供应商和客户联系起来. 问题是这些供应商不习惯激烈的竞争,对我们很不满意.
为了平息局势, 我们开发了一种动态定价算法,使用机器学习将价格维持在供应商的可持续水平,同时对客户也有利.
对于这个项目, 我用Python编程, 弗拉斯克来服侍我的模特儿, 和Docker用API将模型容器化.
Skills
Languages
Python, SQL, Python 3, C, R, JavaScript, c#
库/ api
Pandas, REST api, XGBoost, TensorFlow
Tools
BigQuery, Tableau, GitHub, PyCharm, Git, Postman, Microsoft Power BI, Pytest, Qlik Sense, Azure ML Studio, Apache气流
Paradigms
数据科学、ETL、数据库设计、Azure DevOps、商业智能(BI)
Platforms
Jupyter笔记本, 谷歌云平台(GCP), Visual Studio Code (VS Code), 亚马逊网络服务(AWS), Docker, Azure, Android, Kubernetes, AWS Lambda, Databricks
Storage
数据管道, Databases, SQL Server 2016, MySQL, Redis, 关系数据库, 数据集成, MongoDB, PostgreSQL, Amazon S3 (AWS S3), Data Lakes
Other
机器学习, 数据分析, 数据可视化, 软件开发, Statistics, Algorithms, API集成, Analytics, Data, ETL Tools, 数据报告, 数据分析, Big Data, 线性回归, Clustering, Dashboards, 预测建模, 预测分析, 统计分析, 统计数据分析, 数学分析, 数学, 统计方法, Back-end, APIs, 工程数据, 数据挖掘, 信号处理, 热情好客, 谷歌BigQuery, 数据仓库, Cloud, 人工智能(AI), 工业,, Google Data Studio, 自然语言处理(NLP), 网页抓取, Azure数据工厂, Dremio, GPT, 生成预训练变压器(GPT), OpenAI GPT-4 API, OpenAI GPT-3 API
Frameworks
Flask, Apache火花, Spark, 反应本地, Swagger
Education
本科以上学历,控制与自动化工程专业
米纳斯吉拉斯州联邦大学-贝洛奥里藏特,米纳斯吉拉斯州,巴西
控制工程硕士学位
隆德大学-隆德,Skane,瑞典
认证
自然语言处理纳米级
Udacity