与Kyso共享数据科学

我们在过去的几个月中一直在设计一种系统来改善协作, 可再现性和表示方式-一种全包式工具, 可以优化数据科学家的整个工作流程。去年, 我们已经与数百位数据科学家进行了交流, 以收集反馈, 现在我们很高兴为你带来最新版本的Kyso。

可以将其像Github一样, 但专门用于数据科学。

结果是可以运行, 发布和共享Jupyter笔记本的工具, 你可以在其中以srcmini完成的课程和项目为基础, 并创建自己的数据科学产品组合。这是一个免费工具, 可以展示和分享你的作品, 获取反馈并找到有趣的有趣新项目。

有关更全面的指南, 请查看最新发布的最新公告Kyso 2.0简介。现在, 这里是该平台提供的快速摘要:

  • 免费的Jupyterlab工作区来启动和运行笔记本。
  • 这些笔记本的博客样式渲染, 并带有显示或隐藏代码的选项。
  • 一个自定义的Jupyterlab扩展, 允许用户从任何Jupyterlab环境发布到他们的Kyso配置文件。
  • 配置文件页面非常适合构建和托管你的数据科学产品组合。
  • 一个简单的发现, 可以找到很酷的新项目并插入你自己的工作区中。
  • 还有更多功能即将推出!
import pandas as pd
import numpy as np

import plotly.plotly as py
from plotly.offline import init_notebook_mode, iplot
init_notebook_mode(connected=True)
import plotly.graph_objs as go
from plotly import tools

from IPython.display import Image

我觉得证明平台机制和目的的最好方法是实际发布带有一些有趣且有趣的数据可视化的示例研究。这些图是使用plotly和&生成的, 当在Kyso上渲染时它们是完全交互的。你可以旋转地球仪, 放大特定区域并突出显示数据点。

我只是在srcmini上嵌入了这篇文章的情节的屏幕截图, 但请查看此处发布的实时笔记本:

KyleOS |数据营介绍

我已经上传了两个很酷的数据集来玩-但是, 数据的深度比我在下面绘制的要深得多。免费注册, 将这项研究(连同附加的数据文件)分叉到你自己的Jupyterlab环境中, 扩展分析并自己提供一些很酷的可视化效果。准备就绪后, 你只需重新发布即可!

现代奴隶制

全球奴隶制指数每年都会发布一份报告, 其中包含有关现代奴隶制的信息, 该信息适用于使人们容易受到伤害的各种因素, 例如强迫劳动, 人口贩运等, 以及全球供应链中政府的回应和产品。被现代奴隶制生产的风险。

df = pd.read_csv('slavery-data/global-slavery-index.csv')
colors=[[0, '#380000'], [0.05, '#500000'], [0.15, '#680000'], [0.2, '#800000'], [0.25, '#980000'], [0.35, '#A80000'], [0.45, '#B80000 '], [0.55, '#C00000'], [1.0, '#FF0000']]

plotmap = [ dict(
        type = 'choropleth', locations = df['Country '], locationmode = 'country names', z = df['Est. number of people in modern slavery'], text = df['Country '], colorscale = colors, reversescale = False, marker = dict(
            line = dict (
                color = 'rgb(180, 180, 180)', width = 0.5
            ) ), colorbar = dict(
            title = ""), ) ]

layout = dict(
    title = "Estimated number of people in modern slavery worldwide", geo = dict(
        showframe = False, showcoastlines = False, projection = dict(
            type = 'natural earth'
        )
    ), height=700, width=900
)

fig = dict( data=plotmap, layout=layout )
iplot(fig)
与Kyso共享数据科学1

可能需要在上面的地图上进行改进的一个想法是绘制每个国家中现代奴隶制的普遍性, 这意味着上面表示的数字占全国人口百分比。

全球奴隶制指数漏洞模型在五个主要维度上绘制了23个风险变量, 并根据这些变量为每个国家/地区的维度分配得分。不平等自然是其中五个因素之一, 所以让我们来勾画出全球不平等的程度。

colors=[[0, 'rgb(102, 194, 165)'], [0.05, 'rgb(102, 194, 165)'], [0.15, 'rgb(171, 221, 164)'], [0.2, 'rgb(230, 245, 152)'], [0.25, 'rgb(255, 255, 191)'], [0.35, 'rgb(254, 224, 139)'], [0.45, 'rgb(253, 174, 97)'], [0.55, 'rgb(213, 62, 79)'], [1.0, 'rgb(158, 1, 66)']]

plotmap = [ dict(
        type = 'choropleth', locations = df['Country '], locationmode = 'country names', z = df['Factor Three Inequality'], text = df['Country '], colorscale = colors, reversescale = False, marker = dict(
            line = dict (
                color = 'rgb(180, 180, 180)', width = 0.5
            ) ), colorbar = dict(
            title = ""), ) ]

layout = dict(
    title = "Global Inequality", geo = dict(
        showframe = False, showcoastlines = False, showocean = True, oceancolor = '#26466D', projection = dict(
            type = 'orthographic'
        )
    ), height=700, width=900
)

fig = dict( data=plotmap, layout= layout )
iplot(fig)
与Kyso共享数据科学2

世界宗教

“世界宗教计划”旨在提供自1945年以来全球宗教信奉的详细信息, 该计划由加利福尼亚大学戴维斯分校的Zeev Maoz和宾夕法尼亚州立大学的Errol A. Henderson主持。它包含有关国际体系中每个州按宗教信仰的人数的数据。

df = pd.read_csv('religious-data/national.csv')
df = df[df['year'] == 2010]
data = [ dict(
        type = 'choropleth', autocolorscale = False, colorscale = 'Greens', reversescale = True, showscale = True, locations = df['state'].values, z = (df['christianity_all'].values/df['population'].values)*100, locationmode = 'country names', text = df['state'].values, marker = dict(
            line = dict(color = 'rgb(200, 200, 200)', width = 0.5)), colorbar = dict(autotick = True, tickprefix = '', title = '%')
            )
       ]
layout = dict(
    title = 'Christian Adherents in 2010 as Percentage of Population', geo = dict(
        showframe = True, showocean = True, oceancolor = '#26466D', projection = dict(
        type = 'orthographic', rotation = dict(
                    lon = 60, lat = 10), ), lonaxis =  dict(
                showgrid = False, gridcolor = 'rgb(102, 102, 102)'
            ), lataxis = dict(
                showgrid = False, gridcolor = 'rgb(102, 102, 102)'
                )
            ), height=700, width=900
        )

fig = dict(data=data, layout=layout)
iplot(fig, validate=False)

plotmap = [ dict(
        type = 'choropleth', locations = df['state'].values, locationmode = 'country names', z = (df['islam_all'].values/df['population'].values)*100, text = df['state'].values, colorscale = 'Viridis', reversescale = False, marker = dict(
            line = dict (
                color = 'rgb(180, 180, 180)', width = 0.5
            ) ), colorbar = dict(
            title = "%"), ) ]

layout = dict(
    title = "Islam Adherents in 2010 as Percentage of Population", geo = dict(
        showframe = False, showcoastlines = False, projection = dict(
            type = 'natural earth'
        )
    ), height=700, width=900
)

fig = dict( data=plotmap, layout=layout )
iplot(fig)
与Kyso共享数据科学3
与Kyso共享数据科学4

太酷了!如何生成随时间演变的所有宗教信徒总数的时间序列?我想我们会看到宗教信仰整体下降。

df = pd.read_csv('religious-data/national.csv')

df_usa = df[df['code'] == 'USA']
df_usa = df_usa.set_index('year')

df_ire = df[df['code'] == 'IRE']
df_ire = df_ire.set_index('year')

df_gmy = df[df['code'] == 'GMY']
df_gmy = df_gmy.set_index('year')

df_uk = df[df['code'] == 'UKG']
df_uk = df_uk.set_index('year')

df_spn = df[df['code'] == 'SPN']
df_spn = df_spn.set_index('year')
trace1 = go.Scatter(
    x = df_usa.index, y = df_usa['noreligion_percent'], mode = 'lines+markers', name = 'USA', marker=dict(color='#90EE90')
)

trace2 = go.Scatter(
    x = df_ire.index, y = df_ire['noreligion_percent'], mode = 'lines+markers', name = 'Ireland', marker=dict(color='#008744')
)

trace3 = go.Scatter(
    x = df_gmy.index, y = df_gmy['noreligion_percent'], mode = 'lines+markers', name = 'Germany', marker=dict(color='rgb(12, 12, 140)')
)

trace4 = go.Scatter(
    x = df_uk.index, y = df_uk['noreligion_percent'], mode = 'lines+markers', name = 'United Kingdom', marker=dict(color='#851e3e')
)

trace5 = go.Scatter(
    x = df_spn.index, y = df_spn['noreligion_percent'], mode = 'lines+markers', name = 'Spain', marker=dict(color='#FFA505')
)

data = [trace1, trace2, trace3, trace4, trace5]

layout = go.Layout(title="Increase in Percentage of Population with No Religion", height=500, xaxis={'title':'Year', 'showgrid':False}, #                   plot_bgcolor='rgb(245, 245, 240)', #                   paper_bgcolor='rgb(245, 245, 240)', yaxis={'title':'Percentage of Population with no Religion', 'showgrid':False, 'tickformat': ', .0%'})

fig = go.Figure(data=data, layout=layout)

iplot(fig)
与Kyso共享数据科学5

这是简短的帖子。但是, 第一个数据集中有30多个列, 第二个数据集中有70多个列, 这意味着有可能进行更深入的分析。如果你是新手, 这里有快速向导。如果你想发现其他项目, 我们的探索页面还包含最近发布的内容。

试用该平台-随时与反馈和/或有关未来功能的想法进行联系-Kyso 2.0已处于测试阶段, 我们非常重视用户的反馈。请直接通过kyle@kyso.io与我联系。

编码愉快!

来源:

https://www.srcmini02.com/45485.html

微信公众号
手机浏览(小程序)
0
分享到:
没有账号? 忘记密码?