如何制作好的可复制Pandas实例

花了很多时间看 在SO上标记,我得到的印象是pandas问题不太可能包含可重复的数据。这是后话了R的群落已经不错了关于鼓励,并感谢像导游这样,新人能得到放在一起,这些例子一些帮助。能够阅读这些指南并获得可复制数据的人通常会很幸运地得到他们问题的答案。

我们如何为pandas问题创建良好的可复制示例可以将简单的数据框放在一起,例如:

import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice'], 
                   'income': [40000, 50000, 42000]})

但是许多示例数据集需要更复杂的结构,例如:

  • datetime 索引或数据
  • 多个类别变量(是否存在R的等效expand.grid()函数,该函数产生某些给定变量的所有可能组合?)
  • 多索引或面板数据

对于dput()难以使用几行代码进行模拟的数据集,是否有与R等效的功能,可让您生成可复制粘贴的代码来重新生成数据结构?

神无2020/05/28 15:05:12

答录人日记

对于提出问题,我最好的建议是发挥回答问题者的心理。作为这些人之一,我可以深入了解为什么我回答某些问题以及为什么我不回答其他问题。

动机

我出于以下几个原因而愿意回答问题

  1. 对我来说,Stackoverflow.com是非常宝贵的资源。我想回馈。
  2. 在回馈的努力中,我发现此站点是比以前更强大的资源。回答问题对我来说是一种学习经历,我喜欢学习。 阅读此答案,并请其他兽医发表评论这种互动使我感到高兴。
  3. 我喜欢积分!
  4. 参见#3。
  5. 我喜欢有趣的问题。

我所有的最纯粹的意图都是美好的,但如果我回答1个问题或30个问题,我就会感到满意。 驱使我选择回答哪些问题的动机在于最大化分数。

我还将花时间解决一些有趣的问题,但这之间相距甚远,并且对于需要解决无趣问题的提问者没有帮助。让我回答问题的最佳选择是在一个成熟的平台上解决该问题,让我尽可能少地回答。如果我在看两个问题,一个有代码,我可以复制粘贴以创建我需要的所有变量...我要使用那个!如果有时间的话,我会再回到另一个。

主要建议

使人们易于回答问题。

  • 提供创建所需变量的代码。
  • 最小化该代码。如果我在看帖子时眼神呆滞,那我将继续下一个问题,或者回到我正在做的其他事情。
  • 考虑一下您要问的内容并做到具体。我们想看看您所做的事情,因为自然语言(英语)不准确且令人困惑。您尝试过的代码示例有助于解决自然语言描述中的不一致问题。
  • 请显示您的期望!!!我必须坐下来尝试一下。如果不尝试一些事情,我几乎永远不会知道问题的答案。如果我看不到您要查找的示例,则可能会跳过这个问题,因为我不想猜测。

您的声誉不仅仅是您的声誉。

我喜欢要点(我在上面提到过)。但是这些并不是我真正的声誉。我的真实声誉是网站上其他人对我的看法的融合。我努力做到公平诚实,希望其他人能看到这一点。对于询问者而言,这意味着我们记住询问者的行为。我记得,如果您没有选择答案并推荐好的答案。如果您以我不喜欢的方式或我喜欢的方式行事,我记得。我还将回答哪些问题。


无论如何,我可能可以继续,但是我会饶恕所有真正读过这篇文章的人。