花了很多时间看 [R 和 大Pandas在SO上标记,我得到的印象是pandas
问题不太可能包含可重复的数据。这是后话了R的群落已经不错了关于鼓励,并感谢像导游这样,新人能得到放在一起,这些例子一些帮助。能够阅读这些指南并获得可复制数据的人通常会很幸运地得到他们问题的答案。
我们如何为pandas
问题创建良好的可复制示例?可以将简单的数据框放在一起,例如:
import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice'],
'income': [40000, 50000, 42000]})
但是许多示例数据集需要更复杂的结构,例如:
datetime
索引或数据- 多个类别变量(是否存在R的等效
expand.grid()
函数,该函数产生某些给定变量的所有可能组合?) - 多索引或面板数据
对于dput()
难以使用几行代码进行模拟的数据集,是否有与R等效的功能,可让您生成可复制粘贴的代码来重新生成数据结构?
答录人日记
对于提出问题,我最好的建议是发挥回答问题者的心理。作为这些人之一,我可以深入了解为什么我回答某些问题以及为什么我不回答其他问题。
动机
我出于以下几个原因而愿意回答问题
我所有的最纯粹的意图都是美好的,但如果我回答1个问题或30个问题,我就会感到满意。 驱使我选择回答哪些问题的动机在于最大化分数。
我还将花时间解决一些有趣的问题,但这之间相距甚远,并且对于需要解决无趣问题的提问者没有帮助。让我回答问题的最佳选择是在一个成熟的平台上解决该问题,让我尽可能少地回答。如果我在看两个问题,一个有代码,我可以复制粘贴以创建我需要的所有变量...我要使用那个!如果有时间的话,我会再回到另一个。
主要建议
使人们易于回答问题。
您的声誉不仅仅是您的声誉。
我喜欢要点(我在上面提到过)。但是这些并不是我真正的声誉。我的真实声誉是网站上其他人对我的看法的融合。我努力做到公平诚实,希望其他人能看到这一点。对于询问者而言,这意味着我们记住询问者的行为。我记得,如果您没有选择答案并推荐好的答案。如果您以我不喜欢的方式或我喜欢的方式行事,我记得。我还将回答哪些问题。
无论如何,我可能可以继续,但是我会饶恕所有真正读过这篇文章的人。