使用Python进行股票分析（1）

简介

Python具有非常好的数据分析和数据可视化的功能。在本文中，我们将通过使用Python获取股票的闭市价格，并且对股票价格进行分析从而向我们提供买卖股票的依据。

数据获取

需要说明的是在这里我们获取的是美国股票的数据。至于中国股市的数据大家可以分享一下哪里可以找到。

首先，我们先import我们需要用的modules:

import numpy as np
from pandas_datareader import data
import matplotlib.pyplot as plt
import pandas as pdfrom datetime import date, timedelta

对于这些module不熟悉的同学可以自行去网上查找说明，总体上都是非常常用的进行数据分析和可视化的module。然后我们通过下面的代码从Google finance上获取我们定义的股票的交易数据。

tickers = ['U', 'SHOP', 'DDOG', 'SNOW']# how many days looks back
days_backward = 365start_date = (date.today() - timedelta(days=days_backward)).strftime('%Y-%m-%d')
end_date = date.today().strftime('%Y-%m-%d')panel_data = data.DataReader(tickers, 'stooq', start_date, end_date)
panel_data.head()

在上面的代码中，我们定义4支股票的代码：U, SHOP, DDOG, 和SNOW。这四支股票都是成长股，具有一定的可比性。然后我们定义了获取交易数据的时间长度，定义为过去的365天。通过时间长度我们算出开始的日期。结束的日期就定义为今天。然后我们就可以通过stooq从Google finance上获取交易数据了。关于Python如何获取远程数据以及更多可用的数据源大家看看这篇文档。我们得到的DataFrame看起来如下图所示：

我们看到我们获取了闭市的价格，还是最高价，最低价，和开市的价格，还有成交的数量。我们想用的是闭市的价格，通过以下的代码获取：

close = panel_data['Close']# data range with business day frequency - https://pandas.pydata.org/docs/reference/api/pandas.date_range.html
all_weekdays = pd.date_range(start=start_date, end=end_date, freq='B')close = close.reindex(all_weekdays)# Fill values by propagating the last valid observation to next valid - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html
close = close.fillna(method='ffill')close.head(10)

这里我们获取了闭市的数据，同时我们还对数据重新进行了索引，并且对不可用的数据重新进行了填充。现在我们的数据看起来是这样的：

计算股票的累计盈亏

我们要计算每一支股票累计上升或者下跌的百分比。之所以用百分比而不是直接用价格是因为每支股票的价格区别比较大。将价格的变化转换为百分比相当于对各支股票的价格变化进行正规化处理。我们使用如下的代码计算各支股票的累计盈亏：

# Relative returns - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pct_change.html
returns = close.pct_change(1)total_returns = returns.cumsum().tail(1).transpose();
total_returns.sort_values(by=total_returns.columns[0], ascending=False, inplace=True)
total_returns

这里我们按照股票盈亏从大到小进行了排序并输出：

然后我们可以用如下的代码通过柱状图将各支股票的盈亏百分比可视化：

import seaborn as sns
sns.set(style='darkgrid', context='talk', palette='Dark2')total_returns.plot(kind='bar');

输出如下：

我们还可以用如下代码绘制各支股票盈亏百分比的变化情况：

plt.figure(figsize=(16, 6))
for c in returns:plt.plot(log_returns.index, 100*(np.exp(log_returns[c].cumsum()) - 1), label=str(c))plt.ylabel('Total relative returns (%)')
plt.legend(loc='best')plt.show()

输出：

决定如何购买股票

在这里，我们做一个假设，股票的历史表现可以复制到未来的表现。这在股市当中是很合理的假设。因为公司表现的好坏非常有可能延续下去。所以我们如果有一定金额的资金想投资到这些股票上，一种策略是基于每支股票之前的表现，按照比例分配购买的资金。但是我们发现还有一个问题，有些股票可能是亏损的。所以我们在按照比例分配购买资金前，要先将这样的股票剔除出去。我们定义如下的函数完成这个工作：

def get_profitable_stocks(returns):cum_sum = returns.cumsum()return list(cum_sum.loc[:, (cum_sum.iloc[[-1]] > 0).any()].keys())get_profitable_stocks(returns)

我们发现目前为止所有的股票都是盈利的。然后我们定义如下的函数完成按照盈利的比例分配购买资金的功能：

# calculate ratio of buying power for stocks based on accumulative earning.
def calc_fund(returns, fund, max_stock_count = 10):column = total_returns.columns[0]positive_total_returns = total_returns[total_returns[column] > 0]stock_count = min(len(positive_total_returns), max_stock_count)positive_total_returns['ratio'] = positive_total_returns[column] / positive_total_returns[column].sum()positive_total_returns['fund'] = positive_total_returns['ratio'] * fundreturn positive_total_returns['fund']

现在假设我们有1000元，我们测试以下得到的结果如何：