豆子喜欢看小说 但是很多小说网页的爬虫很不给力,更新不及时。本来想看看Powershell有没有类似Python scarpy的能力,结果很失望,不过意外的发现很多搜索引擎都提供了API 可以通过PowerShell直接调用。


下面以微软的BING为例。

首先需要在azure的datamarket申请一个账号

https://datamarket.azure.com/dataset/bing/search#terms


用windows live账号登录,然后选择第一个就行了,这个每个月可以免费查询5000次,做个测试够用了。



切换到My Account ->My Data,这里可以直接使用一个在线版的API


比如说,我可以搜索不同的内容,网页,图像,视频,新闻等等~


注意有个Primary Account Key, 这个就是我的主账号,调用API的时候需要通过这个ID来验证的


下面看看怎么在PowerShell里面调用。

我在网上搜索了一些,大部分是旧版的语法和例子,具体的语法也语焉不详 要不然就是一个链接直接执行MSDN,这个对于非专业的码农来说很难找到合适的例子,幸好找到一篇参考文章

http://www.powershelladmin.com/wiki/Accessing_the_Bing_Search_API_v2_using_PowerShell


首先根据主账号生成对应的access token, 大概可以参考这个链接

https://msdn.microsoft.com/en-AU/library/azure/dn798668.aspx#ManuallyCreateToken


然后比着上面那个GUI的自动生成的query格式写个function转换成需要的语法结构,因为他的返回值可以是xml或者json,因此直接用invoke-restmethod 调用就行了

$Key='2rNmeyElCeWRJ1DLvRl5ReJ0l85R/klsdjlskfs'#这个ID我改了一下,不是真的$Base64KeyBytes=[byte[]][Text.Encoding]::ASCII.GetBytes("ignored:$Key")$Base64Key=[Convert]::ToBase64String($Base64KeyBytes)functionGet-BingQuery{param([string[]]$Query)Add-Type-AssemblySystem.Web$Query='%27'+(($Query|%{[Web.HttpUtility]::UrlEncode($_)})-join'+')+'%27'#Returntheproperstring.$Query}$QueryString=Get-BingQuery'music'$Uri='https://api.datamarket.azure.com/Bing/Search/Web?$format=json&$top=5&Query='+$QueryString$Results=Invoke-RestMethod-Uri$Uri-Headers@{Authorization="Basic$Base64Key"}$Results.d.results|SelectTitle,Description,DisplayUrl,Url|fl

结果如下:

成功