<div dir="ltr">Rayson, this is a derivative of the Scientific Linux 6.3 AMI that was pointed to previously from the StarCluster site.<div><br></div><div style>Thanks,</div><div style>Lyn</div></div><div class="gmail_extra">
<br><br><div class="gmail_quote">On Wed, Jan 22, 2014 at 12:13 PM, Rayson Ho <span dir="ltr">&lt;<a href="mailto:raysonlogin@gmail.com" target="_blank">raysonlogin@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Which AMI did you use? Seems like it is missing some files...<br>
<br>
Rayson<br>
<br>
==================================================<br>
Open Grid Scheduler - The Official Open Source Grid Engine<br>
<a href="http://gridscheduler.sourceforge.net/" target="_blank">http://gridscheduler.sourceforge.net/</a><br>
<a href="http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html" target="_blank">http://gridscheduler.sourceforge.net/GridEngine/GridEngineCloud.html</a><br>
<div><div class="h5"><br>
<br>
On Wed, Jan 22, 2014 at 5:10 PM, Lyn Gerner &lt;<a href="mailto:schedulerqueen@gmail.com">schedulerqueen@gmail.com</a>&gt; wrote:<br>
&gt; Hi All,<br>
&gt;<br>
&gt; I am trying to launch a 3-node cluster (using 0.94.3), and keep getting an<br>
&gt; error during SGE install on the master, which blows the install of it and<br>
&gt; the remaining nodes out of the water.<br>
&gt;<br>
&gt; My starcluster config file specifies disable_queue = true and then invokes<br>
&gt; the sge plugin with MASTER_IS_EXEC_HOST = False, so all it needs to do is<br>
&gt; install and bring up qmaster.<br>
&gt;<br>
&gt; The qmaster does come up, however, the cluster start keeps timing out with<br>
&gt; the following:<br>
&gt;<br>
&gt;&gt;&gt;&gt; Installing Sun Grid Engine...<br>
&gt; !!! ERROR - Error occured while running plugin &#39;sge&#39;:<br>
&gt; !!! ERROR - remote command &#39;source /etc/profile &amp;&amp; cd /opt/sge6 &amp;&amp;<br>
&gt; !!! ERROR - TERM=rxvt ./inst_sge -m -noremote -auto ./ec2_sge.conf&#39;<br>
&gt; !!! ERROR - failed with status 1:<br>
&gt; !!! ERROR - Reading configuration from file ./ec2_sge.conf<br>
&gt; !!! ERROR - [H[2JInstall log can be found in: /opt/sge6/default/common/i<br>
&gt; !!! ERROR - nstall_logs/qmaster_install_master_2014-01-22_21:55:08.log<br>
&gt;<br>
&gt; In the install log, it&#39;s waiting for the SGE qmaster pid file to show up,<br>
&gt; times out after 5mins, and tells me to check my autoinstall config file.<br>
&gt;<br>
&gt; Here are the ps output, and the installation log.<br>
&gt;<br>
&gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt; # ps -ef|grep master<br>
&gt; avahi     1038     1  0 20:42 ?        00:00:00 avahi-daemon: running<br>
&gt; [master.local]<br>
&gt; root      1442     1  0 20:43 ?        00:00:00 /usr/libexec/postfix/master<br>
&gt; sgeadmin  1629     1  0 20:43 ?        00:00:00<br>
&gt; /opt/sge6/bin/linux-x64/sge_qmaster<br>
&gt; root     18277  4408  0 21:30 pts/0    00:00:00 /bin/grep --color=auto<br>
&gt; master<br>
&gt;<br>
&gt; root@AWS-VTMXmaster-w2b /opt/sge6/default/common/install_logs<br>
&gt; # cat qmaster_install_master_2014-01-22_21:22:55.log<br>
&gt; Starting qmaster installation!<br>
&gt;<br>
&gt; Installing Grid Engine as admin user &gt;sgeadmin&lt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Your $SGE_ROOT directory: /opt/sge6<br>
&gt;<br>
&gt; Using SGE_QMASTER_PORT &gt;63231&lt;.<br>
&gt;<br>
&gt; Using SGE_EXECD_PORT &gt;63232&lt;.<br>
&gt;<br>
&gt; Using &gt;default&lt; as CELL_NAME.<br>
&gt;<br>
&gt;<br>
&gt; Your $SGE_CLUSTER_NAME: starcluster<br>
&gt;<br>
&gt; Using &gt;/opt/sge6/default/spool/qmaster&lt; as QMASTER_SPOOL_DIR.<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Obviously this is not a complete Grid Engine distribution or this<br>
&gt; is not your $SGE_ROOT directory.<br>
&gt;<br>
&gt; Missing file or directory: start_gui_installer<br>
&gt;<br>
&gt; Your file permissions will not be set. Exit.<br>
&gt;<br>
&gt;<br>
&gt; Using &gt;true&lt; as IGNORE_FQDN_DEFAULT.<br>
&gt; If it&#39;s &gt;true&lt;, the domain name will be ignored.<br>
&gt;<br>
&gt;<br>
&gt; Making directories<br>
&gt;<br>
&gt; Setting spooling method to dynamic<br>
&gt; Dumping bootstrapping information<br>
&gt; Initializing spooling database<br>
&gt;<br>
&gt;<br>
&gt; Using &gt;20000-20100&lt; as gid range.<br>
&gt; Using &gt;/opt/sge6/default/spool&lt; as EXECD_SPOOL_DIR.<br>
&gt; Using &gt;<a href="mailto:none@none.edu">none@none.edu</a>&lt; as ADMIN_MAIL.<br>
&gt; Adding default parallel environments (PE)<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;    starting sge_qmaster<br>
&gt; Reached 5min timeout, while waiting for qmaster PID file.<br>
&gt; sge_qmaster daemon didn&#39;t start. Please check your<br>
&gt; autoinstall configuration file! Installation failed!<br>
&gt; &quot;<br>
&gt;<br>
&gt; It&#39;s this same error on every attempt, and I am using an unmodified<br>
&gt; ec2_sge.conf file.<br>
&gt;<br>
&gt; Appreciate any suggestions for how to get over this.<br>
&gt;<br>
&gt; Thanks much,<br>
&gt; Lyn<br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; StarCluster mailing list<br>
&gt; <a href="mailto:StarCluster@mit.edu">StarCluster@mit.edu</a><br>
&gt; <a href="http://mailman.mit.edu/mailman/listinfo/starcluster" target="_blank">http://mailman.mit.edu/mailman/listinfo/starcluster</a><br>
&gt;<br>
</blockquote></div><br></div>